論文の概要: Discrimination Is Generation: Unifying Ranking and Retrieval from a Tokenizer Perspective
- arxiv url: http://arxiv.org/abs/2605.14853v1
- Date: Thu, 14 May 2026 13:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.858367
- Title: Discrimination Is Generation: Unifying Ranking and Retrieval from a Tokenizer Perspective
- Title(参考訳): 差別は生成する: トケナイザーの視点からランク付けと検索を統一する
- Authors: Shuli Wang, Junwei Yin, Changhao Li, Senjie Kou, Chi Wang, Yinqiu Huang, Yinhua Zhu, Haitao Wang, Xingxing Wang,
- Abstract要約: DIG (textbfDiscrimination textbfIs textbfGeneration) を提案する。
3つの公開ベンチマークと2つの産業データセットの実験は、DIGが同時にランク付け、検索、統合された検索レベルの品質を改善していることを示している。
- 参考スコア(独自算出の注目度): 14.332200648147863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic IDs (SIDs) define the generation space of generative recommendation and directly determine its personalization ceiling. However, existing tokenizers are trained independently with retrieval objectives, leaving personalization signals fully decoupled from the SID construction process -- a fundamental gap that causes generative retrieval to persistently lag behind discriminative ranking. In this paper, we rethink the essence of SIDs: \emph{ranking seeks argmax in item space while retrieval seeks argmax in token space; both are the same problem solved at different granularities.} Based on this insight, we propose \DIG (\textbf{D}iscrimination \textbf{I}s \textbf{G}eneration), which embeds the tokenizer inside a discriminative ranking model for end-to-end training -- the ranker naturally becomes a retrieval model, yielding two models from a single training run. \DIG is organized around a \emph{feature assignment taxonomy}: item-intrinsic static features are encoded into SIDs, user-item cross features (u2i) implicitly drive codebook boundaries toward recommendation decision boundaries during training, and an MLP$_\mathrm{u2t}$ distillation module approximates u2i at the token level for inference. Experiments on three public benchmarks and two industrial datasets demonstrate that \DIG simultaneously improves ranking, retrieval, and unified retrieval-ranking quality.
- Abstract(参考訳): セマンティックID(SID)は、生成レコメンデーションの生成空間を定義し、そのパーソナライズ天井を直接決定する。
しかし、既存のトークンライザは検索目的と独立して訓練されており、個人化信号はSID構築プロセスから完全に分離されている。
本稿では、SIDの本質を再考する: \emph{ rank seeks argmax in item space while retrieve seeks argmax in token space; これらはどちらも異なる粒度で解決されたのと同じ問題である。
この知見に基づいて,エンド・ツー・エンド・トレーニングの識別的ランキングモデル内にトークン化子を埋め込んだ,DIG(\textbf{D}iscrimination \textbf{I}s \textbf{G}eneration)を提案する。
アイテム固有の静的特徴はSIDにエンコードされ、ユーザ-itemのクロスフィーチャ(u2i)は暗黙的にコードブック境界をトレーニング中の推奨決定境界に向かって駆動し、MLP$_\mathrm{u2t}$蒸留モジュールは推論のためのトークンレベルでu2iに近似する。
3つの公開ベンチマークと2つの産業データセットの実験は、 \DIGが同時にランク付け、検索、統一された検索品質を改善することを示した。
関連論文リスト
- From Local Indices to Global Identifiers: Generative Reranking for Recommender Systems via Global Action Space [50.72071213515985]
GloRankは、ローカルインデックスの選択からグローバル識別子の生成に移行する、ジェネレーティブなフレームワークである。
我々はGloRankが最先端のベースラインを一貫して上回り、コールドスタートシナリオにおいて優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2026-04-28T06:57:00Z) - UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute [12.89120699793625]
Generative Recommendation (GR) reframes search and ranking as autoregressive decoding over Semantic IDs (SIDs)
p(y|f,u) によるランクは p(f|y,u) によるランクと同値であり、アイテムの特徴を自己回帰的に分解する。
提案するUniRecとChain-of-Attribute(CoA)は、その中核となるメカニズムである。CoAは、SIDを復号する前に構造化属性トークン:カテゴリ、販売者、ブランドを含む各SIDシーケンスをプレフィックスし、識別モデルが活用するアイテム側の特徴交差を復元する。
論文 参考訳(メタデータ) (2026-04-14T03:13:50Z) - End-to-End Semantic ID Generation for Generative Advertisement Recommendation [33.453121305193434]
生成広告推薦のための統一SID生成フレームワークを提案する。
具体的には、生の広告データからエンドツーエンドで埋め込みとSIDを協調的に最適化する。
実験により、UniSIDは最先端のSID生成方法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2026-02-11T02:38:26Z) - DiffGRM: Diffusion-based Generative Recommendation Model [63.35379395455103]
ジェネレーティブレコメンデーション(GR)は、トークン化器を介して各項目をn桁のセマンティックID(SID)として表現する新興パラダイムである。
自己回帰デコーダをマスク付き離散拡散モデル(MDM)に置き換える拡散ベースGRモデルDiffGRMを提案する。
実験では、複数のデータセットに対する強力な生成的および差別的推奨ベースラインよりも一貫した利得を示す。
論文 参考訳(メタデータ) (2025-10-21T03:23:32Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Dual-Refinement: Joint Label and Feature Refinement for Unsupervised
Domain Adaptive Person Re-Identification [51.98150752331922]
Unsupervised Domain Adaptive (UDA) Person Re-identification (再ID) は、ターゲットドメインデータのラベルが欠落しているため、難しい作業です。
オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズにおける特徴を共同で改良する,デュアルリファインメントと呼ばれる新しいアプローチを提案する。
本手法は最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-12-26T07:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。