論文の概要: Variable-Length Semantic IDs for Recommender Systems
- arxiv url: http://arxiv.org/abs/2602.16375v1
- Date: Wed, 18 Feb 2026 11:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.586421
- Title: Variable-Length Semantic IDs for Recommender Systems
- Title(参考訳): リコメンダシステムのための可変長セマンティックID
- Authors: Kirill Khrylchenko,
- Abstract要約: 推薦システムにおける鍵となる課題は、アイテム空間の極端に大きな濃度である。
既存のアプローチは固定長のセマンティック識別子を生成し、すべての項目に同じ記述長を割り当てる。
これは非効率であり、自然言語と不一致であり、現実世界のカタログの高度に歪んだ周波数構造を無視している。
本稿では,適応長の項目表現を原理的確率的枠組みで学習する離散変分オートエンコーダを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models are increasingly used in recommender systems, both for modeling user behavior as event sequences and for integrating large language models into recommendation pipelines. A key challenge in this setting is the extremely large cardinality of item spaces, which makes training generative models difficult and introduces a vocabulary gap between natural language and item identifiers. Semantic identifiers (semantic IDs), which represent items as sequences of low-cardinality tokens, have recently emerged as an effective solution to this problem. However, existing approaches generate semantic identifiers of fixed length, assigning the same description length to all items. This is inefficient, misaligned with natural language, and ignores the highly skewed frequency structure of real-world catalogs, where popular items and rare long-tail items exhibit fundamentally different information requirements. In parallel, the emergent communication literature studies how agents develop discrete communication protocols, often producing variable-length messages in which frequent concepts receive shorter descriptions. Despite the conceptual similarity, these ideas have not been systematically adopted in recommender systems. In this work, we bridge recommender systems and emergent communication by introducing variable-length semantic identifiers for recommendation. We propose a discrete variational autoencoder with Gumbel-Softmax reparameterization that learns item representations of adaptive length under a principled probabilistic framework, avoiding the instability of REINFORCE-based training and the fixed-length constraints of prior semantic ID methods.
- Abstract(参考訳): 生成モデルは、イベントシーケンスとしてのユーザの振る舞いのモデル化と、大規模な言語モデルをレコメンデーションパイプラインに統合するためのいずれにおいても、レコメンデーションシステムでますます利用されている。
この設定における重要な課題は、アイテム空間の極端に大きな濃度であることであり、これは、生成モデルの訓練を困難にし、自然言語とアイテム識別子間の語彙的ギャップを導入する。
セマンティック識別子(セマンティックID)は、近年、この問題に対する効果的な解決策として出現している。
しかし、既存のアプローチでは、すべての項目に同じ記述長を割り当て、固定長のセマンティック識別子を生成する。
これは非効率であり、自然言語と不一致であり、人気のあるアイテムや稀なロングテールアイテムが根本的に異なる情報要求を示す現実世界のカタログの高度に歪んだ周波数構造を無視している。
並行して、創発的なコミュニケーション文献は、エージェントが個別の通信プロトコルを開発する方法を研究し、しばしば、頻繁な概念が短い記述を受信する可変長のメッセージを生成する。
概念的類似性にもかかわらず、これらのアイデアは推奨システムでは体系的に採用されていない。
本研究では,変数長のセマンティック識別子を導入してレコメンデーションシステムと創発的コミュニケーションを橋渡しする。
本稿では,適応長の項目表現を原則的確率的枠組みで学習するGumbel-Softmax再パラメータ化を用いた離散変分オートエンコーダを提案する。
関連論文リスト
- GLASS: A Generative Recommender for Long-sequence Modeling via SID-Tier and Semantic Search [51.44490997013772]
GLASSは、SID-TierとSemantic Searchを通じて、長期的なユーザ関心を生成プロセスに統合する新しいフレームワークである。
GLASSは2つの大規模実世界のデータセットの実験において最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-05T13:48:33Z) - Unleashing the Native Recommendation Potential: LLM-Based Generative Recommendation via Structured Term Identifiers [51.64398574262054]
本稿では,意味的にリッチで標準化されたテキストキーワードの集合として定義された用語ID(TID)を導入し,堅牢な項目識別子として機能する。
本稿では,TIDを中心にした新しいフレームワークGRLMを提案し,項目のメタデータを標準化されたTIDに変換し,統合的インストラクションファインタニングを活用して,用語の内部化とシーケンシャルレコメンデーションを協調的に最適化する。
論文 参考訳(メタデータ) (2026-01-11T07:53:20Z) - MLLM-Driven Semantic Identifier Generation for Generative Cross-Modal Retrieval [7.524529523498721]
本稿では,MLLMに画像キャプチャーペアから構造化意味識別子を生成するための語彙効率のよい識別子生成フレームワークを提案する。
これらの識別子は、オブジェクトやアクションのような概念レベルのトークンで構成され、モデルの生成空間と自然に整合している。
また、Rationale-Guided Supervision Strategyを導入し、各識別子と並行して一文説明を作成するよう促す。
論文 参考訳(メタデータ) (2025-09-22T05:23:06Z) - Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。