論文の概要: Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval
- arxiv url: http://arxiv.org/abs/2509.16446v1
- Date: Fri, 19 Sep 2025 21:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.795161
- Title: Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval
- Title(参考訳): LLMに基づく生成レコメンデーションと検索のための純粋意味索引作成
- Authors: Ruohan Zhang, Jiacheng Li, Julian McAuley, Yupeng Hou,
- Abstract要約: 非意味トークンを付加することなく、ユニークな意味保存IDを生成するために、純粋に意味インデックスを提案する。
我々は、厳密な最寄りのセントロイド選択を緩和し、2つのモデル非依存アルゴリズムを導入することにより、ユニークなID割り当てを可能にする。
- 参考スコア(独自算出の注目度): 28.366331215978445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic identifiers (IDs) have proven effective in adapting large language models for generative recommendation and retrieval. However, existing methods often suffer from semantic ID conflicts, where semantically similar documents (or items) are assigned identical IDs. A common strategy to avoid conflicts is to append a non-semantic token to distinguish them, which introduces randomness and expands the search space, therefore hurting performance. In this paper, we propose purely semantic indexing to generate unique, semantic-preserving IDs without appending non-semantic tokens. We enable unique ID assignment by relaxing the strict nearest-centroid selection and introduce two model-agnostic algorithms: exhaustive candidate matching (ECM) and recursive residual searching (RRS). Extensive experiments on sequential recommendation, product search, and document retrieval tasks demonstrate that our methods improve both overall and cold-start performance, highlighting the effectiveness of ensuring ID uniqueness.
- Abstract(参考訳): 意味的識別子(ID)は、生成的レコメンデーションと検索のために大きな言語モデルを適用するのに有効であることが証明されている。
しかし、既存のメソッドは、意味的に類似したドキュメント(またはアイテム)が同一のIDに割り当てられるセマンティックIDの競合に悩まされることが多い。
競合を避けるための一般的な戦略は、意味のないトークンを区別するために追加することであり、ランダム性を導入し、検索スペースを拡大し、パフォーマンスを損なう。
本稿では,非意味トークンを付加することなく,ユニークな意味保存IDを生成するために,純粋に意味インデックスを提案する。
我々は,厳密な最寄りのセントロイド選択を緩和し,排他的候補マッチング (ECM) と再帰的残留探索 (RRS) の2つのモデル非依存アルゴリズムを導入することにより,ユニークなID割り当てを可能にする。
シーケンシャルレコメンデーション,製品検索,文書検索タスクに関する広範囲な実験により,本手法は全般的およびコールドスタート性能を向上し,IDの独特性を確実にする効果を浮き彫りにしている。
関連論文リスト
- Semantic IDs for Joint Generative Search and Recommendation [39.49814138519702]
ジェネレーティブモデルは、レコメンデーションと検索の両方をパワーアップするための統一されたソリューションとして登場しつつある。
統一モデルを用いた場合,検索とレコメンデーションの両方でよく機能するセマンティックIDを構築する方法を示す。
論文 参考訳(メタデータ) (2025-08-14T09:28:49Z) - Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。