論文の概要: C2T-ID: Converting Semantic Codebooks to Textual Document Identifiers for Generative Search
- arxiv url: http://arxiv.org/abs/2510.19221v1
- Date: Wed, 22 Oct 2025 04:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.038143
- Title: C2T-ID: Converting Semantic Codebooks to Textual Document Identifiers for Generative Search
- Title(参考訳): C2T-ID:ジェネレーティブ検索のためのセマンティックコードブックをテキスト文書識別子に変換する
- Authors: Yingchen Zhang, Ruqing Zhang, Jiafeng Guo, Wenjun Peng, Sen Li, Fuyu Lv, Xueqi Cheng,
- Abstract要約: 本稿では,階層クラスタリングによる意味的数値決定法を構築するC2T-IDを提案する。
C2T-IDは、アトミック、セマンティック・コードブック、純粋テキスト・ドシッド・ベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 73.61009656398384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing document identifiers (docids) that carry rich semantic information while maintaining tractable search spaces is a important challenge in generative retrieval (GR). Popular codebook methods address this by building a hierarchical semantic tree and constraining generation to its child nodes, yet their numeric identifiers cannot leverage the large language model's pretrained natural language understanding. Conversely, using text as docid provides more semantic expressivity but inflates the decoding space, making the system brittle to early-step errors. To resolve this trade-off, we propose C2T-ID: (i) first construct semantic numerical docid via hierarchical clustering; (ii) then extract high-frequency metadata keywords and iteratively replace each numeric label with its cluster's top-K keywords; and (iii) an optional two-level semantic smoothing step further enhances the fluency of C2T-ID. Experiments on Natural Questions and Taobao's product search demonstrate that C2T-ID significantly outperforms atomic, semantic codebook, and pure-text docid baselines, demonstrating its effectiveness in balancing semantic expressiveness with search space constraints.
- Abstract(参考訳): 抽出可能な検索空間を維持しながら、豊富な意味情報を伝達する文書識別子(ドクト)を設計することは、生成的検索(GR)において重要な課題である。
一般的なコードブック手法は、階層的なセマンティックツリーを構築し、その子ノードに生成を制約することでこの問題に対処するが、その数値識別子は、大きな言語モデルの事前訓練された自然言語理解を活用できない。
逆に、docidとしてテキストを使用すると意味表現性が向上するが、デコードスペースが膨らみ、システムが早期のエラーに脆弱になる。
このトレードオフを解決するために,我々はC2T-IDを提案する。
一 階層的クラスタリングによる意味的数値決定
(ii) 高周波メタデータキーワードを抽出し、各数値ラベルをクラスタの上位Kキーワードに反復的に置換し、
3)オプションの2段階のセマンティックスムースメントステップにより,C2T-IDの拡散がさらに促進される。
Natural Questions と Taobao の製品検索実験では、C2T-ID はアトミック、セマンティック・コードブック、純粋テキスト・ドシッド・ベースラインを著しく上回り、セマンティック・表現性と検索空間の制約のバランスをとる効果を示す。
関連論文リスト
- Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval [28.366331215978445]
非意味トークンを付加することなく、ユニークな意味保存IDを生成するために、純粋に意味インデックスを提案する。
我々は、厳密な最寄りのセントロイド選択を緩和し、2つのモデル非依存アルゴリズムを導入することにより、ユニークなID割り当てを可能にする。
論文 参考訳(メタデータ) (2025-09-19T21:59:55Z) - Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。