論文の概要: C2T-ID: Converting Semantic Codebooks to Textual Document Identifiers for Generative Search
- arxiv url: http://arxiv.org/abs/2510.19221v1
- Date: Wed, 22 Oct 2025 04:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.038143
- Title: C2T-ID: Converting Semantic Codebooks to Textual Document Identifiers for Generative Search
- Title(参考訳): C2T-ID:ジェネレーティブ検索のためのセマンティックコードブックをテキスト文書識別子に変換する
- Authors: Yingchen Zhang, Ruqing Zhang, Jiafeng Guo, Wenjun Peng, Sen Li, Fuyu Lv, Xueqi Cheng,
- Abstract要約: 本稿では,階層クラスタリングによる意味的数値決定法を構築するC2T-IDを提案する。
C2T-IDは、アトミック、セマンティック・コードブック、純粋テキスト・ドシッド・ベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 73.61009656398384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing document identifiers (docids) that carry rich semantic information while maintaining tractable search spaces is a important challenge in generative retrieval (GR). Popular codebook methods address this by building a hierarchical semantic tree and constraining generation to its child nodes, yet their numeric identifiers cannot leverage the large language model's pretrained natural language understanding. Conversely, using text as docid provides more semantic expressivity but inflates the decoding space, making the system brittle to early-step errors. To resolve this trade-off, we propose C2T-ID: (i) first construct semantic numerical docid via hierarchical clustering; (ii) then extract high-frequency metadata keywords and iteratively replace each numeric label with its cluster's top-K keywords; and (iii) an optional two-level semantic smoothing step further enhances the fluency of C2T-ID. Experiments on Natural Questions and Taobao's product search demonstrate that C2T-ID significantly outperforms atomic, semantic codebook, and pure-text docid baselines, demonstrating its effectiveness in balancing semantic expressiveness with search space constraints.
- Abstract(参考訳): 抽出可能な検索空間を維持しながら、豊富な意味情報を伝達する文書識別子(ドクト)を設計することは、生成的検索(GR)において重要な課題である。
一般的なコードブック手法は、階層的なセマンティックツリーを構築し、その子ノードに生成を制約することでこの問題に対処するが、その数値識別子は、大きな言語モデルの事前訓練された自然言語理解を活用できない。
逆に、docidとしてテキストを使用すると意味表現性が向上するが、デコードスペースが膨らみ、システムが早期のエラーに脆弱になる。
このトレードオフを解決するために,我々はC2T-IDを提案する。
一 階層的クラスタリングによる意味的数値決定
(ii) 高周波メタデータキーワードを抽出し、各数値ラベルをクラスタの上位Kキーワードに反復的に置換し、
3)オプションの2段階のセマンティックスムースメントステップにより,C2T-IDの拡散がさらに促進される。
Natural Questions と Taobao の製品検索実験では、C2T-ID はアトミック、セマンティック・コードブック、純粋テキスト・ドシッド・ベースラインを著しく上回り、セマンティック・表現性と検索空間の制約のバランスをとる効果を示す。
関連論文リスト
- Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval [28.366331215978445]
非意味トークンを付加することなく、ユニークな意味保存IDを生成するために、純粋に意味インデックスを提案する。
我々は、厳密な最寄りのセントロイド選択を緩和し、2つのモデル非依存アルゴリズムを導入することにより、ユニークなID割り当てを可能にする。
論文 参考訳(メタデータ) (2025-09-19T21:59:55Z) - Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - CSSAM:Code Search via Attention Matching of Code Semantics and
Structures [8.547332796736107]
本稿では,CSSAM (Code Semantics and Structures Attention Matching) というコード検索モデルを提案する。
意味的および構造的マッチング機構を導入することにより、CSSAMは多次元コードの特徴を効果的に抽出し、融合する。
残りのインタラクションを活用することで、マッチングモジュールはより多くのコードセマンティクスと記述的機能を保持するように設計されている。
論文 参考訳(メタデータ) (2022-08-08T05:45:40Z) - Constrained Sequence-to-Tree Generation for Hierarchical Text
Classification [10.143177923523407]
階層的テキスト分類(HTC)は、分類学内で複数の階層的に構造化されたカテゴリに文書を割り当てる難易度の高いタスクである。
本稿では,HTCをシーケンス生成タスクとして定式化し,階層的なラベル構造をモデル化するためのシーケンス・ツー・ツリー・フレームワーク(Seq2Tree)を導入する。
論文 参考訳(メタデータ) (2022-04-02T08:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。