論文の概要: CAT-ID$^2$: Category-Tree Integrated Document Identifier Learning for Generative Retrieval In E-commerce
- arxiv url: http://arxiv.org/abs/2511.01461v2
- Date: Tue, 04 Nov 2025 03:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.235493
- Title: CAT-ID$^2$: Category-Tree Integrated Document Identifier Learning for Generative Retrieval In E-commerce
- Title(参考訳): CAT-ID$^2$: Category-Tree Integrated Document Identifier Learning for Generative Retrieval in E-Commerce
- Authors: Xiaoyu Liu, Fuwei Zhang, Yiqing Wu, Xinyu Jia, Zenghua Xia, Fuzhen Zhuang, Zhao Zhang, Fei Jiang, Wei Lin,
- Abstract要約: 大規模言語モデル(LLM)の機能を統合する効果的なパラダイムとして,ジェネレーティブ検索(GR)が注目されている。
GRの主な課題は、強力な表現力を持つドキュメントID(DocIDS)を構築する方法である。
本稿では,従来のカテゴリ情報をセマンティックIDに組み込んだ新しいID学習手法であるCategory-Tree Integrated Document IDentifier (CAT-ID$2$)を提案する。
- 参考スコア(独自算出の注目度): 35.700374519868724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative retrieval (GR) has gained significant attention as an effective paradigm that integrates the capabilities of large language models (LLMs). It generally consists of two stages: constructing discrete semantic identifiers (IDs) for documents and retrieving documents by autoregressively generating ID tokens. The core challenge in GR is how to construct document IDs (DocIDS) with strong representational power. Good IDs should exhibit two key properties: similar documents should have more similar IDs, and each document should maintain a distinct and unique ID. However, most existing methods ignore native category information, which is common and critical in E-commerce. Therefore, we propose a novel ID learning method, CAtegory-Tree Integrated Document IDentifier (CAT-ID$^2$), incorporating prior category information into the semantic IDs. CAT-ID$^2$ includes three key modules: a Hierarchical Class Constraint Loss to integrate category information layer by layer during quantization, a Cluster Scale Constraint Loss for uniform ID token distribution, and a Dispersion Loss to improve the distinction of reconstructed documents. These components enable CAT-ID$^2$ to generate IDs that make similar documents more alike while preserving the uniqueness of different documents' representations. Extensive offline and online experiments confirm the effectiveness of our method, with online A/B tests showing a 0.33% increase in average orders per thousand users for ambiguous intent queries and 0.24% for long-tail queries.
- Abstract(参考訳): ジェネレーティブ検索(GR)は,大規模言語モデル(LLM)の機能を統合する効果的なパラダイムとして注目されている。
一般に、文書の個別のセマンティック識別子(ID)の構築と、IDトークンの自動回帰生成による文書の検索という2つの段階から構成される。
GRの主な課題は、強力な表現力を持つドキュメントID(DocIDS)を構築する方法である。
類似したドキュメントは、より類似したIDを持ち、それぞれのドキュメントは、別個のユニークなIDを保持するべきである。
しかし、既存のほとんどの手法は、Eコマースにおいて一般的で重要なネイティブカテゴリ情報を無視している。
そこで本研究では,CAT-ID$^2$(Category-Tree Integrated Document IDentifier)という新たなID学習手法を提案する。
CAT-ID$^2$には、量子化中のカテゴリ情報層を階層的に統合する階層型クラス制約損失、均一なIDトークン分布のためのクラスタスケール制約損失、再構成ドキュメントの区別を改善するための分散損失の3つの主要なモジュールが含まれている。
これらのコンポーネントにより、CAT-ID$^2$は、異なるドキュメントの表現のユニークさを保ちながら、類似のドキュメントをより類似させるIDを生成することができる。
大規模なオフラインおよびオンライン実験により,本手法の有効性が確認された。オンラインA/Bテストでは,不明瞭なインテントクエリに対して1000ユーザ当たり平均注文数が0.33%増加し,ロングテールクエリでは0.24%増加した。
関連論文リスト
- Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval [28.366331215978445]
非意味トークンを付加することなく、ユニークな意味保存IDを生成するために、純粋に意味インデックスを提案する。
我々は、厳密な最寄りのセントロイド選択を緩和し、2つのモデル非依存アルゴリズムを導入することにより、ユニークなID割り当てを可能にする。
論文 参考訳(メタデータ) (2025-09-19T21:59:55Z) - Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Identity Documents Authentication based on Forgery Detection of
Guilloche Pattern [2.606834301724095]
ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。
認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。
論文 参考訳(メタデータ) (2022-06-22T11:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。