論文の概要: Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations
- arxiv url: http://arxiv.org/abs/2306.08121v2
- Date: Thu, 30 May 2024 05:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-01 00:02:40.335179
- Title: Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations
- Title(参考訳): セマンティックIDによるより良い一般化:勧告のランク付けを事例として
- Authors: Anima Singh, Trung Vu, Nikhil Mehta, Raghunandan Keshavan, Maheswaran Sathiamoorthy, Yilin Zheng, Lichan Hong, Lukasz Heldt, Li Wei, Devansh Tandon, Ed H. Chi, Xinyang Yi,
- Abstract要約: 本稿では、ランダムIDの代替としてコンテンツ由来の特徴を用いることを提案する。
我々は、ID機能をコンテンツベースの埋め込みに置き換えるだけで、記憶能力の低下により品質が低下することを示した。
コンテンツ埋め込みと同様に、セマンティックIDのコンパクトさはレコメンデーションモデルにおいて容易に適応できる問題を引き起こす。
- 参考スコア(独自算出の注目度): 24.952222114424146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Randomly-hashed item ids are used ubiquitously in recommendation models. However, the learned representations from random hashing prevents generalization across similar items, causing problems of learning unseen and long-tail items, especially when item corpus is large, power-law distributed, and evolving dynamically. In this paper, we propose using content-derived features as a replacement for random ids. We show that simply replacing ID features with content-based embeddings can cause a drop in quality due to reduced memorization capability. To strike a good balance of memorization and generalization, we propose to use Semantic IDs -- a compact discrete item representation learned from frozen content embeddings using RQ-VAE that captures the hierarchy of concepts in items -- as a replacement for random item ids. Similar to content embeddings, the compactness of Semantic IDs poses a problem of easy adaption in recommendation models. We propose novel methods for adapting Semantic IDs in industry-scale ranking models, through hashing sub-pieces of of the Semantic-ID sequences. In particular, we find that the SentencePiece model that is commonly used in LLM tokenization outperforms manually crafted pieces such as N-grams. To the end, we evaluate our approaches in a real-world ranking model for YouTube recommendations. Our experiments demonstrate that Semantic IDs can replace the direct use of video IDs by improving the generalization ability on new and long-tail item slices without sacrificing overall model quality.
- Abstract(参考訳): ランダムにハッシュされたアイテムIDは、レコメンデーションモデルでユビキタスに使用される。
しかし、ランダムハッシュから学習した表現は、類似した項目の一般化を防ぎ、特にアイテムコーパスが大きく、ゆるい分布であり、動的に進化するときに、目に見えない、長い尾のアイテムを学習する問題を引き起こす。
本稿では,ランダムIDの代替として,コンテンツから派生した特徴を用いることを提案する。
我々は、ID機能をコンテンツベースの埋め込みに置き換えるだけで、記憶能力の低下により品質が低下することを示した。
記憶と一般化のバランスを良くするため,RQ-VAEを用いて凍結したコンテンツ埋め込みから学習したコンパクトな離散アイテム表現であるセマンティックIDを,ランダムなアイテムIDの代替として用いることを提案する。
コンテンツ埋め込みと同様に、セマンティックIDのコンパクトさはレコメンデーションモデルにおいて容易に適応できる問題を引き起こす。
本稿では,セマンティックID系列のサブピースをハッシュすることで,セマンティックIDを産業規模のランキングモデルに適用する手法を提案する。
特に, LLMトークン化で一般的に使用されるSentencePieceモデルは, N-gramsのような手作業で製作した作品よりも優れていた。
最終的に、YouTubeレコメンデーションの実際のランキングモデルを用いて、我々のアプローチを評価した。
実験により,セマンティックIDは,モデル品質を損なうことなく,新品および長期品目スライスへの一般化能力を向上させることで,ビデオIDの直接利用を置き換えることができることを示した。
関連論文リスト
- Towards Efficient and Generalizable Retrieval: Adaptive Semantic Quantization and Residual Knowledge Transfer [11.95059276298165]
本稿では,逐次適応量子化(SA2CRQ)フレームワークを用いたAnchored Curriculumを提案する。
このフレームワークはアイテムパスのエントロピーに基づいてコードの長さを割り当て、長い識別IDをヘッドアイテムに割り当て、より短い一般化可能なIDをテールアイテムに割り当てる。
本稿では,SA2CRQが既存のベースライン,特にコールドスタート検索シナリオに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-27T12:39:38Z) - Variable-Length Semantic IDs for Recommender Systems [0.0]
推薦システムにおける鍵となる課題は、アイテム空間の極端に大きな濃度である。
既存のアプローチは固定長のセマンティック識別子を生成し、すべての項目に同じ記述長を割り当てる。
これは非効率であり、自然言語と不一致であり、現実世界のカタログの高度に歪んだ周波数構造を無視している。
本稿では,適応長の項目表現を原理的確率的枠組みで学習する離散変分オートエンコーダを提案する。
論文 参考訳(メタデータ) (2026-02-18T11:29:05Z) - The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation [51.62815306481903]
我々は,SIDとHIDを調和させる新しいフレームワークであるtextbfnameを提案する。具体的には,HIDのユニークなコラボレーティブアイデンティティを保ちながら,SID内のマルチグラニュラーセマンティクスの両方をキャプチャ可能な,デュアルブランチモデリングアーキテクチャを考案する。
実世界の3つのデータセットの実験では、名前は、既存のベースラインを越えながら、頭と尾の両方の推奨品質のバランスをとる。
論文 参考訳(メタデータ) (2025-12-11T07:50:53Z) - Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval [28.366331215978445]
非意味トークンを付加することなく、ユニークな意味保存IDを生成するために、純粋に意味インデックスを提案する。
我々は、厳密な最寄りのセントロイド選択を緩和し、2つのモデル非依存アルゴリズムを導入することにより、ユニークなID割り当てを可能にする。
論文 参考訳(メタデータ) (2025-09-19T21:59:55Z) - Generating Long Semantic IDs in Parallel for Recommendation [29.97624755406803]
セマンティックIDベースのリコメンデーションのための軽量フレームワークであるRPGを提案する。
我々は、マルチトークン予測損失を用いて、各トークンを独立して予測するようにモデルを訓練する。
実験の結果、セマンティックIDの長さを64にスケールアップすることで、RPGは生成ベースラインを上回ります。
論文 参考訳(メタデータ) (2025-06-06T06:20:37Z) - Enhancing Embedding Representation Stability in Recommendation Systems with Semantic ID [29.560370412849874]
本稿では,従来のセマンティックIDの性能を大幅に向上させる新しいトークンパラメータ化手法であるセマンティックIDプレフィックスngramを紹介する。
セマンティックIDプレフィックスngramは, 組込み不安定性に対処するだけでなく, テールIDモデリングを著しく改善し, オーバーフィッティングを低減し, 表現シフトを緩和する。
また,Semantic IDをMeta Production Ads Rankingシステムに統合した経験を報告する。
論文 参考訳(メタデータ) (2025-04-02T21:28:38Z) - Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM [59.08493154172207]
本稿では,意味的トークン化と生成的レコメンデーションプロセスを合理化する統合フレームワークを提案する。
我々は,意味的トークン化をテキスト・ツー・ケントタスクとして定式化し,生成的推薦をトークン・ツー・ケントタスクとして,トークン・ツー・ケント・コンストラクションタスクとテキスト・ツー・ケント補助タスクで補足する。
これらのタスクはすべて生成的な方法でフレーム化され、単一の大規模言語モデル(LLM)バックボーンを使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - ASI++: Towards Distributionally Balanced End-to-End Generative Retrieval [29.65717446547002]
ASI++は、新しいエンドツーエンドの生成検索手法である。
バランスの取れたIDの割り当てを同時に学習し、検索性能を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-05-23T07:54:57Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - ESA-ReID: Entropy-Based Semantic Feature Alignment for Person re-ID [7.978877859859102]
実世界の人物識別(re-ID)は、監視システムにおける典型的な応用の他に、コンテンツビデオ(テレビ・映画)における人物識別のリコール率の向上にも意義がある。
本稿では,人間の意味的特徴の詳細な情報を利用するエントロピーに基づく意味的特徴アライメントモデルを提案する。
意味的セグメンテーションの不確実性を考慮すると、エントロピーに基づくマスクとのセグメンテーションアライメントを導入することで、マスクセグメンテーションエラーの負の効果を低減することができる。
論文 参考訳(メタデータ) (2020-07-09T08:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。