論文の概要: Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations
- arxiv url: http://arxiv.org/abs/2306.08121v2
- Date: Thu, 30 May 2024 05:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-01 00:02:40.335179
- Title: Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations
- Title(参考訳): セマンティックIDによるより良い一般化:勧告のランク付けを事例として
- Authors: Anima Singh, Trung Vu, Nikhil Mehta, Raghunandan Keshavan, Maheswaran Sathiamoorthy, Yilin Zheng, Lichan Hong, Lukasz Heldt, Li Wei, Devansh Tandon, Ed H. Chi, Xinyang Yi,
- Abstract要約: 本稿では、ランダムIDの代替としてコンテンツ由来の特徴を用いることを提案する。
我々は、ID機能をコンテンツベースの埋め込みに置き換えるだけで、記憶能力の低下により品質が低下することを示した。
コンテンツ埋め込みと同様に、セマンティックIDのコンパクトさはレコメンデーションモデルにおいて容易に適応できる問題を引き起こす。
- 参考スコア(独自算出の注目度): 24.952222114424146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Randomly-hashed item ids are used ubiquitously in recommendation models. However, the learned representations from random hashing prevents generalization across similar items, causing problems of learning unseen and long-tail items, especially when item corpus is large, power-law distributed, and evolving dynamically. In this paper, we propose using content-derived features as a replacement for random ids. We show that simply replacing ID features with content-based embeddings can cause a drop in quality due to reduced memorization capability. To strike a good balance of memorization and generalization, we propose to use Semantic IDs -- a compact discrete item representation learned from frozen content embeddings using RQ-VAE that captures the hierarchy of concepts in items -- as a replacement for random item ids. Similar to content embeddings, the compactness of Semantic IDs poses a problem of easy adaption in recommendation models. We propose novel methods for adapting Semantic IDs in industry-scale ranking models, through hashing sub-pieces of of the Semantic-ID sequences. In particular, we find that the SentencePiece model that is commonly used in LLM tokenization outperforms manually crafted pieces such as N-grams. To the end, we evaluate our approaches in a real-world ranking model for YouTube recommendations. Our experiments demonstrate that Semantic IDs can replace the direct use of video IDs by improving the generalization ability on new and long-tail item slices without sacrificing overall model quality.
- Abstract(参考訳): ランダムにハッシュされたアイテムIDは、レコメンデーションモデルでユビキタスに使用される。
しかし、ランダムハッシュから学習した表現は、類似した項目の一般化を防ぎ、特にアイテムコーパスが大きく、ゆるい分布であり、動的に進化するときに、目に見えない、長い尾のアイテムを学習する問題を引き起こす。
本稿では,ランダムIDの代替として,コンテンツから派生した特徴を用いることを提案する。
我々は、ID機能をコンテンツベースの埋め込みに置き換えるだけで、記憶能力の低下により品質が低下することを示した。
記憶と一般化のバランスを良くするため,RQ-VAEを用いて凍結したコンテンツ埋め込みから学習したコンパクトな離散アイテム表現であるセマンティックIDを,ランダムなアイテムIDの代替として用いることを提案する。
コンテンツ埋め込みと同様に、セマンティックIDのコンパクトさはレコメンデーションモデルにおいて容易に適応できる問題を引き起こす。
本稿では,セマンティックID系列のサブピースをハッシュすることで,セマンティックIDを産業規模のランキングモデルに適用する手法を提案する。
特に, LLMトークン化で一般的に使用されるSentencePieceモデルは, N-gramsのような手作業で製作した作品よりも優れていた。
最終的に、YouTubeレコメンデーションの実際のランキングモデルを用いて、我々のアプローチを評価した。
実験により,セマンティックIDは,モデル品質を損なうことなく,新品および長期品目スライスへの一般化能力を向上させることで,ビデオIDの直接利用を置き換えることができることを示した。
関連論文リスト
- STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM [59.08493154172207]
本稿では,意味的トークン化と生成的レコメンデーションプロセスを合理化する統合フレームワークを提案する。
我々は,意味的トークン化をテキスト・ツー・ケントタスクとして定式化し,生成的推薦をトークン・ツー・ケントタスクとして,トークン・ツー・ケント・コンストラクションタスクとテキスト・ツー・ケント補助タスクで補足する。
これらのタスクはすべて生成的な方法でフレーム化され、単一の大規模言語モデル(LLM)バックボーンを使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - ASI++: Towards Distributionally Balanced End-to-End Generative Retrieval [29.65717446547002]
ASI++は、新しいエンドツーエンドの生成検索手法である。
バランスの取れたIDの割り当てを同時に学習し、検索性能を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-05-23T07:54:57Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - ESA-ReID: Entropy-Based Semantic Feature Alignment for Person re-ID [7.978877859859102]
実世界の人物識別(re-ID)は、監視システムにおける典型的な応用の他に、コンテンツビデオ(テレビ・映画)における人物識別のリコール率の向上にも意義がある。
本稿では,人間の意味的特徴の詳細な情報を利用するエントロピーに基づく意味的特徴アライメントモデルを提案する。
意味的セグメンテーションの不確実性を考慮すると、エントロピーに基づくマスクとのセグメンテーションアライメントを導入することで、マスクセグメンテーションエラーの負の効果を低減することができる。
論文 参考訳(メタデータ) (2020-07-09T08:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。