論文の概要: Enhancing Embedding Representation Stability in Recommendation Systems with Semantic ID
- arxiv url: http://arxiv.org/abs/2504.02137v1
- Date: Wed, 02 Apr 2025 21:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:18.339579
- Title: Enhancing Embedding Representation Stability in Recommendation Systems with Semantic ID
- Title(参考訳): セマンティックIDを用いたレコメンデーションシステムにおける埋め込み表現安定性の向上
- Authors: Carolina Zheng, Minhui Huang, Dmitrii Pedchenko, Kaushik Rangadurai, Siyu Wang, Gaby Nahum, Jie Lei, Yang Yang, Tao Liu, Zutian Luo, Xiaohan Wei, Dinesh Ramasamy, Jiyan Yang, Yiping Han, Lin Yang, Hangjun Xu, Rong Jin, Shuang Yang,
- Abstract要約: 本稿では,従来のセマンティックIDの性能を大幅に向上させる新しいトークンパラメータ化手法であるセマンティックIDプレフィックスngramを紹介する。
セマンティックIDプレフィックスngramは, 組込み不安定性に対処するだけでなく, テールIDモデリングを著しく改善し, オーバーフィッティングを低減し, 表現シフトを緩和する。
また,Semantic IDをMeta Production Ads Rankingシステムに統合した経験を報告する。
- 参考スコア(独自算出の注目度): 29.560370412849874
- License:
- Abstract: The exponential growth of online content has posed significant challenges to ID-based models in industrial recommendation systems, ranging from extremely high cardinality and dynamically growing ID space, to highly skewed engagement distributions, to prediction instability as a result of natural id life cycles (e.g, the birth of new IDs and retirement of old IDs). To address these issues, many systems rely on random hashing to handle the id space and control the corresponding model parameters (i.e embedding table). However, this approach introduces data pollution from multiple ids sharing the same embedding, leading to degraded model performance and embedding representation instability. This paper examines these challenges and introduces Semantic ID prefix ngram, a novel token parameterization technique that significantly improves the performance of the original Semantic ID. Semantic ID prefix ngram creates semantically meaningful collisions by hierarchically clustering items based on their content embeddings, as opposed to random assignments. Through extensive experimentation, we demonstrate that Semantic ID prefix ngram not only addresses embedding instability but also significantly improves tail id modeling, reduces overfitting, and mitigates representation shifts. We further highlight the advantages of Semantic ID prefix ngram in attention-based models that contextualize user histories, showing substantial performance improvements. We also report our experience of integrating Semantic ID into Meta production Ads Ranking system, leading to notable performance gains and enhanced prediction stability in live deployments.
- Abstract(参考訳): オンラインコンテンツの指数的成長は、非常に高い濃度と動的に成長するID空間から、高度に歪んだエンゲージメント分布、自然のIDライフサイクル(例えば、新しいIDの誕生と古いIDの引退)の結果として不安定性を予測することまで、産業レコメンデーションシステムにおけるIDベースのモデルに大きな課題を提起している。
これらの問題に対処するため、多くのシステムはID空間を扱い、対応するモデルパラメータ(例えば埋め込みテーブル)を制御するためにランダムハッシュに依存している。
しかし、このアプローチは、同じ埋め込みを共有する複数のIDからのデータ汚染を導入し、劣化したモデル性能と埋め込み表現の不安定性をもたらす。
本稿では,これらの課題を考察し,従来のセマンティックIDの性能を大幅に向上させる新しいトークンパラメータ化手法であるセマンティックIDプレフィックスngramを紹介する。
セマンティックIDプレフィックスngramは、ランダムな代入ではなく、コンテンツ埋め込みに基づいて階層的にアイテムをクラスタリングすることで意味のある衝突を生成する。
広範囲な実験を通じて,セマンティックIDプレフィックスngramは,組込み不安定性だけでなく,テールIDモデリングを大幅に改善し,オーバーフィットを低減し,表現シフトを緩和することを示した。
さらに,ユーザ履歴を文脈的に表現し,大幅な性能向上を示すアテンションベースモデルにおけるセマンティックIDプレフィックスngramの利点を強調した。
また,Semantic IDをMeta Production Ads Rankingシステムに統合した経験を報告する。
関連論文リスト
- Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Break the ID-Language Barrier: An Adaption Framework for Sequential Recommendation [10.305878081909743]
ドメイン固有知識に富んだ事前学習ID埋め込みを,大規模言語モデルに統合するフレームワークであるIDLE-Adapterを提案する。
IDLE-Adapterはブリッジとして機能し、疎いユーザ-イテムインタラクションデータを高密度でLLM互換の表現に変換する。
論文 参考訳(メタデータ) (2024-11-27T11:59:44Z) - Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - ASI++: Towards Distributionally Balanced End-to-End Generative Retrieval [29.65717446547002]
ASI++は、新しいエンドツーエンドの生成検索手法である。
バランスの取れたIDの割り当てを同時に学習し、検索性能を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-05-23T07:54:57Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations [24.952222114424146]
本稿では、ランダムIDの代替としてコンテンツ由来の特徴を用いることを提案する。
我々は、ID機能をコンテンツベースの埋め込みに置き換えるだけで、記憶能力の低下により品質が低下することを示した。
コンテンツ埋め込みと同様に、セマンティックIDのコンパクトさはレコメンデーションモデルにおいて容易に適応できる問題を引き起こす。
論文 参考訳(メタデータ) (2023-06-13T20:34:15Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - ESA-ReID: Entropy-Based Semantic Feature Alignment for Person re-ID [7.978877859859102]
実世界の人物識別(re-ID)は、監視システムにおける典型的な応用の他に、コンテンツビデオ(テレビ・映画)における人物識別のリコール率の向上にも意義がある。
本稿では,人間の意味的特徴の詳細な情報を利用するエントロピーに基づく意味的特徴アライメントモデルを提案する。
意味的セグメンテーションの不確実性を考慮すると、エントロピーに基づくマスクとのセグメンテーションアライメントを導入することで、マスクセグメンテーションエラーの負の効果を低減することができる。
論文 参考訳(メタデータ) (2020-07-09T08:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。