論文の概要: Semantic IDs for Recommender Systems at Snapchat: Use Cases, Technical Challenges, and Design Choices
- arxiv url: http://arxiv.org/abs/2604.03949v1
- Date: Sun, 05 Apr 2026 03:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.84305
- Title: Semantic IDs for Recommender Systems at Snapchat: Use Cases, Technical Challenges, and Design Choices
- Title(参考訳): SnapchatのレコメンダシステムのためのセマンティックID: ユースケース、技術的課題、設計選択
- Authors: Clark Mingxuan Ju, Tong Zhao, Leonardo Neves, Liam Collins, Bhuvesh Kumar, Jiwen Ren, Lili Zhang, Wenfeng Zhuo, Vincent Zhang, Xiao Bai, Jinchao Li, Karthik Iyer, Zihao Fan, Yilun Xu, Yiwen Chen, Peicheng Yu, Manish Malik, Neil Shah,
- Abstract要約: 我々はSnapchatでセマンティックID(SID)を適用しているときに遭遇した実践的技術的課題について論じる。
SIDは原子よりも基数が非常に小さく、ID空間のセマンティッククラスタリングを誘導する。
我々は、ランキングモデルの補助機能としてSIDを適用し、また、異なるMLアプリケーションで追加の検索ソースとしてSIDを探索する。
- 参考スコア(独自算出の注目度): 39.95009019603262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective item identifiers (IDs) are an important component for recommender systems (RecSys) in practice, and are commonly adopted in many use cases such as retrieval and ranking. IDs can encode collaborative filtering signals within training data, such that RecSys models can extrapolate during the inference and personalize the prediction based on users' behavioral histories. Recently, Semantic IDs (SIDs) have become a trending paradigm for RecSys. In comparison to the conventional atomic ID, an SID is an ordered list of codes, derived from tokenizers such as residual quantization, applied to semantic representations commonly extracted from foundation models or collaborative signals. SIDs have drastically smaller cardinality than the atomic counterpart, and induce semantic clustering in the ID space. At Snapchat, we apply SIDs as auxiliary features for ranking models, and also explore SIDs as additional retrieval sources in different ML applications. In this paper, we discuss practical technical challenges we encountered while applying SIDs, experiments we have conducted, and design choices we have iterated to mitigate these challenges. Backed by promising offline results on both internal data and academic benchmarks as well as online A/B studies, SID variants have been launched in multiple production models with positive metrics impact.
- Abstract(参考訳): 効果的なアイテム識別子(ID)は、実際にはレコメンデータシステム(RecSys)にとって重要なコンポーネントであり、検索やランキングといった多くのユースケースで一般的に採用されている。
IDはトレーニングデータ内の協調フィルタリング信号を符号化することができ、RecSysモデルは推論中に外挿し、ユーザの行動履歴に基づいて予測をパーソナライズすることができる。
近年、セマンティックID(SID)はRecSysのトレンドパラダイムとなっている。
従来の原子IDと比較すると、SIDは残留量子化のようなトークン化器から派生した順序付きコードのリストであり、基礎モデルや協調信号から一般的に抽出される意味表現に適用される。
SIDは原子よりも基数が非常に小さく、ID空間のセマンティッククラスタリングを誘導する。
Snapchatでは、ランキングモデルの補助機能としてSIDを適用し、異なるMLアプリケーションで追加の検索ソースとしてSIDを探索する。
本稿では、SIDの適用中に遭遇した実践的技術的課題、実施した実験、これらの課題を軽減するために繰り返し実施した設計選択について論じる。
内部データと学術ベンチマーク、およびオンラインA/B研究に関する有望なオフライン結果によってバックアップされたSIDは、肯定的な指標を持つ複数のプロダクションモデルでローンチされている。
関連論文リスト
- Rethinking Generative Recommender Tokenizer: Recsys-Native Encoding and Semantic Quantization Beyond LLMs [17.944727019161878]
ReSIDは、情報保存とシーケンシャルな予測可能性の観点から学ぶことを推奨する、原則化されたSIDフレームワークである。
高いシーケンシャルおよびSIDベースの生成ベースラインを平均10%以上上回り、トークン化コストを最大122倍削減する。
論文 参考訳(メタデータ) (2026-02-02T17:00:04Z) - Differentiable Semantic ID for Generative Recommendation [65.83703273297492]
生成的推薦は、各項目がリッチコンテンツから学習された個別意味ID(SID)によって表現される新しいパラダイムを提供する。
実際には、SIDはレコメンデーションの正確さよりもコンテンツ再構成に最適化されるのが一般的である。
自然なアプローチは、セマンティックインデックスを差別化して、レコメンデーショングラデーションが直接SID学習に影響を与えるようにすることだ。
本稿では,ジェネレーティブレコメンデーションのための効果的な識別可能なセマンティックIDに向けた第一歩として,DIGERを提案する。
論文 参考訳(メタデータ) (2026-01-27T15:34:11Z) - The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation [51.62815306481903]
我々は,SIDとHIDを調和させる新しいフレームワークであるtextbfnameを提案する。具体的には,HIDのユニークなコラボレーティブアイデンティティを保ちながら,SID内のマルチグラニュラーセマンティクスの両方をキャプチャ可能な,デュアルブランチモデリングアーキテクチャを考案する。
実世界の3つのデータセットの実験では、名前は、既存のベースラインを越えながら、頭と尾の両方の推奨品質のバランスをとる。
論文 参考訳(メタデータ) (2025-12-11T07:50:53Z) - Enhancing Embedding Representation Stability in Recommendation Systems with Semantic ID [29.560370412849874]
本稿では,従来のセマンティックIDの性能を大幅に向上させる新しいトークンパラメータ化手法であるセマンティックIDプレフィックスngramを紹介する。
セマンティックIDプレフィックスngramは, 組込み不安定性に対処するだけでなく, テールIDモデリングを著しく改善し, オーバーフィッティングを低減し, 表現シフトを緩和する。
また,Semantic IDをMeta Production Ads Rankingシステムに統合した経験を報告する。
論文 参考訳(メタデータ) (2025-04-02T21:28:38Z) - Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - ASI++: Towards Distributionally Balanced End-to-End Generative Retrieval [29.65717446547002]
ASI++は、新しいエンドツーエンドの生成検索手法である。
バランスの取れたIDの割り当てを同時に学習し、検索性能を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-05-23T07:54:57Z) - Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations [24.952222114424146]
本稿では、ランダムIDの代替としてコンテンツ由来の特徴を用いることを提案する。
我々は、ID機能をコンテンツベースの埋め込みに置き換えるだけで、記憶能力の低下により品質が低下することを示した。
コンテンツ埋め込みと同様に、セマンティックIDのコンパクトさはレコメンデーションモデルにおいて容易に適応できる問題を引き起こす。
論文 参考訳(メタデータ) (2023-06-13T20:34:15Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。