論文の概要: Mitigating Collaborative Semantic ID Staleness in Generative Retrieval
- arxiv url: http://arxiv.org/abs/2604.13273v1
- Date: Tue, 14 Apr 2026 20:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.281429
- Title: Mitigating Collaborative Semantic ID Staleness in Generative Retrieval
- Title(参考訳): 生成検索における協調的セマンティックIDの安定性の緩和
- Authors: Vladimir Baikalov, Iskander Bagautdinov, Sergey Muravyov,
- Abstract要約: セマンティックID(SID)を用いた生成検索では,各項目を個別の識別子として割り当て,シーケンス生成問題として扱う。
相互作用パターンが時間とともに漂うにつれて、SIDは時代遅れになり、コラボレーティブセマンティクスは最近のログともはや一致しない。
本稿では,軽量でモデルに依存しないSIDアライメント更新を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative retrieval with Semantic IDs (SIDs) assigns each item a discrete identifier and treats retrieval as a sequence generation problem rather than a nearest-neighbor search. While content-only SIDs are stable, they do not take into account user-item interaction patterns, so recent systems construct interaction-informed SIDs. However, as interaction patterns drift over time, these identifiers become stale, i.e., their collaborative semantics no longer match recent logs. Prior work typically assumes a fixed SID vocabulary during fine-tuning, or treats SID refresh as a full rebuild that requires retraining. However, SID staleness under temporal drift is rarely analyzed explicitly. To bridge this gap, we study SID staleness under strict chronological evaluation and propose a lightweight, model-agnostic SID alignment update. Given refreshed SIDs derived from recent logs, we align them to the existing SID vocabulary so the retriever checkpoint remains compatible, enabling standard warm-start fine-tuning without a full rebuild-and-retrain pipeline. Across three public benchmarks, our update consistently improves Recall@K and nDCG@K at high cutoffs over naive fine-tuning with stale SIDs and reduces retriever-training compute by approximately 8-9 times compared to full retraining.
- Abstract(参考訳): セマンティックID(SID)による生成検索は各項目を個別の識別子に割り当て、最寄りの検索よりもシーケンス生成問題として扱う。
コンテンツのみのSIDは安定しているが、ユーザとイテムのインタラクションパターンを考慮していないため、最近のシステムではインタラクションインフォームドSIDを構築している。
しかし、相互作用パターンが時間とともに漂うにつれて、これらの識別子は時代遅れになり、例えば、それらの協調的な意味論は最近のログともはや一致しない。
以前の作業は通常、微調整中に固定されたSID語彙を仮定するか、あるいは再トレーニングを必要とする完全な再構築としてSIDリフレッシュを扱う。
しかし、時間的ドリフト下でのSIDの安定化は、明確に分析されることはめったにない。
このギャップを埋めるために、厳密な時間的評価の下でSIDの安定化について検討し、軽量でモデルに依存しないSIDアライメント更新を提案する。
最近のログから派生したSIDをリフレッシュすると、既存のSID語彙に整列して、レトリバーチェックポイントの互換性を維持します。
3つの公開ベンチマークで、古いSIDによる微調整よりも高いカットオフでRecall@KとnDCG@Kを継続的に改善し、完全なリトレーニングに比べて、検索者トレーニングの計算を約8~9倍削減した。
関連論文リスト
- SID-Coord: Coordinating Semantic IDs for ID-based Ranking in Short-Video Search [9.72713305999446]
SID-Coordは、個別のトレーニング可能なセマンティックIDをIDベースのランキングモデルに直接組み込む軽量なセマンティックIDフレームワークである。
SID-Coordは、セマンティックシグナルを補助的な高密度な特徴として扱う代わりに、セマンティックスを構造化識別子として表現する。
実世界の生産環境でのオンラインA/B実験は統計的に有意な改善を示した。
論文 参考訳(メタデータ) (2026-04-12T05:51:35Z) - Semantic IDs for Recommender Systems at Snapchat: Use Cases, Technical Challenges, and Design Choices [39.95009019603262]
我々はSnapchatでセマンティックID(SID)を適用しているときに遭遇した実践的技術的課題について論じる。
SIDは原子よりも基数が非常に小さく、ID空間のセマンティッククラスタリングを誘導する。
我々は、ランキングモデルの補助機能としてSIDを適用し、また、異なるMLアプリケーションで追加の検索ソースとしてSIDを探索する。
論文 参考訳(メタデータ) (2026-04-05T03:46:52Z) - IntRR: A Framework for Integrating SID Redistribution and Length Reduction [14.327886721362647]
目的整合SID再分配と構造長削減を統合した新しいフレームワークであるIntRRを提案する。
IntRRは、代表的な生成ベースラインよりも大幅に改善され、推奨精度と効率の両方で優れた性能を達成する。
論文 参考訳(メタデータ) (2026-02-24T09:09:40Z) - End-to-End Semantic ID Generation for Generative Advertisement Recommendation [33.453121305193434]
生成広告推薦のための統一SID生成フレームワークを提案する。
具体的には、生の広告データからエンドツーエンドで埋め込みとSIDを協調的に最適化する。
実験により、UniSIDは最先端のSID生成方法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2026-02-11T02:38:26Z) - GLASS: A Generative Recommender for Long-sequence Modeling via SID-Tier and Semantic Search [51.44490997013772]
GLASSは、SID-TierとSemantic Searchを通じて、長期的なユーザ関心を生成プロセスに統合する新しいフレームワークである。
GLASSは2つの大規模実世界のデータセットの実験において最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-05T13:48:33Z) - Differentiable Semantic ID for Generative Recommendation [65.83703273297492]
生成的推薦は、各項目がリッチコンテンツから学習された個別意味ID(SID)によって表現される新しいパラダイムを提供する。
実際には、SIDはレコメンデーションの正確さよりもコンテンツ再構成に最適化されるのが一般的である。
自然なアプローチは、セマンティックインデックスを差別化して、レコメンデーショングラデーションが直接SID学習に影響を与えるようにすることだ。
本稿では,ジェネレーティブレコメンデーションのための効果的な識別可能なセマンティックIDに向けた第一歩として,DIGERを提案する。
論文 参考訳(メタデータ) (2026-01-27T15:34:11Z) - Bi-C2R: Bidirectional Continual Compatible Representation for Re-indexing Free Lifelong Person Re-identification [77.07028925223383]
L-ReID(Lifelong person Re-IDentification)は、シーケンシャルに収集されたデータを利用して、ReIDモデルを継続的にトレーニングし、更新する。
既存のL-ReIDメソッドは通常、更新毎に推論のためにすべての歴史的なギャラリーイメージの新機能を再抽出し、"re-indexing"と呼ばれる。
本稿では, 生涯にわたる人物再識別を行うために, 過去のギャラリー画像を再インデックスすることなく, 生涯にわたる人物再識別を行う「Re-index Free Lifelong person Re-IDentification (RFL-ReID)」というタスクに焦点を当てる。
論文 参考訳(メタデータ) (2025-12-31T17:50:05Z) - The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation [51.62815306481903]
我々は,SIDとHIDを調和させる新しいフレームワークであるtextbfnameを提案する。具体的には,HIDのユニークなコラボレーティブアイデンティティを保ちながら,SID内のマルチグラニュラーセマンティクスの両方をキャプチャ可能な,デュアルブランチモデリングアーキテクチャを考案する。
実世界の3つのデータセットの実験では、名前は、既存のベースラインを越えながら、頭と尾の両方の推奨品質のバランスをとる。
論文 参考訳(メタデータ) (2025-12-11T07:50:53Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - CycAs: Self-supervised Cycle Association for Learning Re-identifiable
Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。
既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。
疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文 参考訳(メタデータ) (2020-07-15T09:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。