論文の概要: Stop Treating Collisions Equally: Qualification-Aware Semantic ID Learning for Recommendation at Industrial Scale
- arxiv url: http://arxiv.org/abs/2603.00632v1
- Date: Sat, 28 Feb 2026 12:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.302315
- Title: Stop Treating Collisions Equally: Qualification-Aware Semantic ID Learning for Recommendation at Industrial Scale
- Title(参考訳): 衝突を平等に扱うのをやめる:産業規模での勧告のための資格付きセマンティックID学習
- Authors: Zheng Hu, Yuxin Chen, Yongsen Pan, Xu Yuan, Yuting Yin, Daoyuan Wang, Boyang Xia, Zefei Luo, Hongyang Wang, Songhao Ni, Dongxu Liang, Jun Wang, Shimin Cai, Tao Zhou, Fuji Ren, Wenwu Ou,
- Abstract要約: QuaSIDは、選択的に修飾された競合ペアによって衝突修飾されたSIDを学習し、衝突重大度による反発強度をスケールするエンドツーエンドフレームワークである。
公開ベンチマークと産業データの実験は、QuaSIDを検証する。
- 参考スコア(独自算出の注目度): 24.395492499196063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic IDs (SIDs) are compact discrete representations derived from multimodal item features, serving as a unified abstraction for ID-based and generative recommendation. However, learning high-quality SIDs remains challenging due to two issues. (1) Collision problem: the quantized token space is prone to collisions, in which semantically distinct items are assigned identical or overly similar SID compositions, resulting in semantic entanglement. (2) Collision-signal heterogeneity: collisions are not uniformly harmful. Some reflect genuine conflicts between semantically unrelated items, while others stem from benign redundancy or systematic data effects. To address these challenges, we propose Qualification-Aware Semantic ID Learning (QuaSID), an end-to-end framework that learns collision-qualified SIDs by selectively repelling qualified conflict pairs and scaling the repulsion strength by collision severity. QuaSID consists of two mechanisms: Hamming-guided Margin Repulsion, which translates low-Hamming SID overlaps into explicit, severity-scaled geometric constraints on the encoder space; and Conflict-Aware Valid Pair Masking, which masks protocol-induced benign overlaps to denoise repulsion supervision. In addition, QuaSID incorporates a dual-tower contrastive objective to inject collaborative signals into tokenization. Experiments on public benchmarks and industrial data validate QuaSID. On public datasets, QuaSID consistently outperforms strong baselines, improving top-K ranking quality by 5.9% over the best baseline while increasing SID composition diversity. In an online A/B test on Kuaishou e-commerce with a 5% traffic split, QuaSID increases ranking GMV-S2 by 2.38% and improves completed orders on cold-start retrieval by up to 6.42%. Finally, we show that the proposed repulsion loss is plug-and-play and enhances a range of SID learning frameworks across datasets.
- Abstract(参考訳): セマンティックID(SID)は、多モーダルアイテムの特徴から派生したコンパクトな離散表現であり、IDベースおよび生成的レコメンデーションの統一的な抽象化として機能する。
しかし,2つの問題により,高品質なSIDの学習は依然として困難である。
1)衝突問題: 量子化トークン空間は、意味的に異なる項目が同一または過度に類似したSID組成に割り当てられ、意味的絡み合いをもたらす衝突を起こしやすい。
2)衝突信号の不均一性:衝突は均一に有害ではない。
意味的に無関係な項目間の真の矛盾を反映するものもあれば、良質な冗長性や体系的なデータ効果に由来するものもある。
これらの課題に対処するため、我々は、衝突の深刻度によって、適度な競合対を選択的に取り除き、反発強度をスケールすることで、衝突に適したSIDを学習するエンドツーエンドフレームワークQualification-Aware Semantic ID Learning (QuaSID)を提案する。
QuaSIDは2つのメカニズムから構成される:ハミング誘導マージン反発(Hamming-guided Margin Repulsion)は、低ハミングSIDの重なりをエンコーダ空間上の厳密なスケールの幾何的制約に翻訳する。
さらに、QuaSIDは、コラボレーティブな信号をトークン化に注入する、双方向のコントラスト目的を組み込んでいる。
公開ベンチマークと産業データの実験は、QuaSIDを検証する。
パブリックデータセットでは、QuaSIDは強いベースラインを一貫して上回り、最高のベースラインよりもトップKランキング品質を5.9%向上させ、SID組成の多様性を高めている。
クアイシュ州のeコマースにおけるオンラインA/Bテストでは5%のトラフィックが分配され、QuaSIDはGMV-S2ランキングを2.38%引き上げ、コールドスタート検索の注文を最大6.42%改善した。
最後に,提案した反発損失はプラグアンドプレイであり,データセット間のSID学習フレームワークの幅を拡大することを示す。
関連論文リスト
- IntRR: A Framework for Integrating SID Redistribution and Length Reduction [14.327886721362647]
目的整合SID再分配と構造長削減を統合した新しいフレームワークであるIntRRを提案する。
IntRRは、代表的な生成ベースラインよりも大幅に改善され、推奨精度と効率の両方で優れた性能を達成する。
論文 参考訳(メタデータ) (2026-02-24T09:09:40Z) - End-to-End Semantic ID Generation for Generative Advertisement Recommendation [33.453121305193434]
生成広告推薦のための統一SID生成フレームワークを提案する。
具体的には、生の広告データからエンドツーエンドで埋め込みとSIDを協調的に最適化する。
実験により、UniSIDは最先端のSID生成方法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2026-02-11T02:38:26Z) - R2LED: Equipping Retrieval and Refinement in Lifelong User Modeling with Semantic IDs for CTR Prediction [23.668401664583758]
セマンティックIDを用いた生涯ユーザモデリング(R2LED)における検索と改善のための新しいパラダイムを提案する。
まず,検索段階における複数経路混合検索手法を提案する。一方,協調的視点と意味的視点の両方から効率よく候補を検索する混合検索機構を提案する。
改良のために,経路レベル核融合のための目標認識型クロスアテンションとSIDレベル核融合のためのゲート機構を含むBiレベル核融合リファインメントを設計する。
論文 参考訳(メタデータ) (2026-02-06T11:27:20Z) - The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation [51.62815306481903]
我々は,SIDとHIDを調和させる新しいフレームワークであるtextbfnameを提案する。具体的には,HIDのユニークなコラボレーティブアイデンティティを保ちながら,SID内のマルチグラニュラーセマンティクスの両方をキャプチャ可能な,デュアルブランチモデリングアーキテクチャを考案する。
実世界の3つのデータセットの実験では、名前は、既存のベースラインを越えながら、頭と尾の両方の推奨品質のバランスをとる。
論文 参考訳(メタデータ) (2025-12-11T07:50:53Z) - MMQ-v2: Align, Denoise, and Amplify: Adaptive Behavior Mining for Semantic IDs Learning in Recommendation [19.071559026849208]
セマンティックID学習のためのコンテンツと行動のモダリティから、適応的にアライズ、デノテーズ、増幅するための混合量子化フレームワークMMQ-v2を提案する。
ノイズから表現を遮蔽するための情報豊かさを意識した適応的行動コンテンツアライメントと、SIDに異なる重みを適用して臨界信号を増幅する動的行動ルータである。
論文 参考訳(メタデータ) (2025-10-29T15:27:23Z) - DiffGRM: Diffusion-based Generative Recommendation Model [63.35379395455103]
ジェネレーティブレコメンデーション(GR)は、トークン化器を介して各項目をn桁のセマンティックID(SID)として表現する新興パラダイムである。
自己回帰デコーダをマスク付き離散拡散モデル(MDM)に置き換える拡散ベースGRモデルDiffGRMを提案する。
実験では、複数のデータセットに対する強力な生成的および差別的推奨ベースラインよりも一貫した利得を示す。
論文 参考訳(メタデータ) (2025-10-21T03:23:32Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets [64.51403245281547]
FORGEは、産業データセットを使ったジェネレーティブrEtrievalにおけるFOrmingセマンティック識別のベンチマークである。
現実世界のアプリケーションでは、オンラインコンバージェンスを半減するオフライン事前トレーニングスキーマが導入されている。
論文 参考訳(メタデータ) (2025-09-25T08:44:22Z) - Erasing, Transforming, and Noising Defense Network for Occluded Person
Re-Identification [36.91680117072686]
我々は,隠蔽された人物のリIDを解決するために,ETNDNet(Easing, Transforming, and Noising Defense Network)を提案する。
提案するETNDNetでは,特徴マップをランダムに消去し,不完全な情報を持つ逆表現を生成する。
第3に、障害物や歩行者以外の歩行者が導入したノイズ情報に対処するために、ランダムな値で特徴マップを摂動する。
論文 参考訳(メタデータ) (2023-07-14T06:42:21Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Uncertainty-aware Clustering for Unsupervised Domain Adaptive Object
Re-identification [123.75412386783904]
最先端のオブジェクトRe-IDアプローチでは、クラスタリングアルゴリズムを採用して、ラベルのないターゲットドメインの擬似ラベルを生成する。
UDAタスクのための不確実性対応クラスタリングフレームワーク(UCF)を提案する。
我々のUCF法は、オブジェクトRe-IDのための複数のUDAタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2021-08-22T09:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。