論文の概要: MMQ-v2: Align, Denoise, and Amplify: Adaptive Behavior Mining for Semantic IDs Learning in Recommendation
- arxiv url: http://arxiv.org/abs/2510.25622v2
- Date: Thu, 30 Oct 2025 02:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 11:34:55.342582
- Title: MMQ-v2: Align, Denoise, and Amplify: Adaptive Behavior Mining for Semantic IDs Learning in Recommendation
- Title(参考訳): MMQ-v2: Align, Denoise, Amplify: RecommendationにおけるセマンティックID学習のための適応的行動マイニング
- Authors: Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang,
- Abstract要約: セマンティックID学習のためのコンテンツと行動のモダリティから、適応的にアライズ、デノテーズ、増幅するための混合量子化フレームワークMMQ-v2を提案する。
ノイズから表現を遮蔽するための情報豊かさを意識した適応的行動コンテンツアライメントと、SIDに異なる重みを適用して臨界信号を増幅する動的行動ルータである。
- 参考スコア(独自算出の注目度): 19.071559026849208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industrial recommender systems rely on unique Item Identifiers (ItemIDs). However, this method struggles with scalability and generalization in large, dynamic datasets that have sparse long-tail data. Content-based Semantic IDs (SIDs) address this by sharing knowledge through content quantization. However, by ignoring dynamic behavioral properties, purely content-based SIDs have limited expressive power. Existing methods attempt to incorporate behavioral information but overlook a critical distinction: unlike relatively uniform content features, user-item interactions are highly skewed and diverse, creating a vast information gap in quality and quantity between popular and long-tail items. This oversight leads to two critical limitations: (1) Noise Corruption: Indiscriminate behavior-content alignment allows collaborative noise from long-tail items to corrupt their content representations, leading to the loss of critical multimodal information. (2)Signal Obscurity: The equal-weighting scheme for SIDs fails to reflect the varying importance of different behavioral signals, making it difficult for downstream tasks to distinguish important SIDs from uninformative ones. To tackle these issues, we propose a mixture-of-quantization framework, MMQ-v2, to adaptively Align, Denoise, and Amplify multimodal information from content and behavior modalities for semantic IDs learning. The semantic IDs generated by this framework named ADA-SID. It introduces two innovations: an adaptive behavior-content alignment that is aware of information richness to shield representations from noise, and a dynamic behavioral router to amplify critical signals by applying different weights to SIDs. Extensive experiments on public and large-scale industrial datasets demonstrate ADA-SID's significant superiority in both generative and discriminative recommendation tasks.
- Abstract(参考訳): 産業レコメンデータシステムは、ユニークなアイテム識別子(Item Identifiers, アイテムID)に依存している。
しかし,この手法は,細長いデータを持つ大規模でダイナミックなデータセットにおいて,スケーラビリティと一般化に苦慮している。
コンテンツベースのセマンティックID(SID)は、コンテンツ量子化を通じて知識を共有することでこの問題に対処する。
しかし、動的挙動を無視することで、純粋にコンテンツベースのSIDは表現力に制限がある。
既存の手法は行動情報を組み込もうとするが、比較的均一なコンテンツの特徴とは異なり、ユーザとイテムの相互作用は高度に歪められ多様であり、人気アイテムとロングテールアイテムの質と量に大きな情報ギャップを生じさせる。
1) ノイズの破壊: 識別できない行動内容のアライメントにより、ロングテールアイテムからの協調的なノイズがコンテンツ表現を破損させ、重要なマルチモーダル情報が失われる。
2)シグナリカル・オブスキュリティー:SIDの等重化スキームは,異なる行動信号の重要性を反映していないため,下流のタスクが重要なSIDと非形式的信号とを区別することが困難である。
これらの課題に対処するため,本研究では,意味的ID学習のためのコンテンツと行動モダリティから,適応的アライメント,デノテーズ,増幅を行うための混合量子化フレームワークであるMMQ-v2を提案する。
このフレームワークによって生成されたセマンティックIDはADA-SIDと名付けられた。
ノイズから表現を遮蔽するための情報豊かさを意識した適応的行動コンテンツアライメントと、SIDに異なる重みを適用して臨界信号を増幅する動的行動ルータである。
公共および大規模産業データセットに関する大規模な実験は、ADA-SIDが生成的および差別的レコメンデーションタスクにおいて有意な優位性を示している。
関連論文リスト
- MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation [16.81485354427923]
本稿では,新しいマルチモーダルトークンをトレーニングする2段階フレームワークであるMMQを提案する。
MMQは多モードのシナジー、特異性、行動適応を統一し、生成的検索と識別的ランキングタスクの両方にスケーラブルで汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-21T06:15:49Z) - DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender System [15.648601380538413]
量子化とアライメントを同時に最適化する1段階のDual-Aligned Semantic ID(DAS)手法を提案する。
DASは、セマンティックIDと協調信号のより効率的なアライメントを実現しており、以下の2つの革新的なアプローチがある。
DASはKuaishou Appのさまざまな広告シナリオで成功し、毎日4億人のユーザーが利用している。
論文 参考訳(メタデータ) (2025-08-14T12:22:51Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - An Attention-Based Deep Learning Model for Multiple Pedestrian
Attributes Recognition [4.6898263272139795]
本稿では,監視映像における歩行者の自動特徴付け問題に対する新しい解決策を提供する。
本稿では,より包括的な特徴表現を抽出するために,要素ワイド乗算層を用いたマルチタスクディープモデルを提案する。
実験は,2つのよく知られたデータセット (RAP と PETA) を用いて実施し,提案手法の最先端性に着目した。
論文 参考訳(メタデータ) (2020-04-02T16:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。