論文の概要: Decoupled Multimodal Fusion for User Interest Modeling in Click-Through Rate Prediction
- arxiv url: http://arxiv.org/abs/2510.11066v1
- Date: Mon, 13 Oct 2025 07:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.234077
- Title: Decoupled Multimodal Fusion for User Interest Modeling in Click-Through Rate Prediction
- Title(参考訳): クリックスルーレート予測におけるユーザ興味モデリングのためのデカップリング型マルチモーダルフュージョン
- Authors: Alin Fan, Hanqing Li, Sihan Lu, Jingsong Yuan, Jiandong Zhang,
- Abstract要約: ユーザ関心モデリングのためのIDベースの協調表現とマルチモーダル表現とのきめ細かい相互作用を可能にするために,Decoupled Multimodal Fusion (DMF)を提案する。
我々は、異なる埋め込み空間にまたがるセマンティックギャップをブリッジするターゲット認識機能を構築し、それらをサイド情報として活用し、ユーザ関心モデリングの有効性を高める。
DMFは国際的なeコマースプラットフォームの製品レコメンデーションシステムにデプロイされ、CTCVRの5.30%とGMVの7.43%の相対的な改善を実現している。
- 参考スコア(独自算出の注目度): 6.663141182602147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern industrial recommendation systems improve recommendation performance by integrating multimodal representations from pre-trained models into ID-based Click-Through Rate (CTR) prediction frameworks. However, existing approaches typically adopt modality-centric modeling strategies that process ID-based and multimodal embeddings independently, failing to capture fine-grained interactions between content semantics and behavioral signals. In this paper, we propose Decoupled Multimodal Fusion (DMF), which introduces a modality-enriched modeling strategy to enable fine-grained interactions between ID-based collaborative representations and multimodal representations for user interest modeling. Specifically, we construct target-aware features to bridge the semantic gap across different embedding spaces and leverage them as side information to enhance the effectiveness of user interest modeling. Furthermore, we design an inference-optimized attention mechanism that decouples the computation of target-aware features and ID-based embeddings before the attention layer, thereby alleviating the computational bottleneck introduced by incorporating target-aware features. To achieve comprehensive multimodal integration, DMF combines user interest representations learned under the modality-centric and modality-enriched modeling strategies. Offline experiments on public and industrial datasets demonstrate the effectiveness of DMF. Moreover, DMF has been deployed on the product recommendation system of the international e-commerce platform Lazada, achieving relative improvements of 5.30% in CTCVR and 7.43% in GMV with negligible computational overhead.
- Abstract(参考訳): 現代の産業レコメンデーションシステムは、事前訓練されたモデルからのマルチモーダル表現をIDベースのClick-Through Rate(CTR)予測フレームワークに統合することで、レコメンデーション性能を向上させる。
しかし、既存のアプローチでは、通常、IDベースとマルチモーダルの埋め込みを個別に処理するモダリティ中心のモデリング戦略を採用しており、コンテンツセマンティクスと行動信号の間のきめ細かい相互作用を捉えていない。
本稿では,IDに基づく協調表現とユーザ関心モデリングのためのマルチモーダル表現とのきめ細かい相互作用を実現するためのモダリティ強化モデリング戦略を導入する,デカップリング型マルチモーダルフュージョン(DMF)を提案する。
具体的には、異なる埋め込み空間にまたがるセマンティックギャップをブリッジするターゲット認識機能を構築し、それらをサイド情報として活用し、ユーザ関心モデリングの有効性を高める。
さらに,注目層の前にターゲット認識特徴とIDベースの埋め込みの計算を分離し,ターゲット認識特徴を組み込んだ計算ボトルネックを緩和する推論最適化アテンション機構を設計する。
総合的なマルチモーダル統合を実現するため、DMFは、モダリティ中心およびモダリティ強化されたモデリング戦略に基づいて学習されたユーザ関心表現を組み合わせる。
公共および産業のデータセットに関するオフライン実験は、DMFの有効性を実証している。
さらに、DMFは国際的なeコマースプラットフォームであるLazadaの製品レコメンデーションシステムにデプロイされ、CTCVRの5.30%とGMVの7.43%の相対的な改善を実現している。
関連論文リスト
- Progressive Semantic Residual Quantization for Multimodal-Joint Interest Modeling in Music Recommendation [6.790539226766362]
本稿では,2段階の新たなマルチモーダルレコメンデーションフレームワークを提案する。
最初の段階では、モーダル固有およびモーダルジョイントのセマンティックIDを生成する。
第2段階では、ユーザのマルチモーダルな関心をモデル化するために、マルチコードブックのクロスアテンションネットワークが設計されている。
論文 参考訳(メタデータ) (2025-08-28T02:16:57Z) - Complementarity-driven Representation Learning for Multi-modal Knowledge Graph Completion [0.0]
我々はMixture of Complementary Modality Experts (MoCME)という新しいフレームワークを提案する。
MoCMEはComplementarity-guided Modality Knowledge Fusion (CMKF)モジュールとEntropy-guided Negative Sampling (EGNS)メカニズムで構成されている。
私たちのMoCMEは最先端のパフォーマンスを達成し、既存のアプローチを超越しています。
論文 参考訳(メタデータ) (2025-07-28T08:35:11Z) - MCFNet: A Multimodal Collaborative Fusion Network for Fine-Grained Semantic Classification [2.7936465461948945]
Multimodal Collaborative Fusion Network (MCFNet) はきめ細かい分類のために設計された。
MCFNetアーキテクチャには、モーダル内特徴表現を改善する正規化統合融合モジュールが組み込まれている。
マルチモーダル決定分類モジュールは、モーダル間相関と非モーダル識別機能を利用する。
論文 参考訳(メタデータ) (2025-05-29T11:42:57Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。
本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文 参考訳(メタデータ) (2024-06-17T17:35:54Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。