論文の概要: Diffusion-based Multi-modal Synergy Interest Network for Click-through Rate Prediction
- arxiv url: http://arxiv.org/abs/2508.21460v1
- Date: Fri, 29 Aug 2025 09:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.996268
- Title: Diffusion-based Multi-modal Synergy Interest Network for Click-through Rate Prediction
- Title(参考訳): クリックスルーレート予測のための拡散型マルチモーダル干渉ネットワーク
- Authors: Xiaoxi Cui, Weihai Lu, Yu Tong, Yiheng Li, Zhejun Zhao,
- Abstract要約: クリックスルーレート予測では、ユーザの興味をモデル化するためにクリックスルーレート予測が使用される。
既存のCTR予測手法のほとんどは、主にIDモダリティに基づいている。
本稿では,Diffusion-based Multi-modal Synergy Interest Network (Diff-MSIN) をクリックスルー予測のためのフレームワークとして提案する。
- 参考スコア(独自算出の注目度): 10.958001571669415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In click-through rate prediction, click-through rate prediction is used to model users' interests. However, most of the existing CTR prediction methods are mainly based on the ID modality. As a result, they are unable to comprehensively model users' multi-modal preferences. Therefore, it is necessary to introduce multi-modal CTR prediction. Although it seems appealing to directly apply the existing multi-modal fusion methods to click-through rate prediction models, these methods (1) fail to effectively disentangle commonalities and specificities across different modalities; (2) fail to consider the synergistic effects between modalities and model the complex interactions between modalities. To address the above issues, this paper proposes the Diffusion-based Multi-modal Synergy Interest Network (Diff-MSIN) framework for click-through prediction. This framework introduces three innovative modules: the Multi-modal Feature Enhancement (MFE) Module Synergistic Relationship Capture (SRC) Module, and the Feature Dynamic Adaptive Fusion (FDAF) Module. The MFE Module and SRC Module extract synergistic, common, and special information among different modalities. They effectively enhances the representation of the modalities, improving the overall quality of the fusion. To encourage distinctiveness among different features, we design a Knowledge Decoupling method. Additionally, the FDAF Module focuses on capturing user preferences and reducing fusion noise. To validate the effectiveness of the Diff-MSIN framework, we conducted extensive experiments using the Rec-Tmall and three Amazon datasets. The results demonstrate that our approach yields a significant improvement of at least 1.67% compared to the baseline, highlighting its potential for enhancing multi-modal recommendation systems. Our code is available at the following link: https://github.com/Cxx-0/Diff-MSIN.
- Abstract(参考訳): クリックスルーレート予測では、ユーザの興味をモデル化するためにクリックスルーレート予測が使用される。
しかし、既存のCTR予測手法のほとんどは、主にIDモダリティに基づいている。
その結果、ユーザによるマルチモーダルな嗜好を包括的にモデル化することはできない。
したがって,マルチモーダルCTR予測を導入する必要がある。
既存のマルチモーダル融合法を直接クリックスルーレート予測モデルに適用することは魅力的であるように思われるが、(1) 共通点と特異点を異なるモダリティにわたって効果的に解離させることができず、(2) モダリティ間の相乗効果を考慮せず、モダリティ間の複雑な相互作用をモデル化することができない。
上記の課題に対処するため, クリックスルー予測のための拡散型マルチモーダル・シナジー・イントラスト・ネットワーク(Diff-MSIN)フレームワークを提案する。
このフレームワークは、MFE(Multi-modal Feature Enhancement)モジュールSRC(Synergistic Relationship Capture)モジュールとFDAF(Feature Dynamic Adaptive Fusion)モジュールという3つの革新的なモジュールを導入している。
MFEモジュールとSRCモジュールは、異なるモジュール間でシナジスティック、共通、および特別な情報を抽出する。
これにより、モダリティの表現が効果的に強化され、融合の全体的な品質が向上する。
異なる特徴の区別を促進するために,知識分離手法を設計する。
さらにFDAFモジュールは、ユーザの好みを捉え、融合ノイズを減らすことに重点を置いている。
Diff-MSINフレームワークの有効性を検証するために、Rec-Tmallと3つのAmazonデータセットを用いて広範な実験を行った。
その結果,提案手法はベースラインに比べて少なくとも1.67%の大幅な改善をもたらし,マルチモーダルレコメンデーションシステムの強化の可能性を強調した。
私たちのコードは以下のリンクで利用可能です。
関連論文リスト
- Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation [7.627299398469962]
本稿では,新しいスペクトルベースのモダリティ表現グラフレコメンデータを提案する。
モダリティノイズを同時に抑制しながら、ユニモーダルとフュージョンの両方の好みを捉えることを目的としている。
実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-12-19T15:53:21Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。
本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文 参考訳(メタデータ) (2024-06-17T17:35:54Z) - I2SRM: Intra- and Inter-Sample Relationship Modeling for Multimodal
Information Extraction [10.684005956288347]
本稿では,本課題に対するサンプル内およびサンプル間関係モデリング(I2SRM)手法を提案する。
提案手法は,Twitter-2015で77.12%のF1スコア,Twitter-2017で88.40%のF1スコア,MNREで84.12%のF1スコアと競合する結果を得た。
論文 参考訳(メタデータ) (2023-10-10T05:50:25Z) - IMF: Interactive Multimodal Fusion Model for Link Prediction [13.766345726697404]
異なるモダリティからの知識を統合するために,インタラクティブ・マルチモーダル・フュージョン(IMF)モデルを導入する。
提案手法は,実世界の複数のデータセットに対する経験的評価によって有効であることが実証された。
論文 参考訳(メタデータ) (2023-03-20T01:20:02Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。