論文の概要: MDE: Modality Discrimination Enhancement for Multi-modal Recommendation
- arxiv url: http://arxiv.org/abs/2502.18481v1
- Date: Sat, 08 Feb 2025 03:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 03:22:56.258290
- Title: MDE: Modality Discrimination Enhancement for Multi-modal Recommendation
- Title(参考訳): MDE:マルチモーダルレコメンデーションのためのモダリティ識別の強化
- Authors: Hang Zhou, Yucheng Wang, Huijing Zhan,
- Abstract要約: マルチモーダルレコメンデーションシステムのためのMDEフレームワークを提案する。
MDEは、共有機能を維持しながらレコメンデーション精度を向上させるために、モダリティ固有の情報抽出を優先する。
提案手法は、他の最先端手法よりも優れており、モダリティ共有とモダリティ特化の特徴を共同で検討することの有効性を実証している。
- 参考スコア(独自算出の注目度): 17.94842763325326
- License:
- Abstract: Multi-modal recommendation systems aim to enhance performance by integrating an item's content features across various modalities with user behavior data. Effective utilization of features from different modalities requires addressing two challenges: preserving semantic commonality across modalities (modality-shared) and capturing unique characteristics for each modality (modality-specific). Most existing approaches focus on aligning feature spaces across modalities, which helps represent modality-shared features. However, modality-specific distinctions are often neglected, especially when there are significant semantic variations between modalities. To address this, we propose a Modality Distinctiveness Enhancement (MDE) framework that prioritizes extracting modality-specific information to improve recommendation accuracy while maintaining shared features. MDE enhances differences across modalities through a novel multi-modal fusion module and introduces a node-level trade-off mechanism to balance cross-modal alignment and differentiation. Extensive experiments on three public datasets show that our approach significantly outperforms other state-of-the-art methods, demonstrating the effectiveness of jointly considering modality-shared and modality-specific features.
- Abstract(参考訳): マルチモーダルレコメンデーションシステムは、様々なモダリティにまたがるアイテムのコンテンツ機能とユーザ行動データを統合することで、パフォーマンスを向上させることを目的としている。
モダリティ間の意味的共通性(モダリティ共有)の保存と、各モダリティ(モダリティ固有)のユニークな特性の取得である。
既存のアプローチのほとんどは、モダリティにまたがる特徴空間の整合性に重点を置いている。
しかしながら、モダリティ固有の区別はしばしば無視される。
そこで本研究では,モダリティ固有の情報の抽出を優先し,共有機能を維持しつつ,レコメンデーション精度を向上させるためのMDEフレームワークを提案する。
MDEは、新しいマルチモーダル融合モジュールを通じてモダリティ間の差異を強化し、クロスモーダルアライメントと微分のバランスをとるノードレベルのトレードオフ機構を導入する。
3つの公開データセットに対する大規模な実験により、我々のアプローチは、他の最先端手法よりも大幅に優れており、モダリティ共有およびモダリティ特有な特徴を共同で考慮することの有効性が示されている。
関連論文リスト
- Multi-Modality Collaborative Learning for Sentiment Analysis [12.066757428026163]
マルチモーダル感情分析(MSA)は、視覚、音声、テキストのモダリティを統合することで、ビデオ中の個人の感情状態を特定する。
既存の手法の進歩にもかかわらず、本質的なモダリティの不均一性は、モダリティを越えて対話的な感情の特徴を効果的に捉えることを制限している。
モーダル・コラボレーティブ・ラーニング(Multi-Modality Collaborative Learning)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-21T12:06:21Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Exploring Modality-shared Appearance Features and Modality-invariant
Relation Features for Cross-modality Person Re-Identification [72.95858515157603]
クロスモダリティの人物再識別作業は、識別モダリティ共有機能に依存する。
初期の成功にもかかわらず、このようなモダリティ共有の外観機能は十分なモダリティ不変情報をキャプチャできない。
クロスモダリティの変動をさらに低減するために、新しいクロスモダリティ四重極損失が提案される。
論文 参考訳(メタデータ) (2021-04-23T11:14:07Z) - Adversarial Multimodal Representation Learning for Click-Through Rate
Prediction [16.10640369157054]
本稿では,Click-Through Rate (CTR)予測タスクのための新しいマルチモーダル適応表現ネットワーク(MARN)を提案する。
マルチモーダルアテンションネットワークは、まず、各項目の複数のモーダルティの重みを、そのモーダル比の特徴に応じて算出する。
マルチモーダル対向ネットワークは、二重識別器戦略を導入するモードイン表現を学習する。
論文 参考訳(メタデータ) (2020-03-07T15:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。