論文の概要: It is Never Too Late to Mend: Separate Learning for Multimedia Recommendation
- arxiv url: http://arxiv.org/abs/2406.08270v2
- Date: Tue, 17 Dec 2024 12:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:54:08.024784
- Title: It is Never Too Late to Mend: Separate Learning for Multimedia Recommendation
- Title(参考訳): マルチメディアレコメンデーションのための分離学習
- Authors: Zhuangzhuang He, Zihan Wang, Yonghui Yang, Haoyue Bai, Le Wu,
- Abstract要約: マルチメディアレコメンデーションのためのセパレート・ラーニング(SEA)を提案し,主にモーダル・ユニクおよびジェネリック・ラーニングの相互情報ビューを含む。
具体的には、まずGNNを用いて、異なるモーダルのユーザとアイテムの表現を学習し、各モーダル表現を総称的および一意的な部分に分割する。次に、異なるモーダルの一般的な部分の整合性を最大化し、より高品質なモーダル・ジェネリックな特徴を学習するために、相互情報の低境界を最大化するためにSolosimlossを設計する。
- 参考スコア(独自算出の注目度): 19.826293335983145
- License:
- Abstract: Multimedia recommendation, which incorporates various modalities (e.g., images, texts, etc.) into user or item representation to improve recommendation quality, and self-supervised learning carries multimedia recommendation to a plateau of performance, because of its superior performance in aligning different modalities. However, more and more research finds that aligning all modal representations is suboptimal because it damages the unique attributes of each modal. These studies use subtraction and orthogonal constraints in geometric space to learn unique parts. However, our rigorous analysis reveals the flaws in this approach, such as that subtraction does not necessarily yield the desired modal-unique and that orthogonal constraints are ineffective in user and item high-dimensional representation spaces. To make up for the previous weaknesses, we propose Separate Learning (SEA) for multimedia recommendation, which mainly includes mutual information view of modal-unique and -generic learning. Specifically, we first use GNN to learn the representations of users and items in different modalities and split each modal representation into generic and unique parts. We employ contrastive log-ratio upper bound to minimize the mutual information between the general and unique parts within the same modality, to distance their representations, thus learning modal-unique features. Then, we design Solosimloss to maximize the lower bound of mutual information, to align the general parts of different modalities, thus learning more high-quality modal-generic features. Finally, extensive experiments on three datasets demonstrate the effectiveness and generalization of our proposed framework. The code is available at SEA and the full training record of the main experiment.
- Abstract(参考訳): 様々なモダリティ(画像、テキストなど)をユーザや項目表現に組み込んでレコメンデーション品質を向上させるマルチメディアレコメンデーションと、異なるモダリティの整合性が優れたマルチメディアレコメンデーションをパフォーマンスのプラトーに導入する自己教師型学習である。
しかしながら、すべてのモジュラー表現の整列は、各モーダルのユニークな属性を損なうため、最適以下であることがますます研究されている。
これらの研究は、幾何学空間における減算と直交の制約を使ってユニークな部分を学ぶ。
しかし, 厳密な分析により, 減算が必ずしも所望のモジュラーユニキを生じるとは限らないこと, 直交制約がユーザやアイテムの高次元表現空間において有効でないこと, など, このアプローチの欠点が明らかになった。
従来の弱点を補うために,モーダル・ユニクティックとジェネリック・ラーニングの相互情報ビューを主眼とするマルチメディアレコメンデーションのためのセパレート・ラーニング(SEA)を提案する。
具体的には、まずGNNを用いて、異なるモダリティでユーザとアイテムの表現を学習し、各モーダル表現を汎用的およびユニークな部分に分割する。
対照的な対数比上界を用いて、同じモダリティ内の一般部分と一意部分の相互情報を最小化し、それらの表現を遠ざけることにより、モダリカル・ユニキの特徴を学習する。
そこで我々はSolosimlossを設計し、相互情報の低境界を最大化し、異なるモーダルの一般的な部分を整列させ、より高品質なモーダル・ジェネリックな特徴を学習する。
最後に、3つのデータセットに関する広範な実験を行い、提案フレームワークの有効性と一般化を実証した。
コードはSEAで利用可能であり、メインの実験の完全なトレーニング記録がある。
関連論文リスト
- MCSFF: Multi-modal Consistency and Specificity Fusion Framework for Entity Alignment [7.109735168520378]
知識グラフの強化と質問応答システムの改善には,MMEA(Multi-modal entity alignment)が不可欠である。
既存の方法は、しばしばそれらの相補性を通じてモダリティを統合することにフォーカスするが、各モダリティの特異性を見落としている。
本稿では,モダリティの相補性と特異性の両方を革新的に統合するマルチモーダル一貫性・特異性融合フレームワーク(MCSFF)を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:35:25Z) - Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations [16.036997801745905]
マルチモーダル学習は、機械学習モデルが多様なデータソースを融合し利用できるようにする上で重要な役割を果たす。
ImageBindのような最近のバインディング手法では、固定アンカーのモダリティを使用して、アンカーのモダル埋め込み空間内のマルチモーダルデータをアライメントする。
我々はCentroBindを提案する。CentroBindは、固定アンカーを必要としない、シンプルだが強力なアプローチである。
論文 参考訳(メタデータ) (2024-10-02T23:19:23Z) - Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T02:12:26Z) - What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。
この定式化から,情報共有,相乗的,一意的な用語が自然に出現し,冗長性を超えたマルチモーダル相互作用を推定できることを示す。
後者では、CoMMは複雑なマルチモーダル相互作用を学び、6つのマルチモーダルベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-11T16:42:22Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。