論文の概要: Boosting Multimedia Recommendation via Separate Generic and Unique Awareness
- arxiv url: http://arxiv.org/abs/2406.08270v1
- Date: Wed, 12 Jun 2024 14:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 22:08:55.383799
- Title: Boosting Multimedia Recommendation via Separate Generic and Unique Awareness
- Title(参考訳): 別個のジェネリックとユニークアウェアネスによるマルチメディアレコメンデーションの強化
- Authors: Zhuangzhuang He, Zihan Wang, Yonghui Yang, Haoyue Bai, Le Wu,
- Abstract要約: マルチメディアレコメンデーションのためのSAND(Separate Alignment aNd Distancing framework)を提案する。
まず、各モーダル機能を総称的および一意的な部分に分割し、次にアライメントモジュールにおいて、ジェネリックモーダルをアライメントするSoloSimLossを設計する。
分散モジュールでは、各モジュラリティがその固有かつ相補的な情報を保持するように、モダル・ジェネリックから特異なモジュラリティを遠ざけることを目的としている。
- 参考スコア(独自算出の注目度): 19.826293335983145
- License:
- Abstract: Multimedia recommendation, which incorporates various modalities (e.g., images, texts, etc.) into user or item representation to improve recommendation quality, has received widespread attention. Recent methods mainly focus on cross-modal alignment with self-supervised learning to obtain higher quality representation. Despite remarkable performance, we argue that there is still a limitation: completely aligning representation undermines modality-unique information. We consider that cross-modal alignment is right, but it should not be the entirety, as different modalities contain generic information between them, and each modality also contains unique information. Simply aligning each modality may ignore modality-unique features, thus degrading the performance of multimedia recommendation. To tackle the above limitation, we propose a Separate Alignment aNd Distancing framework (SAND) for multimedia recommendation, which concurrently learns both modal-unique and -generic representation to achieve more comprehensive items representation. First, we split each modal feature into generic and unique part. Then, in the alignment module, for better integration of semantic information between different modalities , we design a SoloSimLoss to align generic modalities. Furthermore, in the distancing module, we aim to distance the unique modalities from the modal-generic so that each modality retains its unique and complementary information. In the light of the flexibility of our framework, we give two technical solutions, the more capable mutual information minimization and the simple negative l2 distance. Finally, extensive experimental results on three popular datasets demonstrate the effectiveness and generalization of our proposed framework.
- Abstract(参考訳): 様々なモダリティ(画像,テキストなど)をユーザや項目表現に組み込んでレコメンデーション品質を向上させるマルチメディアレコメンデーションが注目されている。
近年の手法は, 高品質な表現を得るために, 自己指導型学習とクロスモーダルアライメントに重点を置いている。
顕著な性能にもかかわらず、表現を完全に整列させることは、モダリティと普遍的な情報を損なうという、まだ限界があると主張する。
我々は、クロスモーダルアライメントが正しいと考えるが、異なるモダリティはそれらの間の総称情報を含み、各モダリティは固有の情報も含むので、それは全体であるべきではない。
各モダリティの整列は、モダリティ・ユニキの特徴を無視して、マルチメディアレコメンデーションのパフォーマンスを低下させる。
この制限に対処するため,マルチメディアレコメンデーションのためのSAND(Separate Alignment aNd Distancing framework)を提案する。
まず、各モーダル機能はジェネリックな部分とユニークな部分に分割されました。
次に、アライメントモジュールにおいて、異なるモダリティ間のセマンティック情報をよりよく統合するために、一般的なモダリティをアライメントするSoloSimLossを設計する。
さらに、分散モジュールでは、各モジュラリティがその固有かつ相補的な情報を保持するように、モダル・ジェネリックから特異なモジュラリティを遠ざけることを目標としている。
フレームワークの柔軟性を考慮して、より有能な相互情報最小化と単純な負のl2距離という2つの技術的解決策を提供する。
最後に,3つの一般的なデータセットに対する広範な実験結果から,提案フレームワークの有効性と一般化が示された。
関連論文リスト
- MCSFF: Multi-modal Consistency and Specificity Fusion Framework for Entity Alignment [7.109735168520378]
知識グラフの強化と質問応答システムの改善には,MMEA(Multi-modal entity alignment)が不可欠である。
既存の方法は、しばしばそれらの相補性を通じてモダリティを統合することにフォーカスするが、各モダリティの特異性を見落としている。
本稿では,モダリティの相補性と特異性の両方を革新的に統合するマルチモーダル一貫性・特異性融合フレームワーク(MCSFF)を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:35:25Z) - Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations [16.036997801745905]
マルチモーダル学習は、機械学習モデルが多様なデータソースを融合し利用できるようにする上で重要な役割を果たす。
ImageBindのような最近のバインディング手法では、固定アンカーのモダリティを使用して、アンカーのモダル埋め込み空間内のマルチモーダルデータをアライメントする。
我々はCentroBindを提案する。CentroBindは、固定アンカーを必要としない、シンプルだが強力なアプローチである。
論文 参考訳(メタデータ) (2024-10-02T23:19:23Z) - Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T02:12:26Z) - What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。
この定式化から,情報共有,相乗的,一意的な用語が自然に出現し,冗長性を超えたマルチモーダル相互作用を推定できることを示す。
後者では、CoMMは複雑なマルチモーダル相互作用を学び、6つのマルチモーダルベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-11T16:42:22Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。