論文の概要: Boosting Multimedia Recommendation via Separate Generic and Unique Awareness
- arxiv url: http://arxiv.org/abs/2406.08270v1
- Date: Wed, 12 Jun 2024 14:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 22:08:55.383799
- Title: Boosting Multimedia Recommendation via Separate Generic and Unique Awareness
- Title(参考訳): 別個のジェネリックとユニークアウェアネスによるマルチメディアレコメンデーションの強化
- Authors: Zhuangzhuang He, Zihan Wang, Yonghui Yang, Haoyue Bai, Le Wu,
- Abstract要約: マルチメディアレコメンデーションのためのSAND(Separate Alignment aNd Distancing framework)を提案する。
まず、各モーダル機能を総称的および一意的な部分に分割し、次にアライメントモジュールにおいて、ジェネリックモーダルをアライメントするSoloSimLossを設計する。
分散モジュールでは、各モジュラリティがその固有かつ相補的な情報を保持するように、モダル・ジェネリックから特異なモジュラリティを遠ざけることを目的としている。
- 参考スコア(独自算出の注目度): 19.826293335983145
- License:
- Abstract: Multimedia recommendation, which incorporates various modalities (e.g., images, texts, etc.) into user or item representation to improve recommendation quality, has received widespread attention. Recent methods mainly focus on cross-modal alignment with self-supervised learning to obtain higher quality representation. Despite remarkable performance, we argue that there is still a limitation: completely aligning representation undermines modality-unique information. We consider that cross-modal alignment is right, but it should not be the entirety, as different modalities contain generic information between them, and each modality also contains unique information. Simply aligning each modality may ignore modality-unique features, thus degrading the performance of multimedia recommendation. To tackle the above limitation, we propose a Separate Alignment aNd Distancing framework (SAND) for multimedia recommendation, which concurrently learns both modal-unique and -generic representation to achieve more comprehensive items representation. First, we split each modal feature into generic and unique part. Then, in the alignment module, for better integration of semantic information between different modalities , we design a SoloSimLoss to align generic modalities. Furthermore, in the distancing module, we aim to distance the unique modalities from the modal-generic so that each modality retains its unique and complementary information. In the light of the flexibility of our framework, we give two technical solutions, the more capable mutual information minimization and the simple negative l2 distance. Finally, extensive experimental results on three popular datasets demonstrate the effectiveness and generalization of our proposed framework.
- Abstract(参考訳): 様々なモダリティ(画像,テキストなど)をユーザや項目表現に組み込んでレコメンデーション品質を向上させるマルチメディアレコメンデーションが注目されている。
近年の手法は, 高品質な表現を得るために, 自己指導型学習とクロスモーダルアライメントに重点を置いている。
顕著な性能にもかかわらず、表現を完全に整列させることは、モダリティと普遍的な情報を損なうという、まだ限界があると主張する。
我々は、クロスモーダルアライメントが正しいと考えるが、異なるモダリティはそれらの間の総称情報を含み、各モダリティは固有の情報も含むので、それは全体であるべきではない。
各モダリティの整列は、モダリティ・ユニキの特徴を無視して、マルチメディアレコメンデーションのパフォーマンスを低下させる。
この制限に対処するため,マルチメディアレコメンデーションのためのSAND(Separate Alignment aNd Distancing framework)を提案する。
まず、各モーダル機能はジェネリックな部分とユニークな部分に分割されました。
次に、アライメントモジュールにおいて、異なるモダリティ間のセマンティック情報をよりよく統合するために、一般的なモダリティをアライメントするSoloSimLossを設計する。
さらに、分散モジュールでは、各モジュラリティがその固有かつ相補的な情報を保持するように、モダル・ジェネリックから特異なモジュラリティを遠ざけることを目標としている。
フレームワークの柔軟性を考慮して、より有能な相互情報最小化と単純な負のl2距離という2つの技術的解決策を提供する。
最後に,3つの一般的なデータセットに対する広範な実験結果から,提案フレームワークの有効性と一般化が示された。
関連論文リスト
- Multimodal Difference Learning for Sequential Recommendation [5.243083216855681]
ユーザの関心とアイテムの関係は、さまざまなモダリティによって異なる、と我々は主張する。
本稿では,MDSRec のシークエンシャルレコメンデーションのための新しいマルチモーダルラーニングフレームワークを提案する。
5つの実世界のデータセットの結果は、最先端のベースラインよりもMDSRecの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-12-11T05:08:19Z) - Modality-Balanced Learning for Multimedia Recommendation [21.772064939915214]
本稿では,不均衡問題を解消し,全てのモダリティを最大限に活用するための対実的知識蒸留法を提案する。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-26T07:53:01Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Understanding Through Correlation Maximization and
Minimization [23.8764755753415]
マルチモーダルデータの本質的な性質について,以下の質問をすることで検討する。
汎用マルチモーダルデータのより構造化された潜在表現を学べるか?
数学的にも視覚的にも直感的に、潜在表現が何を捉えているのかを理解できますか?
論文 参考訳(メタデータ) (2023-05-04T19:53:05Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - What Makes Multimodal Learning Better than Single (Provably) [28.793128982222438]
複数のモダリティを持つ学習は、モダリティのサブセットを使用することで、より少ない人口リスクを達成できることを示す。
これは、実際のマルチモーダル応用で観測された重要な定性的現象を捉えた最初の理論的治療である。
論文 参考訳(メタデータ) (2021-06-08T17:20:02Z) - Deep Class-Specific Affinity-Guided Convolutional Network for Multimodal
Unpaired Image Segmentation [7.021001169318551]
マルチモーダル医療イメージセグメンテーションは、臨床診断に不可欠な役割を担います。
入力モダリティはしばしば空間的に整列していないため、依然として困難である。
マルチモーダル画像分割のための親和性誘導完全畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-05T13:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。