論文の概要: It is Never Too Late to Mend: Separate Learning for Multimedia Recommendation
- arxiv url: http://arxiv.org/abs/2406.08270v2
- Date: Tue, 17 Dec 2024 12:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:54:08.024784
- Title: It is Never Too Late to Mend: Separate Learning for Multimedia Recommendation
- Title(参考訳): マルチメディアレコメンデーションのための分離学習
- Authors: Zhuangzhuang He, Zihan Wang, Yonghui Yang, Haoyue Bai, Le Wu,
- Abstract要約: マルチメディアレコメンデーションのためのセパレート・ラーニング(SEA)を提案し,主にモーダル・ユニクおよびジェネリック・ラーニングの相互情報ビューを含む。
具体的には、まずGNNを用いて、異なるモーダルのユーザとアイテムの表現を学習し、各モーダル表現を総称的および一意的な部分に分割する。次に、異なるモーダルの一般的な部分の整合性を最大化し、より高品質なモーダル・ジェネリックな特徴を学習するために、相互情報の低境界を最大化するためにSolosimlossを設計する。
- 参考スコア(独自算出の注目度): 19.826293335983145
- License:
- Abstract: Multimedia recommendation, which incorporates various modalities (e.g., images, texts, etc.) into user or item representation to improve recommendation quality, and self-supervised learning carries multimedia recommendation to a plateau of performance, because of its superior performance in aligning different modalities. However, more and more research finds that aligning all modal representations is suboptimal because it damages the unique attributes of each modal. These studies use subtraction and orthogonal constraints in geometric space to learn unique parts. However, our rigorous analysis reveals the flaws in this approach, such as that subtraction does not necessarily yield the desired modal-unique and that orthogonal constraints are ineffective in user and item high-dimensional representation spaces. To make up for the previous weaknesses, we propose Separate Learning (SEA) for multimedia recommendation, which mainly includes mutual information view of modal-unique and -generic learning. Specifically, we first use GNN to learn the representations of users and items in different modalities and split each modal representation into generic and unique parts. We employ contrastive log-ratio upper bound to minimize the mutual information between the general and unique parts within the same modality, to distance their representations, thus learning modal-unique features. Then, we design Solosimloss to maximize the lower bound of mutual information, to align the general parts of different modalities, thus learning more high-quality modal-generic features. Finally, extensive experiments on three datasets demonstrate the effectiveness and generalization of our proposed framework. The code is available at SEA and the full training record of the main experiment.
- Abstract(参考訳): 様々なモダリティ(画像、テキストなど)をユーザや項目表現に組み込んでレコメンデーション品質を向上させるマルチメディアレコメンデーションと、異なるモダリティの整合性が優れたマルチメディアレコメンデーションをパフォーマンスのプラトーに導入する自己教師型学習である。
しかしながら、すべてのモジュラー表現の整列は、各モーダルのユニークな属性を損なうため、最適以下であることがますます研究されている。
これらの研究は、幾何学空間における減算と直交の制約を使ってユニークな部分を学ぶ。
しかし, 厳密な分析により, 減算が必ずしも所望のモジュラーユニキを生じるとは限らないこと, 直交制約がユーザやアイテムの高次元表現空間において有効でないこと, など, このアプローチの欠点が明らかになった。
従来の弱点を補うために,モーダル・ユニクティックとジェネリック・ラーニングの相互情報ビューを主眼とするマルチメディアレコメンデーションのためのセパレート・ラーニング(SEA)を提案する。
具体的には、まずGNNを用いて、異なるモダリティでユーザとアイテムの表現を学習し、各モーダル表現を汎用的およびユニークな部分に分割する。
対照的な対数比上界を用いて、同じモダリティ内の一般部分と一意部分の相互情報を最小化し、それらの表現を遠ざけることにより、モダリカル・ユニキの特徴を学習する。
そこで我々はSolosimlossを設計し、相互情報の低境界を最大化し、異なるモーダルの一般的な部分を整列させ、より高品質なモーダル・ジェネリックな特徴を学習する。
最後に、3つのデータセットに関する広範な実験を行い、提案フレームワークの有効性と一般化を実証した。
コードはSEAで利用可能であり、メインの実験の完全なトレーニング記録がある。
関連論文リスト
- Multimodal Difference Learning for Sequential Recommendation [5.243083216855681]
ユーザの関心とアイテムの関係は、さまざまなモダリティによって異なる、と我々は主張する。
本稿では,MDSRec のシークエンシャルレコメンデーションのための新しいマルチモーダルラーニングフレームワークを提案する。
5つの実世界のデータセットの結果は、最先端のベースラインよりもMDSRecの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-12-11T05:08:19Z) - Modality-Balanced Learning for Multimedia Recommendation [21.772064939915214]
本稿では,不均衡問題を解消し,全てのモダリティを最大限に活用するための対実的知識蒸留法を提案する。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-26T07:53:01Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Understanding Through Correlation Maximization and
Minimization [23.8764755753415]
マルチモーダルデータの本質的な性質について,以下の質問をすることで検討する。
汎用マルチモーダルデータのより構造化された潜在表現を学べるか?
数学的にも視覚的にも直感的に、潜在表現が何を捉えているのかを理解できますか?
論文 参考訳(メタデータ) (2023-05-04T19:53:05Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - What Makes Multimodal Learning Better than Single (Provably) [28.793128982222438]
複数のモダリティを持つ学習は、モダリティのサブセットを使用することで、より少ない人口リスクを達成できることを示す。
これは、実際のマルチモーダル応用で観測された重要な定性的現象を捉えた最初の理論的治療である。
論文 参考訳(メタデータ) (2021-06-08T17:20:02Z) - Deep Class-Specific Affinity-Guided Convolutional Network for Multimodal
Unpaired Image Segmentation [7.021001169318551]
マルチモーダル医療イメージセグメンテーションは、臨床診断に不可欠な役割を担います。
入力モダリティはしばしば空間的に整列していないため、依然として困難である。
マルチモーダル画像分割のための親和性誘導完全畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-05T13:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。