論文の概要: Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation
- arxiv url: http://arxiv.org/abs/2111.00678v1
- Date: Mon, 1 Nov 2021 03:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 18:01:58.317861
- Title: Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation
- Title(参考訳): マルチメディア推薦のためのコントラストモダリティ融合による潜在構造マイニング
- Authors: Jinghao Zhang, Yanqiao Zhu, Qiang Liu, Mengqi Zhang, Shu Wu, Liang
Wang
- Abstract要約: マルチモーダルコンテンツに基づく潜在意味的項目-項目構造は,より優れた項目表現を学習する上で有益である,と我々は主張する。
モータリティを意識した構造学習モジュールを考案し,各モータリティの項目間関係を学習する。
- 参考スコア(独自算出の注目度): 22.701371886522494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed growing interests in multimedia recommendation,
which aims to predict whether a user will interact with an item with multimodal
contents. Previous studies focus on modeling user-item interactions with
multimodal features included as side information. However, this scheme is not
well-designed for multimedia recommendation. Firstly, only collaborative
item-item relationships are implicitly modeled through high-order
item-user-item co-occurrences. We argue that the latent semantic item-item
structures underlying these multimodal contents could be beneficial for
learning better item representations and assist the recommender models to
comprehensively discover candidate items. Secondly, previous studies disregard
the fine-grained multimodal fusion. Although having access to multiple
modalities might allow us to capture rich information, we argue that the simple
coarse-grained fusion by linear combination or concatenation in previous work
is insufficient to fully understand content information and item
relationships.To this end, we propose a latent structure MIning with
ContRastive mOdality fusion method (MICRO for brevity). To be specific, we
devise a novel modality-aware structure learning module, which learns item-item
relationships for each modality. Based on the learned modality-aware latent
item relationships, we perform graph convolutions that explicitly inject item
affinities to modality-aware item representations. Then, we design a novel
contrastive method to fuse multimodal features. These enriched item
representations can be plugged into existing collaborative filtering methods to
make more accurate recommendations. Extensive experiments on real-world
datasets demonstrate the superiority of our method over state-of-the-art
baselines.
- Abstract(参考訳): 近年,マルチメディアリコメンデーションへの関心が高まっている。マルチモーダルコンテンツを用いたアイテムの対話性を予測することを目的としている。
これまでの研究は、サイド情報を含むマルチモーダル機能によるユーザ・テーマインタラクションのモデリングに焦点を当てている。
しかし、この方式はマルチメディアレコメンデーションには適していない。
まず、協調的なアイテム-アイテム間の関係のみが、高次アイテム-ユーザ-アイテム間の共起によって暗黙的にモデル化される。
これらのマルチモーダルコンテンツに基づく潜在的セマンティック・アイテム・イテム構造は、より優れたアイテム表現を学習し、候補項目を包括的に発見するための推奨モデルを支援するのに有用である。
第2に, 細粒度マルチモーダル核融合を無視する先行研究である。
複数モードにアクセスできることで、豊富な情報を取得することができるが、線形結合や過去の作業における連結による単純な粗粒融合は、内容情報や項目の関係を十分に理解するには不十分である、と我々は論じ、このために、contRastive mOdality fusion method (MICRO) を用いた潜伏構造を提案する。
具体化するために,各モダリティの項目間関係を学習する新しいモダリティ対応構造学習モジュールを考案した。
学習したモダリティ対応アイテムの関係に基づき、モダリティ対応アイテム表現にアイテム親和性を明示的に注入するグラフ畳み込みを行う。
そして,マルチモーダルな特徴を融合する新しいコントラスト手法を設計する。
これらの強化された項目表現は、より正確な推奨を行うために既存の協調フィルタリングメソッドにプラグインすることができる。
実世界のデータセットに関する広範な実験は、最先端のベースラインよりも優れた方法を示している。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - AlignRec: Aligning and Training in Multimodal Recommendations [29.995007279325947]
マルチモーダル・レコメンデーションは 相互作用を超えて 豊かなコンテキストを活用できる
既存の手法では、主に多モーダル情報を補助的なものとみなし、それを用いてIDの特徴を学習する。
マルチモーダルコンテンツの特徴とIDベースの特徴の間にはセマンティックなギャップがあり、それによってユーザやアイテムの表現の誤調整につながる。
論文 参考訳(メタデータ) (2024-03-19T02:49:32Z) - MM-GEF: Multi-modal representation meet collaborative filtering [43.88159639990081]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Mining Latent Structures for Multimedia Recommendation [46.70109406399858]
本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
論文 参考訳(メタデータ) (2021-04-19T03:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。