論文の概要: Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation
- arxiv url: http://arxiv.org/abs/2111.00678v1
- Date: Mon, 1 Nov 2021 03:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 18:01:58.317861
- Title: Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation
- Title(参考訳): マルチメディア推薦のためのコントラストモダリティ融合による潜在構造マイニング
- Authors: Jinghao Zhang, Yanqiao Zhu, Qiang Liu, Mengqi Zhang, Shu Wu, Liang
Wang
- Abstract要約: マルチモーダルコンテンツに基づく潜在意味的項目-項目構造は,より優れた項目表現を学習する上で有益である,と我々は主張する。
モータリティを意識した構造学習モジュールを考案し,各モータリティの項目間関係を学習する。
- 参考スコア(独自算出の注目度): 22.701371886522494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed growing interests in multimedia recommendation,
which aims to predict whether a user will interact with an item with multimodal
contents. Previous studies focus on modeling user-item interactions with
multimodal features included as side information. However, this scheme is not
well-designed for multimedia recommendation. Firstly, only collaborative
item-item relationships are implicitly modeled through high-order
item-user-item co-occurrences. We argue that the latent semantic item-item
structures underlying these multimodal contents could be beneficial for
learning better item representations and assist the recommender models to
comprehensively discover candidate items. Secondly, previous studies disregard
the fine-grained multimodal fusion. Although having access to multiple
modalities might allow us to capture rich information, we argue that the simple
coarse-grained fusion by linear combination or concatenation in previous work
is insufficient to fully understand content information and item
relationships.To this end, we propose a latent structure MIning with
ContRastive mOdality fusion method (MICRO for brevity). To be specific, we
devise a novel modality-aware structure learning module, which learns item-item
relationships for each modality. Based on the learned modality-aware latent
item relationships, we perform graph convolutions that explicitly inject item
affinities to modality-aware item representations. Then, we design a novel
contrastive method to fuse multimodal features. These enriched item
representations can be plugged into existing collaborative filtering methods to
make more accurate recommendations. Extensive experiments on real-world
datasets demonstrate the superiority of our method over state-of-the-art
baselines.
- Abstract(参考訳): 近年,マルチメディアリコメンデーションへの関心が高まっている。マルチモーダルコンテンツを用いたアイテムの対話性を予測することを目的としている。
これまでの研究は、サイド情報を含むマルチモーダル機能によるユーザ・テーマインタラクションのモデリングに焦点を当てている。
しかし、この方式はマルチメディアレコメンデーションには適していない。
まず、協調的なアイテム-アイテム間の関係のみが、高次アイテム-ユーザ-アイテム間の共起によって暗黙的にモデル化される。
これらのマルチモーダルコンテンツに基づく潜在的セマンティック・アイテム・イテム構造は、より優れたアイテム表現を学習し、候補項目を包括的に発見するための推奨モデルを支援するのに有用である。
第2に, 細粒度マルチモーダル核融合を無視する先行研究である。
複数モードにアクセスできることで、豊富な情報を取得することができるが、線形結合や過去の作業における連結による単純な粗粒融合は、内容情報や項目の関係を十分に理解するには不十分である、と我々は論じ、このために、contRastive mOdality fusion method (MICRO) を用いた潜伏構造を提案する。
具体化するために,各モダリティの項目間関係を学習する新しいモダリティ対応構造学習モジュールを考案した。
学習したモダリティ対応アイテムの関係に基づき、モダリティ対応アイテム表現にアイテム親和性を明示的に注入するグラフ畳み込みを行う。
そして,マルチモーダルな特徴を融合する新しいコントラスト手法を設計する。
これらの強化された項目表現は、より正確な推奨を行うために既存の協調フィルタリングメソッドにプラグインすることができる。
実世界のデータセットに関する広範な実験は、最先端のベースラインよりも優れた方法を示している。
関連論文リスト
- MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - MM-GEF: Multi-modal representation meet collaborative filtering [51.04679619309803]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Sequential Recommendation with Auxiliary Item Relationships via
Multi-Relational Transformer [74.64431400185106]
逐次レコメンデーション(SR)のための補助項目関係をモデル化可能なマルチリレーショナルトランスを提案する。
具体的には,任意の項目関係と項目関係の重み付けを組み込んだ新たな自己注意モジュールを提案する。
第3に、シーケンス間アイテム関係ペアに対して、新しいシーケンス間アイテムモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2022-10-24T19:49:17Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Multi-Modal Attribute Extraction for E-Commerce [4.626261940793027]
モダリティをシームレスに組み合わせるための新しいアプローチを開発しており、これは我々の単一モダリティ調査にインスパイアされている。
楽天・一葉データの実験は、我々のアプローチの利点の実証的な証拠を提供する。
論文 参考訳(メタデータ) (2022-03-07T14:48:44Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z) - Mining Latent Structures for Multimedia Recommendation [46.70109406399858]
本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
論文 参考訳(メタデータ) (2021-04-19T03:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。