論文の概要: MM-GEF: Multi-modal representation meet collaborative filtering
- arxiv url: http://arxiv.org/abs/2308.07222v1
- Date: Mon, 14 Aug 2023 15:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 12:37:18.282759
- Title: MM-GEF: Multi-modal representation meet collaborative filtering
- Title(参考訳): mm-gef:マルチモーダル表現と協調フィルタリング
- Authors: Hao Wu and Alejandro Ariza-Casabona and Bart{\l}omiej Twardowski and
Tri Kurniawan Wijaya
- Abstract要約: 本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
- 参考スコア(独自算出の注目度): 51.04679619309803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern e-commerce, item content features in various modalities offer
accurate yet comprehensive information to recommender systems. The majority of
previous work either focuses on learning effective item representation during
modelling user-item interactions, or exploring item-item relationships by
analysing multi-modal features. Those methods, however, fail to incorporate the
collaborative item-user-item relationships into the multi-modal feature-based
item structure. In this work, we propose a graph-based item structure
enhancement method MM-GEF: Multi-Modal recommendation with Graph Early-Fusion,
which effectively combines the latent item structure underlying multi-modal
contents with the collaborative signals. Instead of processing the content
feature in different modalities separately, we show that the early-fusion of
multi-modal features provides significant improvement. MM-GEF learns refined
item representations by injecting structural information obtained from both
multi-modal and collaborative signals. Through extensive experiments on four
publicly available datasets, we demonstrate systematical improvements of our
method over state-of-the-art multi-modal recommendation methods.
- Abstract(参考訳): 現代のeコマースでは、様々なモダリティのアイテムコンテンツ機能によって、推奨システムに正確かつ包括的な情報を提供する。
これまでの研究の大部分は、ユーザとイテムの相互作用をモデル化する際の効果的なアイテム表現の学習や、マルチモーダルな特徴の分析によるアイテムとイテムの関係の探索に重点を置いていた。
しかし、これらの手法は、協調的なアイテム-ユーザ-イテム関係をマルチモーダルな特徴ベースのアイテム構造に組み込むことができない。
本研究では,マルチモーダルコンテンツを構成する潜在アイテム構造と協調的な信号とを効果的に結合するグラフ・アーリー・フュージョンを用いたマルチモーダル推薦手法mm-gefを提案する。
異なるモダリティでコンテンツ特徴を個別に処理する代わりに、マルチモーダル機能の早期融合が大きな改善をもたらすことを示す。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
公開されている4つのデータセットに対する広範な実験を通じて、最先端のマルチモーダルレコメンデーション手法よりも、提案手法の体系的な改善を実証する。
関連論文リスト
- Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - Using Multiple Instance Learning to Build Multimodal Representations [3.354271620160378]
画像テキストによるマルチモーダル表現学習は、モダリティ間でデータを整列させ、重要な医療応用を可能にする。
本稿では,既存の多モーダル表現学習手法を特例として,置換不変スコア関数を構築するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-11T18:01:11Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z) - Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation [22.701371886522494]
マルチモーダルコンテンツに基づく潜在意味的項目-項目構造は,より優れた項目表現を学習する上で有益である,と我々は主張する。
モータリティを意識した構造学習モジュールを考案し,各モータリティの項目間関係を学習する。
論文 参考訳(メタデータ) (2021-11-01T03:37:02Z) - Mining Latent Structures for Multimedia Recommendation [46.70109406399858]
本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
論文 参考訳(メタデータ) (2021-04-19T03:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。