論文の概要: Mining Latent Structures for Multimedia Recommendation
- arxiv url: http://arxiv.org/abs/2104.09036v1
- Date: Mon, 19 Apr 2021 03:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:27:38.151043
- Title: Mining Latent Structures for Multimedia Recommendation
- Title(参考訳): マルチメディアレコメンデーションのためのマイニング潜在構造
- Authors: Jinghao Zhang, Yanqiao Zhu, Qiang Liu, Shu Wu, Shuhui Wang, Liang Wang
- Abstract要約: 本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
- 参考スコア(独自算出の注目度): 46.70109406399858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia content is of predominance in the modern Web era. Investigating
how users interact with multimodal items is a continuing concern within the
rapid development of recommender systems. The majority of previous work focuses
on modeling user-item interactions with multimodal features included as side
information. However, this scheme is not well-designed for multimedia
recommendation. Specifically, only collaborative item-item relationships are
implicitly modeled through high-order item-user-item relations. Considering
that items are associated with rich contents in multiple modalities, we argue
that the latent item-item structures underlying these multimodal contents could
be beneficial for learning better item representations and further boosting
recommendation. To this end, we propose a LATent sTructure mining method for
multImodal reCommEndation, which we term LATTICE for brevity. To be specific,
in the proposed LATTICE model, we devise a novel modality-aware structure
learning layer, which learns item-item structures for each modality and
aggregates multiple modalities to obtain latent item graphs. Based on the
learned latent graphs, we perform graph convolutions to explicitly inject
high-order item affinities into item representations. These enriched item
representations can then be plugged into existing collaborative filtering
methods to make more accurate recommendations. Extensive experiments on three
real-world datasets demonstrate the superiority of our method over
state-of-the-art multimedia recommendation methods and validate the efficacy of
mining latent item-item relationships from multimodal features.
- Abstract(参考訳): マルチメディアコンテンツは現代ウェブ時代において優位である。
ユーザがマルチモーダルアイテムとどのように相互作用するかを調べることは、リコメンダシステムの迅速な開発における継続的な懸念である。
以前の作業の大部分は、サイド情報を含むマルチモーダル機能によるユーザ-テーマインタラクションのモデリングに重点を置いている。
しかし、この方式はマルチメディアレコメンデーションには適していない。
具体的には、コラボレーティブなアイテム-アイテム間関係のみが、高次アイテム-ユーザ-アイテム間関係を通じて暗黙的にモデル化される。
複数のモダリティのリッチなコンテンツに関連付けられていることを考えると、これらのマルチモーダルコンテンツを支える潜在アイテムイテム構造は、よりよいアイテム表現を学習し、さらに推奨を高めるのに役立つと論じる。
そこで本研究では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
具体的には,提案する格子モデルにおいて,各モダリティの項目構造を学習し,複数のモダリティを集約して潜在項目グラフを得る新しいモダリティ認識構造学習層を考案する。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
これらの強化されたアイテム表現は、より正確な推奨を行うために既存のコラボレーティブフィルタリングメソッドにプラグインすることができる。
3つの実世界のデータセットに関する広範囲な実験により、最先端マルチメディア勧告手法よりも優れた方法が示され、マルチモーダル特徴から潜在項目-項目関係をマイニングする効果が検証された。
関連論文リスト
- Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。
本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文 参考訳(メタデータ) (2024-06-17T17:35:54Z) - ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation [13.338363107777438]
コンテンツと構造の両方の健全な特徴を高めるために,ID埋め込みを取り入れた新しいレコメンデーションモデルを提案する。
提案手法は,最先端のマルチモーダルレコメンデーション手法や細粒度ID埋め込みの有効性に優れる。
論文 参考訳(メタデータ) (2023-11-10T09:41:28Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - MM-GEF: Multi-modal representation meet collaborative filtering [43.88159639990081]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation [22.701371886522494]
マルチモーダルコンテンツに基づく潜在意味的項目-項目構造は,より優れた項目表現を学習する上で有益である,と我々は主張する。
モータリティを意識した構造学習モジュールを考案し,各モータリティの項目間関係を学習する。
論文 参考訳(メタデータ) (2021-11-01T03:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。