論文の概要: Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2412.14978v1
- Date: Thu, 19 Dec 2024 15:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:29:17.847215
- Title: Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation
- Title(参考訳): マルチモーダルレコメンデーションのためのスペクトルベースモダリティ表現融合グラフ畳み込みネットワーク
- Authors: Rongqing Kenneth Ong, Andy W. H. Khong,
- Abstract要約: 本稿では,新しいスペクトルベースのモダリティ表現グラフレコメンデータを提案する。
モダリティノイズを同時に抑制しながら、ユニモーダルとフュージョンの両方の好みを捉えることを目的としている。
実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
- 参考スコア(独自算出の注目度): 7.627299398469962
- License:
- Abstract: Incorporating multi-modal features as side information has recently become a trend in recommender systems. To elucidate user-item preferences, recent studies focus on fusing modalities via concatenation, element-wise sum, or attention mechanisms. Despite having notable success, existing approaches do not account for the modality-specific noise encapsulated within each modality. As a result, direct fusion of modalities will lead to the amplification of cross-modality noise. Moreover, the variation of noise that is unique within each modality results in noise alleviation and fusion being more challenging. In this work, we propose a new Spectrum-based Modality Representation (SMORE) fusion graph recommender that aims to capture both uni-modal and fusion preferences while simultaneously suppressing modality noise. Specifically, SMORE projects the multi-modal features into the frequency domain and leverages the spectral space for fusion. To reduce dynamic contamination that is unique to each modality, we introduce a filter to attenuate and suppress the modality noise adaptively while capturing the universal modality patterns effectively. Furthermore, we explore the item latent structures by designing a new multi-modal graph learning module to capture associative semantic correlations and universal fusion patterns among similar items. Finally, we formulate a new modality-aware preference module, which infuses behavioral features and balances the uni- and multi-modal features for precise preference modeling. This empowers SMORE with the ability to infer both user modality-specific and fusion preferences more accurately. Experiments on three real-world datasets show the efficacy of our proposed model. The source code for this work has been made publicly available at https://github.com/kennethorq/SMORE.
- Abstract(参考訳): マルチモーダル機能をサイド情報として組み込むことは、近年レコメンデーションシステムにおいてトレンドとなっている。
ユーザの好みを解明するために、近年の研究では、結合、要素和、注意機構によるモダリティの融合に焦点を当てている。
顕著な成功にもかかわらず、既存のアプローチでは、各モードにカプセル化されたモジュラリティ固有のノイズは考慮していない。
その結果、モーダリティの直接融合は、モーダリティ間のノイズの増幅につながる。
さらに、各モードに特有のノイズの変動により、ノイズの緩和と融合がより困難になる。
本研究では,一様音と融合音の両方を同時に抑制しつつ,一様音と融合音の両方を捉えることを目的とした,新しいスペクトルベースモダリティ表現(SMORE)融合グラフレコメンデータを提案する。
具体的には、SMOREは多重モードの特徴を周波数領域に投影し、融合のためにスペクトル空間を利用する。
各モードに特有のダイナミックな汚染を低減するため,ユニバーサルなモーダルパターンを効果的に捉えながら適応的にモーダルノイズを減衰・抑制するフィルタを導入する。
さらに,類似項目間の連想的意味的相関や普遍的融合パターンを捉えるために,新しいマルチモーダルグラフ学習モジュールを設計することにより,アイテム潜在構造を探索する。
最後に、振る舞い特徴を注入し、一様および多様の特徴を正確に選好モデリングするためにバランスをとる、新しいモダリティ対応選好モジュールを定式化する。
これにより、SMOREは、ユーザのモダリティに固有のものと、融合の好みの両方をより正確に推測することができる。
実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
この作業のソースコードはhttps://github.com/kennethorq/SMOREで公開されている。
関連論文リスト
- Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。
本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文 参考訳(メタデータ) (2024-06-17T17:35:54Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。