論文の概要: Enhancing Multimodal Recommendations with Vision-Language Models and Information-Aware Fusion
- arxiv url: http://arxiv.org/abs/2511.02113v2
- Date: Mon, 10 Nov 2025 06:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:56:00.456126
- Title: Enhancing Multimodal Recommendations with Vision-Language Models and Information-Aware Fusion
- Title(参考訳): 視覚言語モデルと情報認識融合によるマルチモーダルレコメンデーションの強化
- Authors: Hai-Dang Kieu, Min Xu, Thanh Trung Huynh, Dung D. Le,
- Abstract要約: VIRALは、Vision-Language and Information-Aware Recommendationフレームワークである。
意味的に整合した画像表現のための、きめ細かいタイトル誘導記述を生成する。
3つのAmazonデータセットの実験によると、VIRALは強いマルチモーダルベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 11.914081442317494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal recommendation (MMR) highlight the potential of integrating visual and textual content to enrich item representations. However, existing methods often rely on coarse visual features and naive fusion strategies, resulting in redundant or misaligned representations. From an information-theoretic perspective, effective fusion should balance unique, shared, and redundant modality information to preserve complementary cues. To this end, we propose VIRAL, a novel Vision-Language and Information-aware Recommendation framework that enhances multimodal fusion through two components: (i) a VLM-based visual enrichment module that generates fine-grained, title-guided descriptions for semantically aligned image representations, and (ii) an information-aware fusion module inspired by Partial Information Decomposition (PID) to disentangle and integrate complementary signals. Experiments on three Amazon datasets show that VIRAL consistently outperforms strong multimodal baselines and substantially improves the contribution of visual features.
- Abstract(参考訳): マルチモーダルレコメンデーション(MMR)の最近の進歩は、アイテム表現を豊かにするために視覚コンテンツとテキストコンテンツを統合する可能性を強調している。
しかし、既存の手法は、しばしば粗い視覚的特徴と単純な融合戦略に依存しており、結果として冗長あるいは不整合表現をもたらす。
情報理論の観点からは、効果的な融合は、相補的な手がかりを維持するために、一意、共有、冗長なモダリティ情報のバランスをとるべきである。
この目的のために、我々は2つのコンポーネントによるマルチモーダル融合を強化するビジョン・ランゲージ・インフォメーション・アウェア・レコメンデーション・フレームワークであるVIRALを提案する。
一 セマンティックに整合した画像表現のための微粒なタイトル誘導記述を生成するVLMベースのビジュアルエンリッチメントモジュール
(II)部分情報分解(PID)にインスパイアされた情報認識融合モジュールで、相補的な信号を分離・統合する。
3つのAmazonデータセットの実験によると、VIRALは強いマルチモーダルベースラインを一貫して上回り、視覚的特徴の寄与を大幅に改善している。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analysis on Multimodal Representations for Recommendation [9.37169920239321]
マルチモーダル・レコメンダ・システムは異種コンテンツの統合によるレコメンデーションの精度向上を目的としている。
効果はあるものの、それらの利得が真のマルチモーダル理解によるものなのか、あるいはモデルの複雑さの増加によるものなのかは定かではない。
本研究は,マルチモーダルな項目埋め込みの役割を考察し,表現の意味的情報性を強調した。
論文 参考訳(メタデータ) (2025-08-06T15:53:58Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - A Clustering-guided Contrastive Fusion for Multi-view Representation
Learning [7.630965478083513]
本稿では、ビュー固有表現をビュー共通表現に融合する深層融合ネットワークを提案する。
また、ビュー共通表現とビュー固有表現を一致させる非対称なコントラスト戦略を設計する。
不完全な視点では,提案手法は競合相手よりもノイズ干渉に抵抗する。
論文 参考訳(メタデータ) (2022-12-28T07:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。