論文の概要: Enhancing Multimodal Recommendations with Vision-Language Models and Information-Aware Fusion
- arxiv url: http://arxiv.org/abs/2511.02113v1
- Date: Mon, 03 Nov 2025 23:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.701829
- Title: Enhancing Multimodal Recommendations with Vision-Language Models and Information-Aware Fusion
- Title(参考訳): 視覚言語モデルと情報認識融合によるマルチモーダルレコメンデーションの強化
- Authors: Hai-Dang Kieu, Min Xu, Thanh Trung Huynh, Dung D. Le,
- Abstract要約: 本稿では,2つのキーコンポーネントによるマルチモーダル・リコメンデーションを強化するビジョン言語と情報理論融合フレームワークを提案する。
VLMベースのビジュアルエンリッチメントモジュールは、製品イメージを意味的に整合した表現に変換するために、きめ細かいタイトル誘導記述を生成する。
部分情報分解 (Partial Information Decomposition, PID) にインスパイアされた情報認識融合モジュールは、制御された統合のためにモダリティを越えて冗長でシナジスティックな信号を切り離す。
- 参考スコア(独自算出の注目度): 11.914081442317494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal recommendation (MMR) have shown that incorporating rich content sources such as images and text can lead to significant gains representation quality. However, existing methods often rely on coarse visual features and uncontrolled fusion, leading to redundant or misaligned representations. As a result, visual encoders often fail to capture salient, item-relevant semantics, limiting their contribution in multimodal fusion. From an information-theoretic perspective, effective fusion should balance the unique, shared, and redundant information across modalities, preserving complementary cues while avoiding correlation bias. This paper presents VLIF, a vision-language and information-theoretic fusion framework that enhances multimodal recommendation through two key components. (i) A VLM-based visual enrichment module generates fine-grained, title-guided descriptions to transform product images into semantically aligned representations. (ii) An information-aware fusion module, inspired by Partial Information Decomposition (PID), disentangles redundant and synergistic signals across modalities for controlled integration. Experiments on three Amazon datasets demonstrate that VLIF consistently outperforms recent multimodal baselines and substantially strengthens the contribution of visual features.
- Abstract(参考訳): マルチモーダルレコメンデーション(MMR)の最近の進歩は、画像やテキストなどのリッチなコンテンツソースを取り入れることで、表現品質が大幅に向上することを示している。
しかし、既存の手法は、しばしば粗い視覚的特徴と制御されていない融合に依存し、冗長あるいは不整合表現をもたらす。
その結果、視覚エンコーダは、アイテム関連セマンティクスを捉えることができず、マルチモーダル融合への貢献を制限することができる。
情報理論の観点からは、効果的な融合は、一意、共有、冗長な情報をモダリティにわたってバランスさせ、相関バイアスを避けながら相補的な手がかりを保存するべきである。
本稿では,視覚言語と情報理論の融合フレームワークであるVLIFについて述べる。
i) VLMベースのビジュアルエンリッチメントモジュールは、製品イメージを意味的に整合した表現に変換するための、きめ細かいタイトル誘導記述を生成する。
(II)部分情報分解(PID)にインスパイアされた情報認識融合モジュールは、制御された統合のためにモダリティを越えて冗長で相乗的な信号を切り離す。
Amazonの3つのデータセットの実験によると、VLIFは最近のマルチモーダルベースラインを一貫して上回り、視覚的特徴の寄与を大幅に強化している。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analysis on Multimodal Representations for Recommendation [9.37169920239321]
マルチモーダル・レコメンダ・システムは異種コンテンツの統合によるレコメンデーションの精度向上を目的としている。
効果はあるものの、それらの利得が真のマルチモーダル理解によるものなのか、あるいはモデルの複雑さの増加によるものなのかは定かではない。
本研究は,マルチモーダルな項目埋め込みの役割を考察し,表現の意味的情報性を強調した。
論文 参考訳(メタデータ) (2025-08-06T15:53:58Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - A Clustering-guided Contrastive Fusion for Multi-view Representation
Learning [7.630965478083513]
本稿では、ビュー固有表現をビュー共通表現に融合する深層融合ネットワークを提案する。
また、ビュー共通表現とビュー固有表現を一致させる非対称なコントラスト戦略を設計する。
不完全な視点では,提案手法は競合相手よりもノイズ干渉に抵抗する。
論文 参考訳(メタデータ) (2022-12-28T07:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。