論文の概要: VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2603.17450v1
- Date: Wed, 18 Mar 2026 07:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.573473
- Title: VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation
- Title(参考訳): VLM2Rec:マルチモーダルシーケンスレコメンデーションのための視覚言語モデル埋め込み器におけるモダリティ崩壊の解消
- Authors: Junyoung Kim, Woojoo Kim, Jaehyung Lim, Dongha Kim, Hwanjo Yu,
- Abstract要約: 逐次レコメンデーションのためのマルチモーダルエンコーダとしての視覚言語モデル(VLM)について検討する。
標準コントラスト制御微調整(SFT)は、その固有のモダリティ崩壊を増幅する。
本稿では,VLMの組込み型フレームワークであるVLM2Recを提案する。
- 参考スコア(独自算出の注目度): 15.053120780189461
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sequential Recommendation (SR) in multimodal settings typically relies on small frozen pretrained encoders, which limits semantic capacity and prevents Collaborative Filtering (CF) signals from being fully integrated into item representations. Inspired by the recent success of Large Language Models (LLMs) as high-capacity embedders, we investigate the use of Vision-Language Models (VLMs) as CF-aware multimodal encoders for SR. However, we find that standard contrastive supervised fine-tuning (SFT), which adapts VLMs for embedding generation and injects CF signals, can amplify its inherent modality collapse. In this state, optimization is dominated by a single modality while the other degrades, ultimately undermining recommendation accuracy. To address this, we propose VLM2Rec, a VLM embedder-based framework for multimodal sequential recommendation designed to ensure balanced modality utilization. Specifically, we introduce Weak-modality Penalized Contrastive Learning to rectify gradient imbalance during optimization and Cross-Modal Relational Topology Regularization to preserve geometric consistency between modalities. Extensive experiments demonstrate that VLM2Rec consistently outperforms state-of-the-art baselines in both accuracy and robustness across diverse scenarios.
- Abstract(参考訳): マルチモーダル環境でのシーケンスレコメンデーション(SR)は、典型的には、セマンティックキャパシティを制限し、協調フィルタリング(CF)信号がアイテム表現に完全に統合されるのを防ぐ、小さな凍結事前訓練エンコーダに依存している。
近年のLarge Language Models (LLMs) の高容量組込み機としての成功に触発されて, CF対応マルチモーダルエンコーダとしてのVLM(Vision-Language Models) の利用について検討した。
しかし、CF信号の埋め込みや注入にVLMを適用する標準のコントラスト型微調整(SFT)は、その固有のモダリティ崩壊を増幅することができる。
この状態では、最適化は単一のモダリティによって支配され、他方は劣化し、最終的には推奨精度を損なう。
そこで本研究では,VLMの組込み型フレームワークであるVLM2Recを提案する。
具体的には、最適化中の勾配不均衡を正すために弱モダリティPentalized Contrastive Learningを導入し、モダリティ間の幾何的整合性を維持するために、クロスモーダルリレーショナルトポロジを正規化する。
大規模な実験では、VLM2Recは様々なシナリオにおける精度と堅牢性の両方において、最先端のベースラインを一貫して上回っている。
関連論文リスト
- RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment [23.738860191046538]
マルチモーダルなレコメンデーションのための新しい2つのセマンティックアライメントフレームワークRecGOATを提案する。
RecGOATは、我々の理論的洞察を実証的に検証し、最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-01-31T11:58:38Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Transferable Sequential Recommendation with Vanilla Cross-Entropy Loss [2.0048375809706274]
Sequential Recommendation (SR)システムでは、インタラクション履歴を分析してユーザの好みをモデル化する。
現在の手法は、新しいドメインに適応する際にかなりの微調整コストを発生させる。
MMM4Recは、効率的な伝達学習のための専用代数的制約機構を組み込んだ、新しいマルチモーダルSRフレームワークである。
論文 参考訳(メタデータ) (2025-06-03T14:18:19Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。