論文の概要: Structural and Disentangled Adaptation of Large Vision Language Models for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2512.06883v1
- Date: Sun, 07 Dec 2025 15:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.573952
- Title: Structural and Disentangled Adaptation of Large Vision Language Models for Multimodal Recommendation
- Title(参考訳): マルチモーダルレコメンデーションのための大規模視覚言語モデルの構造と不整合適応
- Authors: Zhongtao Rao, Peilin Zhou, Dading Chong, Zhiwei Chen, Shoujin Wang, Nan Tang,
- Abstract要約: マルチモーダルレコメンデーションは、視覚信号とテキスト信号を活用することで精度を高め、その成功は、高品質なクロスモーダル表現の学習に大きく依存する。
近年のLVLM(Large Vision-Language Models)は,マルチモーダル表現学習の統一化を実現している。
SDA は,Cross-Modal Structure Alignment (CMSA) とModality-Disentangled Adaptation の2つのコンポーネントを統合した,構造的・不整合適応のための軽量フレームワークである。
- 参考スコア(独自算出の注目度): 27.19123935646594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal recommendation enhances accuracy by leveraging visual and textual signals, and its success largely depends on learning high-quality cross-modal representations. Recent advances in Large Vision-Language Models (LVLMs) offer unified multimodal representation learning, making them a promising backbone. However, applying LVLMs to recommendation remains challenging due to (i) representation misalignment, where domain gaps between item data and general pre-training lead to unaligned embedding spaces, and (ii) gradient conflicts during fine-tuning, where shared adapters cause interference and a lack of discriminative power. To address this, we propose SDA, a lightweight framework for Structural and Disentangled Adaptation, which integrates two components: Cross-Modal Structural Alignment (CMSA) and Modality-Disentangled Adaptation. CMSA aligns embeddings using intra-modal structures as a soft teacher, while MoDA mitigates gradient conflicts via expertized, gated low-rank paths to disentangle gradient flows. Experiments on three public Amazon datasets show SDA integrates seamlessly with existing multimodal and sequential recommenders, yielding average gains of 6.15% in Hit@10 and 8.64% in NDCG@10. It also achieves up to 12.83% and 18.70% gains on long-tail items with minimal inference overhead. Our code and full experimental results are available at https://github.com/RaoZhongtao/SDA.
- Abstract(参考訳): マルチモーダルレコメンデーションは、視覚信号とテキスト信号を活用することによって精度を高め、その成功は、高品質なクロスモーダル表現の学習に大きく依存する。
近年のLVLM(Large Vision-Language Models)は,マルチモーダル表現学習の統一化を実現している。
しかし、レコメンデーションにLVLMを適用することは依然として困難である。
一 商品データと一般事前学習のドメインギャップが不整合な埋め込み空間に繋がる表現の不整合
(II) 微調整における勾配の衝突は, 共用アダプタが干渉し, 識別力の欠如を引き起こす。
そこで我々は,SDAを提案する。SDAは,Cross-Modal Structure Alignment (CMSA) とModality-Disentangled Adaptationの2つのコンポーネントを統合した,構造的・分散的適応のための軽量フレームワークである。
CMSAは、モーダル内構造をソフトな教師として使用した埋め込みを調整し、MoDAは、専門化された、ゲートされた低ランクの経路を通じて勾配の衝突を緩和し、不整合な勾配の流れを緩和する。
3つのパブリックAmazonデータセットの実験によると、SDAは既存のマルチモーダルおよびシーケンシャルレコメンデータとシームレスに統合され、Hit@10では6.15%、NDCG@10では8.64%の平均的なゲインが得られる。
また、推論オーバーヘッドが最小限であるロングテールアイテムの最大12.83%と18.70%のゲインを達成している。
私たちのコードと実験結果はhttps://github.com/RaoZhongtao/SDA.comで公開されています。
関連論文リスト
- Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation [39.02105398462778]
テスト時間適応(TTA)は、未ラベルのテストデータのみを使用したオンラインモデル適応を可能にする。
マルチモーダルのシナリオでは、異なるモダリティをまたいだ分布の度合いの変化は複雑なカップリング効果をもたらす。
本稿では,BriMPR(Progressive Re-alignment)によるブリッジングモダリティ( Bridging Modalities)と呼ばれる新しいTTAフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-28T03:33:42Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。