論文の概要: Decoupled Proxy Alignment: Mitigating Language Prior Conflict for Multimodal Alignment in MLLM
- arxiv url: http://arxiv.org/abs/2509.14735v1
- Date: Thu, 18 Sep 2025 08:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.123065
- Title: Decoupled Proxy Alignment: Mitigating Language Prior Conflict for Multimodal Alignment in MLLM
- Title(参考訳): Decoupled Proxy Alignment:MLLMにおけるマルチモーダルアライメントのための言語衝突の軽減
- Authors: Chenkun Tan, Pengyu Wang, Shaojun Zhou, Botian Jiang, Zhaowei Li, Dong Zhang, Xinghao Wang, Yaqian Zhou, Xipeng Qiu,
- Abstract要約: マルチモーダル・大規模言語モデル (MLLM) は視覚と言語モダリティを統合できることから注目されている。
MLLMの最近の進歩は、主に高品質なデータセットによるパフォーマンス向上に焦点を当てている。
我々は、以前見過ごされた問題、言語事前衝突、大規模言語モデル(LLM)固有の言語先行とデータセットのトレーニングにおける言語先行とのミスマッチを識別する。
- 参考スコア(独自算出の注目度): 45.41810190947388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have gained significant attention due to their impressive ability to integrate vision and language modalities. Recent advancements in MLLMs have primarily focused on improving performance through high-quality datasets, novel architectures, and optimized training strategies. However, in this paper, we identify a previously overlooked issue, language prior conflict, a mismatch between the inherent language priors of large language models (LLMs) and the language priors in training datasets. This conflict leads to suboptimal vision-language alignment, as MLLMs are prone to adapting to the language style of training samples. To address this issue, we propose a novel training method called Decoupled Proxy Alignment (DPA). DPA introduces two key innovations: (1) the use of a proxy LLM during pretraining to decouple the vision-language alignment process from language prior interference, and (2) dynamic loss adjustment based on visual relevance to strengthen optimization signals for visually relevant tokens. Extensive experiments demonstrate that DPA significantly mitigates the language prior conflict, achieving superior alignment performance across diverse datasets, model families, and scales. Our method not only improves the effectiveness of MLLM training but also shows exceptional generalization capabilities, making it a robust approach for vision-language alignment. Our code is available at https://github.com/fnlp-vision/DPA.
- Abstract(参考訳): マルチモーダル・大規模言語モデル (MLLM) は視覚と言語モダリティを統合できることから注目されている。
MLLMの最近の進歩は、主に高品質なデータセット、新しいアーキテクチャ、最適化されたトレーニング戦略によるパフォーマンス向上に焦点を当てている。
しかし,本稿では,これまで見過ごされてきた問題,言語事前衝突,大規模言語モデル(LLM)固有の言語先行と,データセットのトレーニングにおける言語先行とのミスマッチを識別する。
この対立は、MLLMがトレーニングサンプルの言語スタイルに適応する傾向にあるため、最適な視覚言語アライメントをもたらす。
そこで本研究では,DPA(Decoupled Proxy Alignment)と呼ばれる新しいトレーニング手法を提案する。
DPAは,(1)事前学習におけるプロキシLSMの使用による言語前処理の切り離し,(2)視覚的関連性に基づく動的損失調整による視覚的関連トークンの最適化信号の強化,という2つの重要なイノベーションを導入している。
大規模な実験により、DPAは言語間の衝突を著しく軽減し、多様なデータセット、モデルファミリー、スケールで優れたアライメント性能を達成することが示されている。
本手法は,MLLMトレーニングの有効性を向上するだけでなく,優れた一般化能力を示し,視覚言語アライメントのための堅牢なアプローチである。
私たちのコードはhttps://github.com/fnlp-vision/DPAで公開されています。
関連論文リスト
- Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Unsupervised Improvement of Factual Knowledge in Language Models [4.5788796239850225]
マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。
本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T07:37:06Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。