論文の概要: PlaM: Training-Free Plateau-Guided Model Merging for Better Visual Grounding in MLLMs
- arxiv url: http://arxiv.org/abs/2601.07645v1
- Date: Mon, 12 Jan 2026 15:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.507682
- Title: PlaM: Training-Free Plateau-Guided Model Merging for Better Visual Grounding in MLLMs
- Title(参考訳): PlaM: MLLMの視覚的グラウンド化のためのトレーニングフリープラトー誘導モデルマージ
- Authors: Zijing Wang, Yongkang Liu, Mingyang Wang, Ercong Nie, Deyuan Chen, Zhengjie Zhao, Shi Feng, Daling Wang, Xiaocui Yang, Yifei Zhang, Hinrich Schütze,
- Abstract要約: マルチモーダル命令の微調整はパラドックス的にこのテキストの推論能力を低下させる。
この劣化を緩和するためのトレーニング不要のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.78917775399492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) rely on strong linguistic reasoning inherited from their base language models. However, multimodal instruction fine-tuning paradoxically degrades this text's reasoning capability, undermining multimodal performance. To address this issue, we propose a training-free framework to mitigate this degradation. Through layer-wise vision token masking, we reveal a common three-stage pattern in multimodal large language models: early-modal separation, mid-modal alignment, and late-modal degradation. By analyzing the behavior of MLLMs at different stages, we propose a plateau-guided model merging method that selectively injects base language model parameters into MLLMs. Experimental results based on five MLLMs on nine benchmarks demonstrate the effectiveness of our method. Attention-based analysis further reveals that merging shifts attention from diffuse, scattered patterns to focused localization on task-relevant visual regions. Our repository is on https://github.com/wzj1718/PlaM.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、基本言語モデルから受け継がれた強力な言語推論に依存している。
しかし、マルチモーダル命令の微調整はパラドックス的にこのテキストの推論能力を低下させ、マルチモーダル性能を損なう。
この問題に対処するため、我々はこの劣化を緩和するためのトレーニング不要のフレームワークを提案する。
階層的視覚トークンマスキングにより,マルチモーダル言語モデルにおいて,早期モーダル分離,中期モーダルアライメント,後期モーダル劣化という,一般的な3段階パターンを明らかにする。
MLLMの動作を異なる段階で解析することにより,基本言語モデルパラメータをMLLMに選択的に注入するプラトー誘導モデルマージ法を提案する。
9つのベンチマークで5つのMLLMを用いた実験結果から,本手法の有効性が示された。
注意に基づく分析により、統合は、拡散パターンからタスク関連視覚領域の集中的な位置化へと注意を移すことが明らかとなった。
私たちのリポジトリはhttps://github.com/wzj1718/PlaMにあります。
関連論文リスト
- ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way [8.242020781632801]
ByDeWayは、MLLM(Multimodal Large Language Models)のパフォーマンスを向上させるために設計された、トレーニング不要のフレームワークである。
ByDeWayはLayered-Depth-Based Prompting(LDP)と呼ばれる新しいプロンプト戦略を使っている
シーンを単眼深度推定を用いて最も近い中距離層と最も遠い層に分割し、接地された視覚言語モデルで領域固有のキャプションを生成する。
論文 参考訳(メタデータ) (2025-07-11T15:21:49Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。
自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。