論文の概要: Directional Reasoning Injection for Fine-Tuning MLLMs
- arxiv url: http://arxiv.org/abs/2510.15050v1
- Date: Thu, 16 Oct 2025 18:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.343746
- Title: Directional Reasoning Injection for Fine-Tuning MLLMs
- Title(参考訳): 微調整MLLMの指向性推論インジェクション
- Authors: Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
- 参考スコア(独自算出の注目度): 51.53222423215055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are rapidly advancing, yet their reasoning ability often lags behind that of strong text-only counterparts. Existing methods to bridge this gap rely on supervised fine-tuning over large-scale multimodal reasoning data or reinforcement learning, both of which are resource-intensive. A promising alternative is model merging, which interpolates parameters between reasoning-enhanced LLMs and multimodal variants. However, our analysis shows that naive merging is not always a "free lunch": its effectiveness varies drastically across model families, with some (e.g., LLaVA, Idefics) benefiting while others (e.g., Qwen) suffer performance degradation. To address this, we propose Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs, a lightweight method that transfers reasoning knowledge in the gradient space, without destabilizing multimodal alignment. DRIFT precomputes a reasoning prior as the parameter-space difference between reasoning and multimodal variants, then uses it to bias gradients during multimodal fine-tuning. This approach preserves the simplicity of standard supervised fine-tuning pipelines while enabling efficient reasoning transfer. Extensive experiments on multimodal reasoning benchmarks, including MathVista and MathVerse, demonstrate that DRIFT consistently improves reasoning performance over naive merging and supervised fine-tuning, while matching or surpassing training-heavy methods at a fraction of the cost.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存しており、どちらもリソース集約である。
有望な代替手段はモデルマージであり、推論強化LLMとマルチモーダル変種の間のパラメータを補間する。
しかし,本分析の結果から,ナイーブ・マージングは必ずしも「フリーランチ」ではないことが明らかとなった。その有効性はモデルファミリによって大きく異なり,一部の(LLaVA,Ideficsなど)が恩恵を受ける一方で,他の(例えばQwenなど)がパフォーマンス劣化に悩まされている。
そこで本研究では,多モードアライメントを安定化させることなく,勾配空間における推論知識を伝達する軽量な手法であるDRIFT(Directional Reasoning Injection for Fine-Tuning)MLLMを提案する。
DRIFTは、推論とマルチモーダル変種の間のパラメータ空間の差として前に推論をプリ計算し、マルチモーダル微調整の際のバイアス勾配に使用する。
このアプローチは、効率的な推論転送を可能にしながら、標準的な教師付き微調整パイプラインの単純さを保っている。
MathVistaやMathVerseといったマルチモーダル推論ベンチマークに関する大規模な実験では、DRIFTは単純なマージや教師付き微調整よりも推論性能を一貫して改善し、トレーニングの重いメソッドをほんの少しのコストでマッチングまたは超過することを示した。
関連論文リスト
- CoT Vectors: Transferring and Probing the Reasoning Mechanisms of LLMs [33.63911145333626]
Chain-of-Thoughtプロンプトは、大規模言語モデルの推論能力を高めるための強力なアプローチとして現れています。
コンテキスト内学習や微調整といった既存の実装は、コストがかかり、非効率である。
タスク汎用多段階推論知識を符号化するコンパクト表現であるCoTベクトルを導入する。
論文 参考訳(メタデータ) (2025-10-01T06:58:23Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning [27.498043430208085]
チェーン・オブ・ソート(CoT)推論への過剰依存はモデル性能を損なう可能性がある。
我々はCAR(Adaptive Reasoning)を提案する。
CARは、モデルの難易度に基づいて、短い回答と長い形式の推論を切り替える。
論文 参考訳(メタデータ) (2025-05-21T06:20:17Z) - Taming Flow Matching with Unbalanced Optimal Transport into Fast Pansharpening [10.23957420290553]
本稿では,一段階の高品位パンシャーピングを実現するための最適輸送フローマッチングフレームワークを提案する。
OTFMフレームワークは、パンシャーピング制約の厳格な遵守を維持しつつ、シミュレーション不要なトレーニングとシングルステップ推論を可能にする。
論文 参考訳(メタデータ) (2025-03-19T08:10:49Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。