論文の概要: Attention-guided Fine-tuning of Multimodal Large Language Models Improves Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2606.01558v1
- Date: Mon, 01 Jun 2026 02:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.864397
- Title: Attention-guided Fine-tuning of Multimodal Large Language Models Improves Chain-of-Thought Reasoning
- Title(参考訳): マルチモーダル大言語モデルの注意誘導微調整によるパターン・オブ・ソート推論の改善
- Authors: Sanchit Sinha, Guangzhi Xiong, Bohan Liu, Zhenghao He, Aidong Zhang,
- Abstract要約: MLLM (Multimodal Large Language Models) におけるChain-of-Thought (CoT) の促進はいまだに不確実である。
我々は,CoTトラジェクトリに応答のコミットメントを遅らせるよう促す注意誘導微調整目標であるAttentive-CoT(Att-CoT)を提案する。
Att-CoTはアーキテクチャの変更なしに任意のCoT-SFTトレーニングにプラグインできる。
- 参考スコア(独自算出の注目度): 39.5490415037017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of Chain-of-Thought (CoT) prompting in Multimodal Large Language Models (MLLMs) remains uncertain: across several visual reasoning benchmarks, CoT prompting often degrades performance compared to direct prompting. In this paper, we provide a systematic analysis of CoT behavior in three modern MLLM families across model scales on datasets requiring step-wise visual evidence. Our analysis identifies two recurring failure modes: premature answer commitment and limited direct visual-token access during rationale generation. We further find that standard CoT-style Supervised Fine-Tuning (CoT-SFT) can mitigate these issues only partially, while often increasing reliance on textual priors and reducing counterfactual visual dependence. Motivated by these findings, we propose Attentive-CoT (Att-CoT), an attention-guided fine-tuning objective that encourages CoT trajectories to delay answer commitment while maintaining sustained visual-token access. Att-CoT can be plugged into any CoT-SFT training run without architectural changes. Experiments on three visual reasoning benchmarks across six MLLMs show that Att-CoT enhances CoT performance over standard fine-tuning.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)におけるChain-of-Thought(CoT)の有効性は、いくつかの視覚的推論ベンチマークにおいて、直接的プロンプトよりも性能が劣化することが多い。
本稿では,段階的視覚的証拠を必要とするデータセット上でのモデルスケールにおける3つの近代MLLMファミリーのCoT挙動の系統的解析を行う。
本分析では,有理生成における早期回答のコミットメントと視覚的直接アクセスの制限という,繰り返し発生する2つの障害モードを同定する。
さらに、標準的なCoTスタイルのSupervised Fine-Tuning(CoT-SFT)は、これらの問題を部分的に緩和するだけでなく、テキストの事前依存性を増大させ、偽の視覚的依存を減らすことができる。
これらの結果から,注意誘導型微調整目標であるAttentive-CoT (Att-CoT) を提案する。
Att-CoTはアーキテクチャの変更なしに任意のCoT-SFTトレーニングにプラグインできる。
6つのMLLM間での3つの視覚的推論ベンチマーク実験により、Att-CoTは標準的な微調整よりもCoT性能を向上させることが示された。
関連論文リスト
- Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought [15.598263332303612]
大規模言語モデル(LLM)は、様々なタスクにまたがる卓越した習熟度を示した。
本研究は,3つの重要な疑問に対処することによって,これらの観測の基礎を掘り下げる。
論文 参考訳(メタデータ) (2026-02-16T10:57:26Z) - UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization [55.6995787502694]
本研究では,異なる言語パターン(CoT)設計が,一般化可能な視覚的推論能力の獲得にどのように影響するかを検討する。
代表的なCoTフォーマットであるLanguage CoT, Grounding CoT, Visual CoTを比較した。
実験の結果,視覚的および長時間のCoTは収束を主に加速するが,最終的な性能天井は持ち上げないことがわかった。
論文 参考訳(メタデータ) (2025-11-27T16:19:34Z) - Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision [30.155319213322013]
大規模言語モデル(LLM)を強化するために,チェーン・オブ・ソート(CoT)推論が広く採用されている。
We propose Uni-CoT, a Unified Chain-of-Thought framework that allow coherent and grounded multimodal reasoning。
論文 参考訳(メタデータ) (2025-08-07T17:45:17Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。