論文の概要: Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization
- arxiv url: http://arxiv.org/abs/2601.04442v1
- Date: Wed, 07 Jan 2026 23:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.949597
- Title: Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization
- Title(参考訳): Gated Perception-Reasoning Optimization による大規模視線モデルにおける再考
- Authors: Xingjian Diao, Zheyuan Liu, Chunhui Zhang, Weiyi Wu, Keyi Kong, Lin Shi, Kaize Ding, Soroush Vosoughi, Jiang Gui,
- Abstract要約: Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
- 参考スコア(独自算出の注目度): 56.59356959631999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have exhibited strong reasoning capabilities through chain-of-thought mechanisms that generate step-by-step rationales. However, such slow-thinking approaches often lead to overthinking, where models produce excessively verbose responses even for simple queries, resulting in test-time inefficiency and even degraded accuracy. Prior work has attempted to mitigate this issue via adaptive reasoning strategies, but these methods largely overlook a fundamental bottleneck: visual perception failures. We argue that stable reasoning critically depends on low-level visual grounding, and that reasoning errors often originate from imperfect perception rather than insufficient deliberation. To address this limitation, we propose Gated Perception-Reasoning Optimization (GPRO), a meta-reasoning controller that dynamically routes computation among three decision paths at each generation step: a lightweight fast path, a slow perception path for re-examining visual inputs, and a slow reasoning path for internal self-reflection. To learn this distinction, we derive large-scale failure attribution supervision from approximately 790k samples, using teacher models to distinguish perceptual hallucinations from reasoning errors. We then train the controller with multi-objective reinforcement learning to optimize the trade-off between task accuracy and computational cost under uncertainty. Experiments on five benchmarks demonstrate that GPRO substantially improves both accuracy and efficiency, outperforming recent slow-thinking methods while generating significantly shorter responses.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、ステップ・バイ・ステップの合理性を生成するチェーン・オブ・シント機構を通じて、強力な推論能力を示す。
しかし、このような遅い考えのアプローチは、単純なクエリであってもモデルが過度に冗長なレスポンスを生成し、テスト時の非効率性や精度の低下につながる、という過度な考えにつながることが多い。
以前の作業では、適応推論戦略を通じてこの問題を緩和しようと試みていたが、これらの手法は、視覚的知覚障害(英語版)という根本的なボトルネックをほとんど見落としている。
安定した推論は、低レベルの視覚的接地に依存し、推論の誤りは、十分な熟考ではなく、不完全な知覚から生じることが多いと論じる。
この制限に対処するために、Gated Perception-Reasoning Optimization (GPRO) を提案する。これは、各生成ステップにおける3つの決定経路間を動的にルーティングするメタ推論コントローラであり、軽量な高速経路、視覚入力を再検査するための遅い知覚経路、内部自己回帰のための遅い推論経路である。
そこで本研究では,教師モデルを用いて,約790k検体から大規模障害帰属管理を導出し,視覚幻覚と推論誤差を識別する。
次に,多目的強化学習を用いて制御器を訓練し,不確実性を考慮したタスク精度と計算コストのトレードオフを最適化する。
5つのベンチマーク実験により、GPROは精度と効率の両方を大幅に改善し、最近のスロー思考法よりもはるかに短い応答を生成することが示された。
関連論文リスト
- Understanding and Steering the Cognitive Behaviors of Reasoning Models at Test-Time [22.9491443902816]
本研究では、推論軌跡の構造と、異なる認知行動と相関する特別な注意点を明らかにする。
テスト時間における認知推論ステアリングのトレーニング不要な方法であるCRESTを提案する。
CRESTは非生産的推論の振る舞いを適応的に抑制し、高い精度と低い計算コストをもたらす。
論文 参考訳(メタデータ) (2025-12-31T02:46:04Z) - Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。