論文の概要: Learning Adaptive Reasoning Paths for Efficient Visual Reasoning
- arxiv url: http://arxiv.org/abs/2604.14568v1
- Date: Thu, 16 Apr 2026 02:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.697335
- Title: Learning Adaptive Reasoning Paths for Efficient Visual Reasoning
- Title(参考訳): 効率的な視覚的推論のための適応的推論経路の学習
- Authors: Yixu Huang, Tinghui Zhu, Muhao Chen,
- Abstract要約: 適応型視覚推論フレームワークである textbfAVR を提案する。
視覚的推論は、視覚知覚、テキスト推論、回答アプリケーションという3つの認知機能に分解される。
実験によると、特に知覚集約的なタスクにおいて、全体的な精度を維持しながらトークンの使用量を50~90%削減する。
- 参考スコア(独自算出の注目度): 23.47120476765963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning models (VRMs) have recently shown strong cross-modal reasoning capabilities by integrating visual perception with language reasoning. However, they often suffer from overthinking, producing unnecessarily long reasoning chains for any tasks. We attribute this issue to \textbf{Reasoning Path Redundancy} in visual reasoning: many visual questions do not require the full reasoning process. To address this, we propose \textbf{AVR}, an adaptive visual reasoning framework that decomposes visual reasoning into three cognitive functions: visual perception, logical reasoning, and answer application. It further enables models to dynamically choose among three response formats: Full Format, Perception-Only Format, and Direct Answer. AVR is trained with FS-GRPO, an adaptation of Group Relative Policy Optimization that encourages the model to select the most efficient reasoning format while preserving correctness. Experiments on multiple vision-language benchmarks show that AVR reduces token usage by 50--90\% while maintaining overall accuracy, especially in perception-intensive tasks. These results demonstrate that adaptive visual reasoning can effectively mitigate overthinking in VRMs. Code and data are available at: https://github.com/RunRiotComeOn/AVR.
- Abstract(参考訳): 視覚的推論モデル(VRM)は近年,視覚的知覚と言語推論を統合することで,強力なモーダル推論能力を示した。
しかし、彼らはしばしば過度に考え、あらゆるタスクに対して不要に長い推論連鎖を生み出す。
我々はこの問題を視覚的推論において「textbf{Reasoning Path Redundancy}」とみなす:多くの視覚的質問は完全な推論プロセスを必要としない。
これを解決するために,視覚的推論を3つの認知機能に分解する適応型視覚推論フレームワークである「textbf{AVR}」を提案する。
さらに、モデルがFull Format、Perception-Only Format、Direct Answerの3つのレスポンスフォーマットの中から動的に選択できる。
AVRは、グループ相対ポリシー最適化の適応であるFS-GRPOでトレーニングされており、モデルが正確性を維持しながら最も効率的な推論フォーマットを選択することを奨励している。
複数の視覚言語ベンチマークの実験では、特に知覚集約的なタスクにおいて、AVRは全体的な精度を維持しながらトークンの使用量を50~90パーセント削減している。
これらの結果は、適応的な視覚的推論がVRMにおける過度な思考を効果的に軽減できることを示している。
コードとデータは、https://github.com/RunRiotComeOn/AVR.comで入手できる。
関連論文リスト
- Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - Visual Programmability: A Guide for Code-as-Thought in Chart Understanding [37.44645754630439]
検証可能なシンボリックフォーマットでチャートの視覚情報を表現するためのCode-as-Thought(CaT)アプローチを提案する。
ビジュアルプログラマビリティ(Visual Programmability)は、チャート検索ペアがコードや直接視覚分析でよりよく解けるかどうかを判断する学習可能なプロパティである。
我々はこの概念を,視覚言語モデル(VLM)がCaT経路と直接視覚推論経路のどちらを選択するかを学習する適応的なフレームワークで実装する。
論文 参考訳(メタデータ) (2025-09-11T09:22:16Z) - Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [58.64449765678416]
思考のランドスケープ(LoT)を導入し、任意の複数選択データセット上で特定の推論手法で推論軌跡を検査する。
LoTは、強いモデルと弱いモデル、正解と誤解、および異なる推論タスクを区別する。
トラジェクトリの正しさを評価する軽量検証器にLoTを適用することで、この利点を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:09:51Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。