論文の概要: Foveated Reasoning: Stateful, Action-based Visual Focusing for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.21079v1
- Date: Wed, 22 Apr 2026 20:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.174448
- Title: Foveated Reasoning: Stateful, Action-based Visual Focusing for Vision-Language Models
- Title(参考訳): Foveated Reasoning: 視覚言語モデルのためのステートフルでアクションベースのビジュアルフォーカス
- Authors: Juhong Min, Lazar Valkov, Vitali Petsiuk, Hossein Souri, Deen Dayal Mohan,
- Abstract要約: 本稿では,単一のデコード軌道内でのフェーベーションと推論を統一する視覚言語フレームワークであるFoveated Reasonerを紹介する。
本手法は,2段階のパイプラインを用いて学習し,冷間開始監視による営巣行動のブートストラップを行い,その後に強化学習を行い,証拠取得とタスク精度を共同で改善する。
実験により,本手法は効果的なフェーベーションポリシーを学習し,より厳密な視覚的予算の下でより正確な精度を達成できることが示されている。
- 参考スコア(独自算出の注目度): 12.75285384283683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models benefit from high-resolution images, but the increase in visual-token count incurs high compute overhead. Humans resolve this tension via foveation: a coarse view guides "where to look", while selectively acquired high-acuity evidence refines "what to think". We introduce Foveated Reasoner, an autoregressive vision-language framework that unifies foveation and reasoning within a single decoding trajectory. Starting from a low-resolution view, the model triggers foveation only when needed, retrieves high-resolution evidence from selected regions, and injects it back into the same decoding trajectory. We train the method with a two-stage pipeline: coldstart supervision to bootstrap foveation behavior, followed by reinforcement learning to jointly improve evidence acquisition and task accuracy while discouraging trivial "see-everything" solutions. Experiments show that the method learns effective foveation policies and achieves stronger accuracy under tight visual-token budgets across multiple vision-language benchmarks.
- Abstract(参考訳): 視覚言語モデルは高解像度画像の恩恵を受けるが、視覚的トーケン数の増加は高い計算オーバーヘッドをもたらす。
粗い視点は「見る場所」を案内し、高明度な証拠を選択的に取得すると「何を考えるか」が洗練される。
本稿では, 自己回帰型視覚言語フレームワークであるFoveated Reasonerを紹介する。
低解像度の視点から始めて、モデルは必要なときにのみファーベーションをトリガーし、選択された領域から高解像度のエビデンスを取得し、それを同じ復号軌道に注入する。
本手法は,2段階のパイプラインを用いて訓練する。冷間開始監視による営巣行動のブートストラップ化,および強化学習によるエビデンス獲得とタスク精度の向上を両立させるとともに,自明な「あらゆるもの」ソリューションを阻害する。
実験により,複数の視覚言語ベンチマークを用いて,効率的なフェーベーションポリシーを学習し,厳密な視覚的トーケント予算の下でより正確な精度を達成できることが示されている。
関連論文リスト
- See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs [24.90876091319589]
視覚的マルチモーダル推論のための反復的,トレーニング不要,プラグアンドプレイフレームワークを提案する。
私たちのキーとなるアイデアは、視覚的なエビデンスでテスト時の各推論ステップを監督することです。
本手法はTreeBenchを16.5%-29.5%改善し,RH-AUCを13.7%向上させる。
論文 参考訳(メタデータ) (2026-02-25T02:13:59Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models [17.431298099935344]
大規模言語モデル(LLM)において、推論が重要な機能として現れている。
近年の研究では、視覚言語モデル(VLM)への推論の拡張が試みられている。
本研究は、マルチモーダル推論の二重性を明らかにし、他の基本的な視覚的問題に対する認識障害につながった。
本稿では,視覚的接地軌道に対する推論過程を明確に把握する,シンプルかつ効果的な手法であるビジョン・アンコレッド・ポリシー・オプティマイズ(VAPO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T06:37:47Z) - CoFFT: Chain of Foresight-Focus Thought for Visual Language Models [61.34272727005052]
フォレスト・フォーカス思考の連鎖(英語: Chain of Foresight-Focus Thought, CoFFT)は、人間の視覚的認知をエミュレートすることによって視覚的推論を強化する訓練のないアプローチである。
これらの段階は反復的に機能し、推論が視覚的焦点を導き、視覚的焦点がその後の推論を知らせる相互依存サイクルを生成する。
Qwen2.5-VL、InternVL-2.5、Llava-Nextを使った複数のベンチマークでの実証結果では、3.1-5.8%が一貫したパフォーマンス向上を示し、計算オーバーヘッドは増大した。
論文 参考訳(メタデータ) (2025-09-26T07:46:30Z) - ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models [11.263321053154364]
ERGOは推論駆動の知覚平均化マルチモーダルコンテキストで、どこにフォーカスするかを決定する。
我々は、粗大な知覚のための強化学習フレームワークにおいて、単純で効果的な報酬成分を開発する。
提案手法は,従来のモデルや競合手法よりも精度が高く,効率が向上する。
論文 参考訳(メタデータ) (2025-09-26T07:15:19Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。