論文の概要: Look Less, Reason More: Rollout-Guided Adaptive Pixel-Space Reasoning
- arxiv url: http://arxiv.org/abs/2510.01681v1
- Date: Thu, 02 Oct 2025 05:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.006332
- Title: Look Less, Reason More: Rollout-Guided Adaptive Pixel-Space Reasoning
- Title(参考訳): ローリングガイド付きアダプティブなPixel-Space Reasoning(動画あり)
- Authors: Xuchen Li, Xuzhao Li, Jiahui Gao, Renjie Pi, Shiyu Hu, Wentao Zhang,
- Abstract要約: VLM(Vision-Language Models)は多くのマルチモーダルなタスクに優れるが、細かな視覚要素の正確な理解と処理を必要とするタスクにしばしば苦労する。
最近の研究は、画素レベルの視覚情報を推論プロセスに組み込むことによって、有望であることが示されている。
入力クエリに基づいて必要なピクセルレベルの操作を動的に決定する適応画素推論のための最初のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.475941880366726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) excel at many multimodal tasks, yet they frequently struggle with tasks requiring precise understanding and handling of fine-grained visual elements. This is mainly due to information loss during image encoding or insufficient attention to critical regions. Recent work has shown promise by incorporating pixel-level visual information into the reasoning process, enabling VLMs to access high-resolution visual details during their thought process. However, this pixel-level information is often overused, leading to inefficiency and distraction from irrelevant visual details. To address these challenges, we propose the first framework for adaptive pixel reasoning that dynamically determines necessary pixel-level operations based on the input query. Specifically, we first apply operation-aware supervised fine-tuning to establish baseline competence in textual reasoning and visual operations, then design a novel rollout-guided reinforcement learning framework relying on feedback of the model's own responses, which enables the VLM to determine when pixel operations should be invoked based on query difficulty. Experiments on extensive multimodal reasoning benchmarks show that our model achieves superior performance while significantly reducing unnecessary visual operations. Impressively, our model achieves 73.4\% accuracy on HR-Bench 4K while maintaining a tool usage ratio of only 20.1\%, improving accuracy and simultaneously reducing tool usage by 66.5\% compared to the previous methods.
- Abstract(参考訳): VLM(Vision-Language Models)は多くのマルチモーダルなタスクに優れるが、細かな視覚要素の正確な理解と処理を必要とするタスクにしばしば苦労する。
これは主に画像符号化時の情報損失や重要な領域への注意不足によるものである。
最近の研究は、ピクセルレベルの視覚情報を推論プロセスに組み込むことで、VLMが思考プロセス中に高解像度の視覚情報にアクセスできるようにすることによって、有望であることが示されている。
しかし、このピクセルレベルの情報は、しばしば過剰に使用され、非効率性や無関係な視覚的詳細から逸脱する。
これらの課題に対処するために、入力クエリに基づいて必要なピクセルレベルの操作を動的に決定する適応画素推論のための最初のフレームワークを提案する。
具体的には,まず,テキスト推論と視覚操作のベースライン能力を確立するために,操作認識による微調整を適用し,さらに,モデル自身の応答のフィードバックに頼って,新たなロールアウト誘導強化学習フレームワークを設計し,クエリの難易度に基づいて画素操作をいつ呼び出すべきかを判断する。
広範囲なマルチモーダル推論ベンチマーク実験により、我々のモデルは、不要な視覚操作を著しく低減しつつ、優れた性能を達成することが示された。
また, HR-Bench 4Kでは, ツール使用率を20.1\%に抑えながら73.4\%の精度を実現し, 精度を向上し, ツール使用率を従来の手法に比べて66.5\%削減した。
関連論文リスト
- ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models [11.263321053154364]
ERGOは推論駆動の知覚平均化マルチモーダルコンテキストで、どこにフォーカスするかを決定する。
我々は、粗大な知覚のための強化学習フレームワークにおいて、単純で効果的な報酬成分を開発する。
提案手法は,従来のモデルや競合手法よりも精度が高く,効率が向上する。
論文 参考訳(メタデータ) (2025-09-26T07:15:19Z) - Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning [39.66636859076594]
連鎖推論は、大規模言語モデルの性能を大幅に改善した。
画素空間における推論の概念を紹介する。
このアプローチが視覚言語モデルを大幅に改善することを示します。
論文 参考訳(メタデータ) (2025-05-21T19:35:08Z) - When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文 参考訳(メタデータ) (2025-03-10T17:51:16Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Ignorance is Bliss: Robust Control via Information Gating [60.17644038829572]
情報パーシモニーは、ノイズや突発的相関に頑健であることにより、より良い一般化を実現する学習表現に有用な帰納的バイアスを提供する。
本稿では,タスクに必要な最小限の情報を識別する類似表現を学習する手段として,テキスト情報ゲーティングを提案する。
論文 参考訳(メタデータ) (2023-03-10T18:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。