論文の概要: Grounded Reinforcement Learning for Visual Reasoning
- arxiv url: http://arxiv.org/abs/2505.23678v1
- Date: Thu, 29 May 2025 17:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.029127
- Title: Grounded Reinforcement Learning for Visual Reasoning
- Title(参考訳): 視覚的推論のための接地強化学習
- Authors: Gabriel Sarch, Snigdha Saha, Naitik Khandelwal, Ayush Jain, Michael J. Tarr, Aviral Kumar, Katerina Fragkiadaki,
- Abstract要約: 我々は、強化学習で訓練された視覚言語モデルViGoRL(Visually Grounded Reinforcement Learning)を紹介する。
人間の視覚的意思決定にインスパイアされたViGoRLは、空間的に根拠のある推論トレースを生成することを学ぶ。
この結果から,RLは汎用的な視覚的推論を用いたモデル入力の強力なパラダイムであることが示唆された。
- 参考スコア(独自算出の注目度): 37.77345843308337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) over chains of thought has significantly advanced language models in tasks such as mathematics and coding, visual reasoning introduces added complexity by requiring models to direct visual attention, interpret perceptual inputs, and ground abstract reasoning in spatial evidence. We introduce ViGoRL (Visually Grounded Reinforcement Learning), a vision-language model trained with RL to explicitly anchor each reasoning step to specific visual coordinates. Inspired by human visual decision-making, ViGoRL learns to produce spatially grounded reasoning traces, guiding visual attention to task-relevant regions at each step. When fine-grained exploration is required, our novel multi-turn RL framework enables the model to dynamically zoom into predicted coordinates as reasoning unfolds. Across a diverse set of visual reasoning benchmarks--including SAT-2 and BLINK for spatial reasoning, V*bench for visual search, and ScreenSpot and VisualWebArena for web-based grounding--ViGoRL consistently outperforms both supervised fine-tuning and conventional RL baselines that lack explicit grounding mechanisms. Incorporating multi-turn RL with zoomed-in visual feedback significantly improves ViGoRL's performance on localizing small GUI elements and visual search, achieving 86.4% on V*Bench. Additionally, we find that grounding amplifies other visual behaviors such as region exploration, grounded subgoal setting, and visual verification. Finally, human evaluations show that the model's visual references are not only spatially accurate but also helpful for understanding model reasoning steps. Our results show that visually grounded RL is a strong paradigm for imbuing models with general-purpose visual reasoning.
- Abstract(参考訳): 思考の連鎖に対する強化学習(RL)は、数学やコーディングなどのタスクにおいて言語モデルを大幅に進歩させたが、視覚的推論は、視覚的注意を向け、知覚的入力を解釈し、空間的証拠の抽象的推論を行うモデルを必要とすることで、さらなる複雑さをもたらす。
本稿では、視覚座標に各推論ステップを明示的にアンカーするようにRLで訓練された視覚言語モデルViGoRLを紹介する。
人間の視覚的意思決定にインスパイアされたViGoRLは、各ステップでタスク関連領域に視覚的注意を誘導する空間的根拠のある推論トレースを生成することを学ぶ。
きめ細かい探索が必要な場合、新しいマルチターンRLフレームワークにより、予測された座標を解法として動的にズームすることができる。
空間的推論のためのSAT-2とBLINK、ビジュアル検索のためのV*bench、WebベースグラウンドのためのScreenSpotとVisualWebArenaなど、さまざまなビジュアル推論ベンチマークが提供されている。
ズームイン視覚フィードバックによるマルチターンRLの導入は、小さなGUI要素のローカライズとビジュアルサーチにおけるViGoRLの性能を大幅に向上させ、V*Benchでは86.4%を達成した。
さらに、グラウンドリングは、地域探索、グラウンドドサブゴール設定、視覚的検証など、他の視覚的挙動を増幅する。
最後に、人間の評価により、モデルの視覚的参照は空間的に正確であるだけでなく、モデル推論のステップを理解する上でも有用であることが示された。
この結果から,RLは汎用的な視覚的推論を用いたモデル入力の強力なパラダイムであることが示唆された。
関連論文リスト
- DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes [51.895756593200296]
RL(DIP-R1)を用いた深部検査と知覚は,MLLMの視覚知覚能力を高めるために設計されている。
DIP-R1は、3つのシンプルなルールベースの報酬モデルを通して、MLLMをビジュアルシーンの詳細な検査を通してガイドする。
ドメイン内およびドメイン外のさまざまなシナリオにおいて、一貫性と大幅な改善を実現します。
論文 参考訳(メタデータ) (2025-05-29T07:16:16Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - ViSaRL: Visual Reinforcement Learning Guided by Human Saliency [6.969098096933547]
ビジュアル・サリエンシ指導型強化学習(ViSaRL)を紹介する。
ViSaRLを用いて視覚表現を学習すると、RLエージェントの成功率、サンプル効率、一般化が大幅に向上する。
ViSaRLを用いて学習した視覚表現は、知覚ノイズやシーンの変動など、様々な視覚摂動の源泉に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-03-16T14:52:26Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。