論文の概要: G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.13426v1
- Date: Mon, 19 May 2025 17:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.793935
- Title: G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
- Title(参考訳): G1:強化学習による視覚言語モデルのブートストラップ知覚と推論能力
- Authors: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang,
- Abstract要約: VLM(Vision-Language Models)は多くの直接的なマルチモーダルタスクに優れていますが、ゲームのようなインタラクティブで視覚的にリッチな環境において、この成果を効果的な意思決定に変換するのに苦労しています。
VLM-Gymは多種多様なビジュアルゲームに統一されたインタフェースと調整可能な構成難易度を備えた強化学習環境である。
我々は、純粋なRL駆動の自己進化を用いてG0モデルを訓練し、創発的知覚と推論パターンを示す。
我々のG1モデルは、すべてのゲームで一貫して教師を追い越し、Claude-3.7-Sonnet-Thinkingのような主要なプロプライエタリモデルより優れています。
- 参考スコア(独自算出の注目度): 37.18982308118744
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Models (VLMs) excel in many direct multimodal tasks but struggle to translate this prowess into effective decision-making within interactive, visually rich environments like games. This ``knowing-doing'' gap significantly limits their potential as autonomous agents, as leading VLMs often performing badly in simple games. To address this, we introduce VLM-Gym, a curated reinforcement learning (RL) environment featuring diverse visual games with unified interfaces and adjustable, compositional difficulty, specifically designed for scalable multi-game parallel training. Leveraging VLM-Gym, we train G0 models using pure RL-driven self-evolution, which demonstrate emergent perception and reasoning patterns. To further mitigate challenges arising from game diversity, we develop G1 models. G1 incorporates a perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models consistently surpass their teacher across all games and outperform leading proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals an intriguing finding: perception and reasoning abilities mutually bootstrap each other throughout the RL training process. Source code including VLM-Gym and RL training are released at https://github.com/chenllliang/G1 to foster future research in advancing VLMs as capable interactive agents.
- Abstract(参考訳): VLM(Vision-Language Models)は多くの直接的なマルチモーダルタスクに優れていますが、ゲームのようなインタラクティブで視覚的にリッチな環境において、この成果を効果的な意思決定に変換するのに苦労しています。
この 'knowing-doing' のギャップは、VLMが単純なゲームでしばしばひどいパフォーマンスをするので、自律的なエージェントとしての可能性を大幅に制限する。
そこで本研究では,マルチゲーム並列学習に特化して設計された,統一インターフェースを備えた多様なビジュアルゲームと,調整可能な構成難易度を備えた強化学習(RL)環境であるVLM-Gymを紹介する。
VLM-Gymを活用することで、純粋なRL駆動型自己進化モデルを用いてG0モデルを訓練し、創発的知覚と推論パターンを示す。
ゲームの多様性から生じる課題を緩和するため,我々はG1モデルを開発した。
G1はRL微調整に先立って、知覚を増強するコールドスタートを組み込んでいる。
我々のG1モデルは、すべてのゲームで一貫して教師を追い越し、Claude-3.7-Sonnet-Thinkingのような主要なプロプライエタリモデルより優れています。
システム分析は、RLトレーニングプロセスを通して相互にブートストラップする知覚と推論能力という興味深い発見を明らかにしている。
VLM-GymやRLトレーニングを含むソースコードはhttps://github.com/chenllliang/G1でリリースされ、VLMを有能な対話エージェントとして前進させる将来の研究を促進する。
関連論文リスト
- Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning [60.292578064172524]
本稿では,Qwen2.5-VL-7Bに基づく2段階のパラダイムを提案する。
この先駆的な研究は、3つの基本的な洞察を明らかにしている: 1) 行動伝達は、言語的精神イメージによる冷戦開始時に驚くほど早く出現し、2) 冷戦開始は、視覚行動を広く記憶し、RLは、効果的パターンを批判的に識別し、スケールアップする。
得られたモデルであるOpen-Vision-Reasoner (OVR)は、MATH500で95.3%、MathVisionで51.8%、54.6%を含む一連の推論ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-07T17:59:03Z) - Play to Generalize: Learning to Reason Through Game Play [11.778612579151067]
そこで我々は,MLLMがアーケード的なゲームによってマルチモーダル推論のドメイン外一般化を開発する,新たな学習パラダイムであるVisual Game Learningを提案する。
ルールベースのゲームは、制御可能でスケーラブルなプレテキストタスクとして機能する。
論文 参考訳(メタデータ) (2025-06-09T17:59:57Z) - Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning [28.92744927199283]
ReVisual-R1は、MathVerse、MathVision、WeMath、LogicVista、DynaMath、AIME2024、AIME2025といった挑戦的なベンチマークにおいて、オープンソースの7B MLLMの間で新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:51:08Z) - Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games [36.162843233798455]
大規模言語モデル(LLM)は、強化学習(RL)中に突然高度な推論能力を示すことが観察されている。
マルチシナリオRLにおける一般化を促進するためのフレームワークであるDivide-Fuse-Conquerを提案する。
論文 参考訳(メタデータ) (2025-05-22T08:52:21Z) - OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
我々は(蒸留に頼らずに)強化学習による視覚言語モデルの遅い思考能力の向上を目指す。
我々は、RLトレーニングにおけるロールアウトの最後に再考トリガートークンを付加し、自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerseの最先端スコアを80.4%、63.5%に向上させています。
論文 参考訳(メタデータ) (2025-04-10T17:41:56Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Cultivating Game Sense for Yourself: Making VLMs Gaming Experts [23.370716496046217]
ゲームプレイエージェント設計におけるパラダイムシフトを提案する。
ゲームプレイを直接制御する代わりに、VLMは射撃や戦闘などのタスクに適した特殊な実行モジュールを開発する。
これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
論文 参考訳(メタデータ) (2025-03-27T08:40:47Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving [1.3107174618549584]
自動運転政策を学習するための強化学習(RL)に基づく手法は、自動運転コミュニティにおいて注目を集めている。
従来のRLアプローチは手作業による報酬に依存しており、それは広範囲の人的努力を必要とし、しばしば一般化性に欠ける。
我々は、事前訓練された視覚言語モデル(VLM)とRLを統合して報酬信号を生成する統合フレームワークである textbfVLM-RL を提案する。
論文 参考訳(メタデータ) (2024-12-20T04:08:11Z) - Vision-Language Models as a Source of Rewards [68.52824755339806]
強化学習エージェントの報酬源として市販の視覚言語モデル(VLM)の有効性を検討する。
様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。