論文の概要: G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.13426v1
- Date: Mon, 19 May 2025 17:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.793935
- Title: G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
- Title(参考訳): G1:強化学習による視覚言語モデルのブートストラップ知覚と推論能力
- Authors: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang,
- Abstract要約: VLM(Vision-Language Models)は多くの直接的なマルチモーダルタスクに優れていますが、ゲームのようなインタラクティブで視覚的にリッチな環境において、この成果を効果的な意思決定に変換するのに苦労しています。
VLM-Gymは多種多様なビジュアルゲームに統一されたインタフェースと調整可能な構成難易度を備えた強化学習環境である。
我々は、純粋なRL駆動の自己進化を用いてG0モデルを訓練し、創発的知覚と推論パターンを示す。
我々のG1モデルは、すべてのゲームで一貫して教師を追い越し、Claude-3.7-Sonnet-Thinkingのような主要なプロプライエタリモデルより優れています。
- 参考スコア(独自算出の注目度): 37.18982308118744
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Models (VLMs) excel in many direct multimodal tasks but struggle to translate this prowess into effective decision-making within interactive, visually rich environments like games. This ``knowing-doing'' gap significantly limits their potential as autonomous agents, as leading VLMs often performing badly in simple games. To address this, we introduce VLM-Gym, a curated reinforcement learning (RL) environment featuring diverse visual games with unified interfaces and adjustable, compositional difficulty, specifically designed for scalable multi-game parallel training. Leveraging VLM-Gym, we train G0 models using pure RL-driven self-evolution, which demonstrate emergent perception and reasoning patterns. To further mitigate challenges arising from game diversity, we develop G1 models. G1 incorporates a perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models consistently surpass their teacher across all games and outperform leading proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals an intriguing finding: perception and reasoning abilities mutually bootstrap each other throughout the RL training process. Source code including VLM-Gym and RL training are released at https://github.com/chenllliang/G1 to foster future research in advancing VLMs as capable interactive agents.
- Abstract(参考訳): VLM(Vision-Language Models)は多くの直接的なマルチモーダルタスクに優れていますが、ゲームのようなインタラクティブで視覚的にリッチな環境において、この成果を効果的な意思決定に変換するのに苦労しています。
この 'knowing-doing' のギャップは、VLMが単純なゲームでしばしばひどいパフォーマンスをするので、自律的なエージェントとしての可能性を大幅に制限する。
そこで本研究では,マルチゲーム並列学習に特化して設計された,統一インターフェースを備えた多様なビジュアルゲームと,調整可能な構成難易度を備えた強化学習(RL)環境であるVLM-Gymを紹介する。
VLM-Gymを活用することで、純粋なRL駆動型自己進化モデルを用いてG0モデルを訓練し、創発的知覚と推論パターンを示す。
ゲームの多様性から生じる課題を緩和するため,我々はG1モデルを開発した。
G1はRL微調整に先立って、知覚を増強するコールドスタートを組み込んでいる。
我々のG1モデルは、すべてのゲームで一貫して教師を追い越し、Claude-3.7-Sonnet-Thinkingのような主要なプロプライエタリモデルより優れています。
システム分析は、RLトレーニングプロセスを通して相互にブートストラップする知覚と推論能力という興味深い発見を明らかにしている。
VLM-GymやRLトレーニングを含むソースコードはhttps://github.com/chenllliang/G1でリリースされ、VLMを有能な対話エージェントとして前進させる将来の研究を促進する。
関連論文リスト
- VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Cultivating Game Sense for Yourself: Making VLMs Gaming Experts [23.370716496046217]
ゲームプレイエージェント設計におけるパラダイムシフトを提案する。
ゲームプレイを直接制御する代わりに、VLMは射撃や戦闘などのタスクに適した特殊な実行モジュールを開発する。
これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
論文 参考訳(メタデータ) (2025-03-27T08:40:47Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving [1.3107174618549584]
自動運転政策を学習するための強化学習(RL)に基づく手法は、自動運転コミュニティにおいて注目を集めている。
従来のRLアプローチは手作業による報酬に依存しており、それは広範囲の人的努力を必要とし、しばしば一般化性に欠ける。
我々は、事前訓練された視覚言語モデル(VLM)とRLを統合して報酬信号を生成する統合フレームワークである textbfVLM-RL を提案する。
論文 参考訳(メタデータ) (2024-12-20T04:08:11Z) - Vision-Language Models as a Source of Rewards [68.52824755339806]
強化学習エージェントの報酬源として市販の視覚言語モデル(VLM)の有効性を検討する。
様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。