論文の概要: Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.00347v1
- Date: Fri, 01 May 2026 02:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.819482
- Title: Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
- Title(参考訳): Odysseus: 強化学習によるゲームにおけるVLMの100以上のターン意思決定へのスケーリング
- Authors: Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin,
- Abstract要約: 本研究では,スーパーマリオランドにおける長期意思決定のための視覚言語モデル(VLM)の学習について検討する。
本稿では,軽量なターンレベルの批評家によるPPOの適応版を提案し,トレーニングの安定性とサンプル効率を大幅に向上させる。
我々は,VLMエージェントのオープントレーニングフレームワークであるOdysseusを紹介し,ゲーム内の複数のレベルにおいて,実質的なゲインを達成する。
- 参考スコア(独自算出の注目度): 50.464623632604976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the rapidly growing capabilities of vision-language models (VLMs), extending them to interactive decision-making tasks such as video games has emerged as a promising frontier. However, existing approaches either rely on large-scale supervised fine-tuning (SFT) on human trajectories or apply reinforcement learning (RL) only in relatively short-horizon settings (typically around 20--30 turns). In this work, we study RL-based training of VLMs for long-horizon decision-making in Super Mario Land, a visually grounded environment requiring 100+ turns of interaction with coordinated perception, reasoning, and action. We begin with a systematic investigation of key algorithmic components and propose an adapted variant of PPO with a lightweight turn-level critic, which substantially improves training stability and sample efficiency over critic-free methods such as GRPO and Reinforce++. We further show that pretrained VLMs provide strong action priors, significantly improving sample efficiency during RL training and reducing the need for manual design choices such as action engineering, compared to classical deep RL trained from scratch. Building on these insights, we introduce Odysseus, an open training framework for VLM agents, achieving substantial gains across multiple levels of the game and at least 3 times average game progresses than frontier models. Moreover, the trained models exhibit consistent improvements under both in-game and cross-game generalization settings, while maintaining general-domain capabilities. Overall, our results identify key ingredients for making RL stable and effective in long-horizon, multi-modal settings, and provide practical guidance for developing VLMs as embodied agents.
- Abstract(参考訳): 視覚言語モデル(VLM)の能力が急速に向上していることを踏まえ、ビデオゲームのようなインタラクティブな意思決定タスクに拡張することが有望なフロンティアとして現れている。
しかし、既存のアプローチでは、人間の軌道に大規模な微調整(SFT)を頼りにするか、比較的短距離(典型的には20-30回転)でのみ強化学習(RL)を適用している。
本研究では,スーパーマリオランドにおける長期的意思決定のためのVLMのRLベーストレーニングについて検討した。
我々はまず,鍵となるアルゴリズム成分の体系的な研究から始め,軽量なターンレベルの評論家によるPPOの適応版を提案し,GRPOやReinforce++のような批判のない手法よりもトレーニングの安定性とサンプル効率を大幅に向上させる。
さらに,プレトレーニングされたVLMは,RLトレーニング時の試料効率を大幅に向上し,動作工学などの手動設計選択の必要性をゼロからトレーニングした古典的深度RLと比較して低減できることを示す。
これらの知見に基づいて,VLMエージェントのオープントレーニングフレームワークであるOdysseusを導入し,フロンティアモデルよりも複数のレベルのゲームにおいて,少なくとも3倍の平均的なゲーム進行を達成した。
さらに、トレーニングされたモデルは、汎用ドメイン機能を維持しながら、ゲーム内およびゲーム間一般化設定の両方で一貫した改善を示す。
以上の結果から, 長期・マルチモーダル環境においてRLを安定かつ有効にするための重要な要素を同定し, 組込み剤としてVLMを開発するための実践的ガイダンスを提供する。
関連論文リスト
- VLM-Guided Experience Replay [41.08659748023147]
本稿では、視覚言語モデル(VLM)を用いて、リプレイバッファにおける体験の優先順位付けを導くことを提案する。
私たちのキーとなるアイデアは、凍結した訓練済みのVLMを自動評価器として使用して、エージェントの経験から有望なサブトラジェクトリを特定し、優先順位付けすることです。
ゲームプレイやロボティクスを含む全シナリオにおいて,提案手法を用いて訓練したエージェントは,平均成功率11~52%,サンプル効率19~45%向上した。
論文 参考訳(メタデータ) (2026-02-02T10:19:59Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning [37.18982308118744]
VLM(Vision-Language Models)は多くの直接的なマルチモーダルタスクに優れていますが、ゲームのようなインタラクティブで視覚的にリッチな環境において、この成果を効果的な意思決定に変換するのに苦労しています。
VLM-Gymは多種多様なビジュアルゲームに統一されたインタフェースと調整可能な構成難易度を備えた強化学習環境である。
我々は、純粋なRL駆動の自己進化を用いてG0モデルを訓練し、創発的知覚と推論パターンを示す。
我々のG1モデルは、すべてのゲームで一貫して教師を追い越し、Claude-3.7-Sonnet-Thinkingのような主要なプロプライエタリモデルより優れています。
論文 参考訳(メタデータ) (2025-05-19T17:54:39Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。