論文の概要: VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents
        - arxiv url: http://arxiv.org/abs/2510.16907v1
- Date: Sun, 19 Oct 2025 16:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.201878
- Title: VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents
- Title(参考訳): VAGEN:マルチターンVLMエージェントのためのワールドモデル推論の強化
- Authors: Kangrui Wang, Pingyue Zhang, Zihan Wang, Yaning Gao, Linjie Li, Qineng Wang, Hanyang Chen, Chi Wan, Yiping Lu, Zhengyuan Yang, Lijuan Wang, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Yejin Choi, Manling Li, 
- Abstract要約: 言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
- 参考スコア(独自算出の注目度): 130.70999337445468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract:   A key challenge in training Vision-Language Model (VLM) agents, compared to Language Model (LLM) agents, lies in the shift from textual states to complex visual observations. This transition introduces partial observability and demands robust world modeling. We ask: Can VLM agents construct internal world models through explicit visual state reasoning? To address this question, we architecturally enforce and reward the agent's reasoning process via reinforcement learning (RL), formulating it as a Partially Observable Markov Decision Process (POMDP). We find that decomposing the agent's reasoning into State Estimation ("what is the current state?") and Transition Modeling ("what comes next?") is critical for success, as demonstrated through five reasoning strategies. Our investigation into how agents represent internal beliefs reveals that the optimal representation is task-dependent: Natural Language excels at capturing semantic relationships in general tasks, while Structured formats are indispensable for precise manipulation and control. Building on these insights, we design a World Modeling Reward that provides dense, turn-level supervision for accurate state prediction, and introduce Bi-Level General Advantage Estimation (Bi-Level GAE) for turn-aware credit assignment. Through this form of visual state reasoning, a 3B-parameter model achieves a score of 0.82 across five diverse agent benchmarks, representing a 3$\times$ improvement over its untrained counterpart (0.21) and outperforming proprietary reasoning models such as GPT-5 (0.75), Gemini 2.5 Pro (0.67) and Claude 4.5 (0.62). All experiments are conducted within our VAGEN framework, a scalable system for training and analyzing multi-turn VLM agents in diverse visual environments. Code and data are publicly available at https://vagen-ai.github.io. 
- Abstract(参考訳): 視覚言語モデル(VLM)エージェントの訓練における重要な課題は、言語モデル(LLM)エージェントと比較して、テキスト状態から複雑な視覚観察への移行にある。
この遷移は部分的な可観測性を導入し、堅牢な世界モデリングを要求する。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
この問題に対処するために、我々は、強化学習(RL)を通してエージェントの推論プロセスをアーキテクチャ的に強制し、報酬し、部分観測可能なマルコフ決定プロセス(POMDP)として定式化する。
エージェントの推論を状態推定(現在の状態とは何か?)と遷移モデリング(次の状態は何か?
自然言語は一般的なタスクにおける意味的関係を捉えるのに優れており、構造化形式は正確な操作と制御には不可欠である。
これらの知見に基づいて、我々は、高精度な状態予測のための密度の高いターンレベルの監視を提供するWorld Modeling Rewardを設計し、ターンアウェアなクレジット割り当てのためのバイレベル汎用アドバンテージ推定(Bi-Level General Advantage Estimation, Bi-Level GAE)を導入する。
この形の視覚的状態推論により、3Bパラメーターモデルは5つのエージェントベンチマークで0.82のスコアを達成し、トレーニングされていないエージェント(0.21)よりも3$\times$改善され、GPT-5(0.75)、Gemini 2.5 Pro(0.67)、Claude 4.5(0.62)といったプロプライエタリな推論モデルを上回っている。
多様な視覚環境下でのマルチターンVLMエージェントのトレーニングと解析を行うスケーラブルなシステムであるVAGENフレームワーク内で,すべての実験が実施されている。
コードとデータはhttps://vagen-ai.github.io.comで公開されている。
 
      
        関連論文リスト
        - Do Vision-Language Models Have Internal World Models? Towards an Atomic   Evaluation [54.3628937181904]
 内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
 論文  参考訳(メタデータ) (2025-06-27T03:24:29Z)
- GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for   Complex Visual Reasoning [9.24980723036746]
 GAM-Agentは、視覚言語推論を強化するためのゲーム理論のマルチエージェントフレームワークである。
基本エージェント間の非ゼロサムゲームとして推論過程を定式化し、視覚的知覚サブタスクを専門とするゲームと、論理的一貫性と事実的正確性を検証する重要なエージェントを定式化する。
我々のアプローチはモジュール化され、スケーラブルで、一般化可能であり、信頼性と説明可能なマルチエージェントのマルチモーダル推論への道筋を提供する。
 論文  参考訳(メタデータ) (2025-05-29T12:37:34Z)
- Boosting Virtual Agent Learning and Reasoning: A Step-Wise,   Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
 Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
 論文  参考訳(メタデータ) (2025-03-24T13:30:47Z)
- VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
 既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
 論文  参考訳(メタデータ) (2025-03-13T12:03:37Z)
- Expanding Performance Boundaries of Open-Source Multimodal Models with   Model, Data, and Test-Time Scaling [191.7830199016589]
 InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
 論文  参考訳(メタデータ) (2024-12-06T18:57:08Z)
- Large Language Model Evaluation Via Multi AI Agents: Preliminary results [3.8066447473175304]
 本稿では,多言語モデル(LLM)の性能評価と比較を目的とした,新しいマルチエージェントAIモデルを提案する。
我々のモデルは8つの異なるAIエージェントで構成されており、それぞれが異なる先進言語モデルから共通の記述に基づいてコードを取得する責任がある。
我々はHumanEvalベンチマークを検証エージェントに統合し、生成されたコードのパフォーマンスを評価し、それぞれの能力と効率について洞察を提供する。
 論文  参考訳(メタデータ) (2024-04-01T10:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
       
     
      指定された論文の情報です。
      本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。