論文の概要: GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
- arxiv url: http://arxiv.org/abs/2605.20246v2
- Date: Thu, 21 May 2026 05:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.901155
- Title: GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
- Title(参考訳): GROW: オープンワールドVLMエージェントのステート・アクション・モデリングによるGRPOの調整
- Authors: Xiongbin Wu, Zhihao Luo, Shanzhe Lei, Lechao Zhang, Xuhong Wang, Jie Yang, Zhonglong Zheng, Yuanjie Zheng, Xin Tan, Wei Liu,
- Abstract要約: 視覚言語モデル(VLM)エージェントは、オープンワールドタスクにおいて有望な進歩を示している。
GROWは、収集された軌跡をステートアクションサンプルに分解する、オープンワールドなVLMエージェントのためのフレームワークである。
800以上のMinecraftタスクに対する実験により,本手法がSOTA(State-of-the-art)性能を達成することを示す。
- 参考スコア(独自算出の注目度): 22.61937576301843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, vision-language model (VLM) agents have shown promising progress in open-world tasks, where successful task completion often requires multiple turns of visual perception and action execution. However, existing methods still rely primarily on Supervised Fine-Tuning (SFT) with expert demonstrations, while the advanced reinforcement learning (RL) algorithm, specifically Group Relative Policy Optimization (GRPO), has not been effectively employed for multi-turn RL in these tasks because standard GRPO requires full trajectories as training samples which leads to excessively long context and noise. To address this issue, we propose GROW, a RL framework for open-world VLM agents that decomposes collected trajectories into state-action samples, and computes advantages between these samples rather than treating a full trajectory as a single entity. We further provide a surrogate analysis indicating that, even though the grouped samples are conditioned on different local states rather than an identical prompt context, the objective can preserve the core relative policy optimization signal of GRPO under simplifying assumptions. Experiments on more than 800 Minecraft tasks show that our method achieves state-of-the-art (SOTA) performance, demonstrating the effectiveness of our proposed RL framework for open-world VLM agents.
- Abstract(参考訳): 近年,視覚言語モデル (VLM) エージェントは,タスク完了に複数の視覚知覚と行動実行を必要とするような,オープンワールドタスクの進歩を期待している。
しかし、既存の手法は、主に専門家によるデモンストレーションを伴うスーパービジョンファインチューニング(SFT)に依存しているが、高度な強化学習(RL)アルゴリズム、特にグループ相対ポリシー最適化(GRPO)は、標準GRPOがトレーニングサンプルとして完全な軌道を必要とするため、これらのタスクにおいて効果的に採用されていない。
この問題に対処するため,オープンワールド VLM エージェントのための RL フレームワーク GROW を提案する。
さらに, グループ化されたサンプルが同一のプロンプトコンテキストではなく, 異なるローカル状態に条件付けされているとしても, GRPOのコア相対的ポリシー最適化信号は, 仮定を単純化して保存可能であることを示すサロゲート解析を行った。
800以上のMinecraftタスクに対する実験により,提案手法がSOTA(State-of-the-art)性能を実現し,オープンワールドVLMエージェントに対するRLフレームワークの有効性を実証した。
関連論文リスト
- Poly-EPO: Training Exploratory Reasoning Models [62.82992914206963]
本稿では,学習後言語モデル(LM)の枠組みについて,楽観的な探索を明示的に奨励し,探索と搾取の相乗効果を促進する。
本稿では,この枠組みを探索と利用を明確に相乗化するための目的として,ポリクロミック探索政策最適化(Poly-EPO)を提案する。
論文 参考訳(メタデータ) (2026-04-19T22:54:19Z) - S-GRPO: Unified Post-Training for Large Vision-Language Models [11.901218794806796]
我々はLVLM(Large Vision-Language Models)適応のためのS-GRPO(Supervised Group Relative Policy Optimization)を提案する。
S-GRPOは、模擬学習の指導を選好最適化の多軌道探索に統合する。
監督ファインチューニング(SFT)と強化学習(RL)のギャップを優雅に埋める
論文 参考訳(メタデータ) (2026-04-17T08:39:07Z) - From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space [78.36537400975298]
グループ相対政策最適化(GRPO)は、テキスト・ツー・イメージ(T2I)フローモデルにおいて、優先順位調整のための強力なフレームワークとして登場した。
条件空間を拡大することで関係探索を強化する新しい手法であるMulti-View GRPOを提案する。
MV-GRPOは最先端手法よりも優れたアライメント性能を実現する。
論文 参考訳(メタデータ) (2026-03-13T04:35:13Z) - TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。