論文の概要: Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents
- arxiv url: http://arxiv.org/abs/2507.23698v1
- Date: Thu, 31 Jul 2025 16:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.119093
- Title: Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents
- Title(参考訳): ビジュモータエージェントにおける一般化可能な空間知能のためのスケーラブルなマルチタスク強化学習
- Authors: Shaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang,
- Abstract要約: MinecraftにおけるRL-finetuned visuomotor agentは、目に見えない世界にゼロショットの一般化を実現することができることを示す。
大規模マルチタスクRL学習のための,高度にカスタマイズ可能なMinecraft環境内での自動タスク合成を提案する。
- 参考スコア(独自算出の注目度): 12.945269075811112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning (RL) has achieved remarkable success in language modeling, its triumph hasn't yet fully translated to visuomotor agents. A primary challenge in RL models is their tendency to overfit specific tasks or environments, thereby hindering the acquisition of generalizable behaviors across diverse settings. This paper provides a preliminary answer to this challenge by demonstrating that RL-finetuned visuomotor agents in Minecraft can achieve zero-shot generalization to unseen worlds. Specifically, we explore RL's potential to enhance generalizable spatial reasoning and interaction capabilities in 3D worlds. To address challenges in multi-task RL representation, we analyze and establish cross-view goal specification as a unified multi-task goal space for visuomotor policies. Furthermore, to overcome the significant bottleneck of manual task design, we propose automated task synthesis within the highly customizable Minecraft environment for large-scale multi-task RL training, and we construct an efficient distributed RL framework to support this. Experimental results show RL significantly boosts interaction success rates by $4\times$ and enables zero-shot generalization of spatial reasoning across diverse environments, including real-world settings. Our findings underscore the immense potential of RL training in 3D simulated environments, especially those amenable to large-scale task generation, for significantly advancing visuomotor agents' spatial reasoning.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、言語モデリングにおいて顕著な成功を収めてきたが、その勝利はまだVisuomotorエージェントに完全には翻訳されていない。
RLモデルの最大の課題は、特定のタスクや環境に過度に適合する傾向にあるため、様々な設定で一般化可能な行動の獲得を妨げることである。
本稿では, Minecraft における RL 微細化ビジュモータエージェントが, 目に見えない世界へのゼロショット一般化を達成できることを実証することによって, この課題に対する予備的回答を提供する。
具体的には,3次元世界における空間的推論と相互作用能力を一般化するRLの可能性を探る。
マルチタスクRL表現における課題に対処するため、ビジュモータポリシーのための統合マルチタスク目標空間として、クロスビュー目標仕様を分析し、確立する。
さらに、手動タスク設計の重大なボトルネックを克服するため、大規模マルチタスクRLトレーニングのための高度にカスタマイズ可能なMinecraft環境内での自動タスク合成を提案し、これをサポートするために効率的な分散RLフレームワークを構築した。
実験の結果、RLは相互作用の成功率を4\times$で大幅に向上させ、現実世界の設定を含む様々な環境における空間推論のゼロショット一般化を可能にした。
以上の結果から,3次元シミュレーション環境,特に大規模タスク生成環境におけるRLトレーニングの可能性は,視覚的エージェントの空間的推論を著しく向上させる可能性が示唆された。
関連論文リスト
- Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Towards Large-Scale In-Context Reinforcement Learning by Meta-Training in Randomized Worlds [35.652208216209985]
In-Context Reinforcement Learning (ICRL)により、エージェントは対話的な体験から自動的に、そしてオンザフライで学習することができる。
我々はAnyMDPという手続き的に生成されたマルコフ決定プロセスを提案する。
この結果から,AnyMDPタスクの大規模化により,提案モデルがトレーニングセットでは考慮されなかったタスクに一般化できることが示唆された。
論文 参考訳(メタデータ) (2025-02-05T03:59:13Z) - GenRL: Multimodal-foundation world models for generalization in embodied agents [12.263162194821787]
強化学習(RL)は、タスクごとに複雑な報酬設計を必要とするため、スケールアップが難しい。
現在の基盤視覚言語モデル(VLM)は、微調整やその他の適応を具体的文脈で適用する必要がある。
このような領域におけるマルチモーダルデータの欠如は、具体化されたアプリケーションの基盤モデルを開発する上での障害である。
論文 参考訳(メタデータ) (2024-06-26T03:41:48Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Avalon: A Benchmark for RL Generalization Using Procedurally Generated
Worlds [0.0]
アバロン(英: Avalon)は、プロシージャ3D世界のエンボディエージェントが、地形をナビゲートしたり、狩猟したり、食料を収集したり、危険を避けることで生き残らなければならない一連の作業である。
アバロンは、報酬関数、世界ダイナミクス、アクション空間が全てのタスクで同じであるという点で、既存のRLベンチマークの中でユニークなものである。
標準的なRLベースラインは、ほとんどのタスクで前進するが、人間のパフォーマンスには程遠いため、Avalonは一般化可能なRLの探求を進めるのに十分である。
論文 参考訳(メタデータ) (2022-10-24T17:34:50Z) - Learning Controllable 3D Level Generators [3.95471659767555]
3DドメインMinecraftのためのPCGRLタスクをいくつか紹介する(Mojang Studios, 2009)。
これらのタスクは、ジャンプ、多次元運動、重力といった3D環境でよく見られる余裕を使って、RLベースのジェネレータに挑戦する。
エージェントにこれらのタスクを最適化させ、PCGRLにおける以前の研究の能力を探求する。
論文 参考訳(メタデータ) (2022-06-27T20:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。