論文の概要: PlayWorld: Learning Robot World Models from Autonomous Play
- arxiv url: http://arxiv.org/abs/2603.09030v2
- Date: Wed, 11 Mar 2026 01:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.256216
- Title: PlayWorld: Learning Robot World Models from Autonomous Play
- Title(参考訳): PlayWorld: 自律的なプレイからロボットワールドモデルを学ぶ
- Authors: Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha Majumdar,
- Abstract要約: 対話体験から高忠実度ビデオワールドシミュレータをトレーニングするための,シンプルでスケーラブルで完全自律的なパイプラインであるPlayWorldを紹介する。
PlayWorldは、教師なしのロボットのセルフプレイから完全に学習できる最初のシステムであり、自然にスケーラブルなデータ収集を可能にする。
実験により、PlayWorldは、人間が収集したデータに基づいてトレーニングされた世界モデルによって捉えられていないコンタクトリッチなインタラクションに対して、高品質で物理的に一貫した予測を生成することが示された。
- 参考スコア(独自算出の注目度): 8.710835027281465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action-conditioned video models offer a promising path to building general-purpose robot simulators that can improve directly from data. Yet, despite training on large-scale robot datasets, current state-of-the-art video models still struggle to predict physically consistent robot-object interactions that are crucial in robotic manipulation. To close this gap, we present PlayWorld, a simple, scalable, and fully autonomous pipeline for training high-fidelity video world simulators from interaction experience. In contrast to prior approaches that rely on success-biased human demonstrations, PlayWorld is the first system capable of learning entirely from unsupervised robot self-play, enabling naturally scalable data collection while capturing complex, long-tailed physical interactions essential for modeling realistic object dynamics. Experiments across diverse manipulation tasks show that PlayWorld generates high-quality, physically consistent predictions for contact-rich interactions that are not captured by world models trained on human-collected data. We further demonstrate the versatility of PlayWorld in enabling fine-grained failure prediction and policy evaluation, with up to 40% improvements over human-collected data. Finally, we demonstrate how PlayWorld enables reinforcement learning in the world model, improving policy performance by 65% in success rates when deployed in the real world.
- Abstract(参考訳): アクション条件付きビデオモデルは、データから直接改善できる汎用ロボットシミュレータを構築するための有望な道を提供する。
しかし、大規模なロボットデータセットのトレーニングにもかかわらず、現在の最先端のビデオモデルは、ロボット操作に不可欠な物理的に一貫したロボットとオブジェクトの相互作用を予測するのに苦戦している。
このギャップを埋めるために、対話体験から高忠実度ビデオワールドシミュレータをトレーニングするための、シンプルでスケーラブルで完全に自律的なパイプラインであるPlayWorldを紹介します。
成功バイアスのある人間のデモンストレーションに依存する従来のアプローチとは対照的に、PlayWorldは、教師なしのロボットのセルフプレイから完全に学習できる最初のシステムであり、自然にスケーラブルなデータ収集を可能にすると同時に、現実的なオブジェクトのダイナミクスをモデル化するのに不可欠な複雑な、長い尾を持つ物理的相互作用をキャプチャする。
多様な操作タスクにわたる実験により、PlayWorldは、人間が収集したデータに基づいてトレーニングされた世界モデルによって捉えられない、コンタクトリッチなインタラクションのための高品質で物理的に一貫した予測を生成する。
また,人為的なデータよりも最大40%の精度で,詳細な故障予測と政策評価を実現する上でのPlayWorldの汎用性を実証した。
最後に,PlayWorldが世界モデルで強化学習を実現し,実世界展開時の成功率を65%向上させることを実証する。
関連論文リスト
- Interactive World Simulator for Robot Policy Training and Evaluation [21.481187472784047]
ロボットインタラクションデータセットからインタラクティブな世界モデルを構築するためのフレームワークであるInteractive World Simulatorを提案する。
我々の実験では、学習された世界モデルが相互作用に一貫性のあるピクセルレベルの予測を生成する。
我々は,世界モデル生成データに基づいてトレーニングされたポリシーが,同じ量の実世界のデータでトレーニングされたポリシーと相容れないことを発見した。
論文 参考訳(メタデータ) (2026-03-09T16:13:32Z) - DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos [110.98100817695307]
私たちはDreamDojoを紹介します。DreamDojoは、多種多様なインタラクションと、エゴセントリックな人間ビデオの44万時間から厳密なコントロールを学ぶ基礎的な世界モデルです。
本研究は, 遠隔操作, 政策評価, モデルベース計画など, 生成的世界モデルに基づくいくつかの重要な応用を可能にする。
論文 参考訳(メタデータ) (2026-02-06T18:49:43Z) - World-Gymnast: Training Robots with Reinforcement Learning in a World Model [4.491505634160759]
本稿では、アクション条件付きビデオワールドモデルにポリシーをロールアウトすることで、視覚言語アクションポリシーのRL微調整を行うWorld-Gymnastを提案する。
Bridgeロボットのセットアップでは、World-GymnastはSFTを最大18倍上回り、ソフトウェアシミュレータを最大2倍上回る。
我々の結果は、クラウドで世界モデルを学び、ロボットポリシーを訓練することが、デモで作業するロボットと、誰でも使えるロボットのギャップを埋める鍵になり得ることを示唆している。
論文 参考訳(メタデータ) (2026-02-02T18:44:45Z) - AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis [33.90053396451562]
AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。
本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。
実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
論文 参考訳(メタデータ) (2025-12-12T18:59:45Z) - Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文 参考訳(メタデータ) (2025-10-24T15:39:31Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文 参考訳(メタデータ) (2023-03-06T18:59:09Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。