論文の概要: Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets
- arxiv url: http://arxiv.org/abs/2504.02792v3
- Date: Fri, 23 May 2025 00:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.920261
- Title: Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets
- Title(参考訳): 統一世界モデル:大規模ロボットデータセットの事前学習のためのビデオとアクション拡散の結合
- Authors: Chuning Zhu, Raymond Yu, Siyuan Feng, Benjamin Burchfiel, Paarth Shah, Abhishek Gupta,
- Abstract要約: 我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
- 参考スコア(独自算出の注目度): 7.667819384855409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning has emerged as a promising approach towards building generalist robots. However, scaling imitation learning for large robot foundation models remains challenging due to its reliance on high-quality expert demonstrations. Meanwhile, large amounts of video data depicting a wide range of environments and diverse behaviors are readily available. This data provides a rich source of information about real-world dynamics and agent-environment interactions. Leveraging this data directly for imitation learning, however, has proven difficult due to the lack of action annotation. In this work, we present Unified World Models (UWM), a framework that allows for leveraging both video and action data for policy learning. Specifically, a UWM integrates an action diffusion process and a video diffusion process within a unified transformer architecture, where independent diffusion timesteps govern each modality. By controlling each diffusion timestep, UWM can flexibly represent a policy, a forward dynamics, an inverse dynamics, and a video generator. Through simulated and real-world experiments, we show that: (1) UWM enables effective pretraining on large-scale multitask robot datasets with both dynamics and action predictions, resulting in more generalizable and robust policies than imitation learning, (2) UWM naturally facilitates learning from action-free video data through independent control of modality-specific diffusion timesteps, further improving the performance of finetuned policies. Our results suggest that UWM offers a promising step toward harnessing large, heterogeneous datasets for scalable robot learning, and provides a simple unification between the often disparate paradigms of imitation learning and world modeling. Videos and code are available at https://weirdlabuw.github.io/uwm/.
- Abstract(参考訳): 模倣学習は、ジェネラリストロボットを構築するための有望なアプローチとして登場した。
しかし,大規模なロボット基礎モデルに対する模倣学習のスケーリングは,高品質な専門家によるデモンストレーションに頼っているため,依然として困難である。
一方、幅広い環境や多様な振る舞いを描写した大量のビデオデータも手軽に利用可能である。
このデータは、現実世界のダイナミクスとエージェント環境相互作用に関する情報の豊富な情報源を提供する。
しかし、このデータを模倣学習に直接活用することは、アクションアノテーションの欠如により困難であることが証明された。
本研究では,映像とアクションデータの両方を政策学習に活用するためのフレームワークであるUnified World Models (UWM)を提案する。
具体的には、独立拡散タイムステップが各モダリティを管理する統一トランスフォーマーアーキテクチャにおいて、UWMはアクション拡散プロセスとビデオ拡散プロセスを統合する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
シミュレーションおよび実世界の実験を通して、(1)UWMは、動的および行動予測の両方で大規模マルチタスクロボットデータセット上で効果的な事前トレーニングを可能にし、模倣学習よりもより一般化可能で堅牢なポリシーをもたらすこと、(2)UWMは、モータリティ固有の拡散時間ステップの独立制御を通じて、アクションフリービデオデータからの学習を自然に促進し、さらに微調整されたポリシーの性能を向上させること、を示す。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用するための有望なステップであり,模倣学習と世界モデリングの相違がしばしばある。
ビデオとコードはhttps://weirdlabuw.github.io/uwm/.comで公開されている。
関連論文リスト
- Unified Video Action Model [47.88377984526902]
統合されたビデオとアクションモデルは、アクション予測のためのリッチなシーン情報を提供するロボット工学にとって重要な約束である。
我々は,映像とアクションの予測を協調的に最適化し,高精度かつ効率的なアクション推論を実現するUnified Video Action Model (UVA)を提案する。
広範な実験により、UVAは幅広いロボティクスタスクの汎用的なソリューションとして機能できることが実証された。
論文 参考訳(メタデータ) (2025-02-28T21:38:17Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Prediction with Action: Visual Policy Learning via Joint Denoising Process [14.588908033404474]
PADは、画像予測とロボットアクションを統合する視覚ポリシー学習フレームワークである。
DiTは画像とロボット状態をシームレスに統合し、将来の画像とロボット動作の同時予測を可能にする。
Padは従来の手法よりも優れており、Metaworldのベンチマークで26.3%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T09:54:58Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。