論文の概要: DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos
- arxiv url: http://arxiv.org/abs/2602.06949v1
- Date: Fri, 06 Feb 2026 18:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.539268
- Title: DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos
- Title(参考訳): DreamDojo: 大規模な人間ビデオによる汎用ロボットワールドモデル
- Authors: Shenyuan Gao, William Liang, Kaiyuan Zheng, Ayaan Malik, Seonghyeon Ye, Sihyun Yu, Wei-Cheng Tseng, Yuzhu Dong, Kaichun Mo, Chen-Hsuan Lin, Qianli Ma, Seungjun Nah, Loic Magne, Jiannan Xiang, Yuqi Xie, Ruijie Zheng, Dantong Niu, You Liang Tan, K. R. Zentner, George Kurian, Suneel Indupuru, Pooya Jannaty, Jinwei Gu, Jun Zhang, Jitendra Malik, Pieter Abbeel, Ming-Yu Liu, Yuke Zhu, Joel Jang, Linxi "Jim" Fan,
- Abstract要約: 私たちはDreamDojoを紹介します。DreamDojoは、多種多様なインタラクションと、エゴセントリックな人間ビデオの44万時間から厳密なコントロールを学ぶ基礎的な世界モデルです。
本研究は, 遠隔操作, 政策評価, モデルベース計画など, 生成的世界モデルに基づくいくつかの重要な応用を可能にする。
- 参考スコア(独自算出の注目度): 110.98100817695307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of daily scenarios with diverse objects and skills. To address the scarcity of action labels, we introduce continuous latent actions as unified proxy actions, enhancing interaction knowledge transfer from unlabeled videos. After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability. We also devise a distillation pipeline that accelerates DreamDojo to a real-time speed of 10.81 FPS and further improves context consistency. Our work enables several important applications based on generative world models, including live teleoperation, policy evaluation, and model-based planning. Systematic evaluation on multiple challenging out-of-distribution (OOD) benchmarks verifies the significance of our method for simulating open-world, contact-rich tasks, paving the way for general-purpose robot world models.
- Abstract(参考訳): 様々な環境における行動の結果をシミュレートできることは、大規模なジェネラリストエージェントの開発に革命をもたらす。
しかし、特に器用なロボット作業のためにこれらの世界ダイナミクスをモデル化することは、限られたデータカバレッジと少ないアクションラベルのために重大な課題を生んでいる。
この目的に向けて,44k時間の人間中心ビデオから多様なインタラクションと巧妙な制御を学習する基礎的世界モデルであるDreamDojoを紹介した。
我々のデータミキシングは、さまざまなオブジェクトやスキルを備えた、幅広い日々のシナリオにまたがる、世界モデルの事前トレーニングのための、これまでで最大のビデオデータセットを表しています。
アクションラベルの不足に対処するため、我々は連続潜時動作を統一的なプロキシアクションとして導入し、ラベルなしビデオからのインタラクション知識の伝達を強化する。
小型の目標ロボットデータに関する訓練の後、DreamDojoは物理学と正確なアクション制御性について深い理解を示した。
また,DreamDojoを10.81 FPSのリアルタイム速度に高速化する蒸留パイプラインを考案し,コンテキスト整合性をさらに向上する。
本研究は, 遠隔操作, 政策評価, モデルベース計画など, 生成的世界モデルに基づくいくつかの重要な応用を可能にする。
マルチチャレンジアウト・オブ・ディストリビューション(OOD)ベンチマークの体系的評価は,オープンワールド・コンタクトリッチなタスクをシミュレートし,汎用ロボットの世界モデルへの道を開くことの重要性を検証する。
関連論文リスト
- Learning Latent Action World Models In The Wild [50.453458324163705]
In-the-wild video における潜在行動世界モデル学習の問題点について検討する。
連続的な、しかし制約のある、潜在的なアクションは、ワイルドなビデオからアクションの複雑さを捉えることができる。
ビデオ間の共通の具体化がないため、我々は主に宇宙空間で局所化される潜伏行動を学ぶことができる。
論文 参考訳(メタデータ) (2026-01-08T18:55:39Z) - Large Video Planner Enables Generalizable Robot Control [117.49024534548319]
汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。
最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。
本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
論文 参考訳(メタデータ) (2025-12-17T18:35:54Z) - AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis [33.90053396451562]
AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。
本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。
実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
論文 参考訳(メタデータ) (2025-12-12T18:59:45Z) - Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文 参考訳(メタデータ) (2025-10-24T15:39:31Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。