論文の概要: Robot Learning from a Physical World Model
- arxiv url: http://arxiv.org/abs/2511.07416v1
- Date: Mon, 10 Nov 2025 18:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.434074
- Title: Robot Learning from a Physical World Model
- Title(参考訳): 物理世界モデルからのロボット学習
- Authors: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang,
- Abstract要約: 本稿では,ビデオ生成から物理世界モデリングによるロボット学習を実現するフレームワークであるPhysWorldを紹介する。
様々な実世界のタスクの実験により、PhysWorldは以前のアプローチに比べて操作精度を大幅に改善した。
- 参考スコア(独自算出の注目度): 33.89964002945721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PhysWorld, a framework that enables robot learning from video generation through physical world modeling. Recent video generation models can synthesize photorealistic visual demonstrations from language commands and images, offering a powerful yet underexplored source of training signals for robotics. However, directly retargeting pixel motions from generated videos to robots neglects physics, often resulting in inaccurate manipulations. PhysWorld addresses this limitation by coupling video generation with physical world reconstruction. Given a single image and a task command, our method generates task-conditioned videos and reconstructs the underlying physical world from the videos, and the generated video motions are grounded into physically accurate actions through object-centric residual reinforcement learning with the physical world model. This synergy transforms implicit visual guidance into physically executable robotic trajectories, eliminating the need for real robot data collection and enabling zero-shot generalizable robotic manipulation. Experiments on diverse real-world tasks demonstrate that PhysWorld substantially improves manipulation accuracy compared to previous approaches. Visit \href{https://pointscoder.github.io/PhysWorld_Web/}{the project webpage} for details.
- Abstract(参考訳): 本稿では,ビデオ生成から物理世界モデリングによるロボット学習を実現するフレームワークであるPhysWorldを紹介する。
最近のビデオ生成モデルは、言語コマンドや画像からフォトリアリスティックな視覚的なデモを合成することができ、ロボット工学のトレーニング信号の強力な源を提供する。
しかし、生成したビデオからロボットへのピクセルの動きを直接ターゲットにすることは物理学を無視し、しばしば不正確な操作をもたらす。
PhysWorldは、物理世界再構成とビデオ生成を結合することで、この制限に対処する。
一つの画像とタスクコマンドが与えられた場合、ビデオからタスク条件付き映像を生成し、その基盤となる物理世界を再構成し、生成した映像の動きを物理世界モデルを用いたオブジェクト中心の強化学習により物理的に正確な動作に基礎付ける。
このシナジーは、暗黙の視覚誘導を物理的に実行可能なロボット軌道に変換することで、実際のロボットデータ収集の必要性を排除し、ゼロショットで一般化可能なロボット操作を可能にする。
様々な実世界のタスクの実験により、PhysWorldは以前のアプローチに比べて操作精度を大幅に改善した。
詳細は、href{https://pointscoder.github.io/PhysWorld_Web/}{the project webpage}を参照してください。
関連論文リスト
- PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis [52.905353023326306]
物理的に妥当で多様な実演を合成し、効率的な世界モデルを学ぶためのフレームワークであるPhysWorldを提案する。
実験により、PhysWorldは、最新の最先端手法、すなわちPhysTwinよりも47倍高速な推論速度を実現しつつ、競争性能を持つことが示された。
論文 参考訳(メタデータ) (2025-10-24T13:25:39Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - RoboScape: Physics-informed Embodied World Model [25.61586473778092]
本稿では、RGBビデオ生成と物理知識を共同で学習する統合物理インフォームドワールドモデルであるRoboScapeを紹介する。
実験によると、RoboScapeは多様なロボットシナリオにまたがって、優れた視覚的忠実度と物理的妥当性を持つビデオを生成する。
我々の研究は、エンボディドインテリジェンス研究を前進させるために、効率的な物理インフォームド世界モデルを構築するための新しい洞察を提供する。
論文 参考訳(メタデータ) (2025-06-29T08:19:45Z) - Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals [18.86902152614664]
映像生成のための制御信号として物理力を用いる。
そこで我々は,局所的な力によって画像と対話できる力のプロンプトを提案する。
これらの力のプロンプトによって、ビデオが物理的な制御信号に現実的に反応できることを実証する。
論文 参考訳(メタデータ) (2025-05-26T01:04:02Z) - Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.56181322973467]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。