論文の概要: RoboScape: Physics-informed Embodied World Model
- arxiv url: http://arxiv.org/abs/2506.23135v1
- Date: Sun, 29 Jun 2025 08:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.733991
- Title: RoboScape: Physics-informed Embodied World Model
- Title(参考訳): RoboScape:物理インフォームド・エンボディード・ワールドモデル
- Authors: Yu Shang, Xin Zhang, Yinzhou Tang, Lei Jin, Chen Gao, Wei Wu, Yong Li,
- Abstract要約: 本稿では、RGBビデオ生成と物理知識を共同で学習する統合物理インフォームドワールドモデルであるRoboScapeを紹介する。
実験によると、RoboScapeは多様なロボットシナリオにまたがって、優れた視覚的忠実度と物理的妥当性を持つビデオを生成する。
我々の研究は、エンボディドインテリジェンス研究を前進させるために、効率的な物理インフォームド世界モデルを構築するための新しい洞察を提供する。
- 参考スコア(独自算出の注目度): 25.61586473778092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models have become indispensable tools for embodied intelligence, serving as powerful simulators capable of generating realistic robotic videos while addressing critical data scarcity challenges. However, current embodied world models exhibit limited physical awareness, particularly in modeling 3D geometry and motion dynamics, resulting in unrealistic video generation for contact-rich robotic scenarios. In this paper, we present RoboScape, a unified physics-informed world model that jointly learns RGB video generation and physics knowledge within an integrated framework. We introduce two key physics-informed joint training tasks: temporal depth prediction that enhances 3D geometric consistency in video rendering, and keypoint dynamics learning that implicitly encodes physical properties (e.g., object shape and material characteristics) while improving complex motion modeling. Extensive experiments demonstrate that RoboScape generates videos with superior visual fidelity and physical plausibility across diverse robotic scenarios. We further validate its practical utility through downstream applications including robotic policy training with generated data and policy evaluation. Our work provides new insights for building efficient physics-informed world models to advance embodied intelligence research. The code is available at: https://github.com/tsinghua-fib-lab/RoboScape.
- Abstract(参考訳): 世界モデルはインテリジェンスを具現化する上で欠かせないツールとなり、重要なデータ不足問題に対処しながら、リアルなロボットビデオを生成する強力なシミュレータとして機能している。
しかし、現在の具現化された世界モデルは、特に3次元幾何学と運動力学のモデリングにおいて限られた物理的認識を示し、接触に富むロボットシナリオのための非現実的なビデオ生成をもたらす。
本稿では,RGBビデオ生成と物理知識を統合フレームワーク内で共同で学習する物理インフォームド世界モデルであるRoboScapeを提案する。
映像レンダリングにおける3次元幾何整合性を高める時間的深度予測と、複雑な動きモデリングを改良しつつ、物理的特性(物体形状や材料特性など)を暗黙的に符号化するキーポイントダイナミクス学習という2つの重要な物理インフォームド・ジョイントトレーニングタスクを導入する。
大規模な実験により、RoboScapeは多様なロボットシナリオにまたがって、優れた視覚的忠実度と物理的妥当性を持つビデオを生成することが実証された。
さらに,生成したデータを用いたロボットポリシートレーニングやポリシー評価など,下流アプリケーションによる実用性についても検証する。
我々の研究は、エンボディドインテリジェンス研究を前進させるために、効率的な物理インフォームド世界モデルを構築するための新しい洞察を提供する。
コードは、https://github.com/tsinghua-fib-lab/RoboScape.comで入手できる。
関連論文リスト
- Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals [18.86902152614664]
映像生成のための制御信号として物理力を用いる。
そこで我々は,局所的な力によって画像と対話できる力のプロンプトを提案する。
これらの力のプロンプトによって、ビデオが物理的な制御信号に現実的に反応できることを実証する。
論文 参考訳(メタデータ) (2025-05-26T01:04:02Z) - Unreal Robotics Lab: A High-Fidelity Robotics Simulator with Advanced Physics and Rendering [4.760567755149477]
本稿では,Unreal Engineの高度なレンダリング機能とMuJoCoの高精度物理シミュレーションを統合する新しいシミュレーションフレームワークを提案する。
我々のアプローチは、正確な物理的相互作用を維持しながら、現実的なロボット知覚を可能にする。
フレームワーク内のビジュアルナビゲーションとSLAMメソッドをベンチマークし、制御されながら多様なシナリオで実世界のロバスト性をテストするための実用性を実証する。
論文 参考訳(メタデータ) (2025-04-19T01:54:45Z) - Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.465371691714296]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - Learning 3D Particle-based Simulators from RGB-D Videos [15.683877597215494]
本研究では,シミュレータを直接観測から学習する手法を提案する。
視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現を共同で学習する。
既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。
論文 参考訳(メタデータ) (2023-12-08T20:45:34Z) - RoboCraft: Learning to See, Simulate, and Shape Elasto-Plastic Objects
with Graph Networks [32.00371492516123]
弾塑性物体のモデリングと操作のためのモデルベース計画フレームワークを提案する。
我々のシステムであるRoboCraftは、グラフニューラルネットワーク(GNN)を用いて粒子ベースの力学モデルを学び、基礎となるシステムの構造を捉える。
実世界のロボットインタラクションデータの10分で、ロボットは制御信号を合成し、弾塑性の物体を様々な形状に変形させるダイナミックスモデルを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-05T20:28:15Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。