論文の概要: ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment
- arxiv url: http://arxiv.org/abs/2603.23376v2
- Date: Fri, 27 Mar 2026 09:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.137223
- Title: ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment
- Title(参考訳): ABot-PhysWorld:物理アライメントを用いたロボットマニピュレーションのためのインタラクティブワールドファンデーションモデル
- Authors: Yuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu,
- Abstract要約: ABot-PhysWorldは14B Diffusion Transformerモデルで、視覚的にリアルで、物理的に可視で、アクション制御可能なビデオを生成する。
視覚的品質を維持しながら、非物理的行動を抑制するために、分離された識別器を備えた新しいDPOベースのポストトレーニングフレームワークを使用する。
PBenchとEZSbenchはVeo 3.1とSora v2 Proを上回り、物理的妥当性と軌道整合性を実現している。
- 参考スコア(独自算出の注目度): 31.000965640377128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.
- Abstract(参考訳): ビデオベースの世界モデルは、シミュレーションと計画の具現化のための強力なパラダイムを提供するが、最先端のモデルは、一般的な視覚データと、物理法則を無視した可能性に基づく目標のトレーニングのために、オブジェクトの浸透や反重力運動のような、物理的に不確実な操作をしばしば生み出す。
ABot-PhysWorldは14B Diffusion Transformerモデルで、視覚的にリアルで、物理的に可視で、アクション制御可能なビデオを生成する。
物理を意識したアノテーションで300万の操作クリップをキュレートしたデータセット上に構築されたこのフレームワークは、DPOベースの新しいポストトレーニングフレームワークと、分離された識別器を使って、視覚的品質を維持しながら不物理的動作を抑える。
並列コンテキストブロックは、クロスエボディメント制御のための精密な空間的アクションインジェクションを可能にする。
EZSbenchは,実物と合成未確認のロボット・タスク・シーンの組み合わせを組み合わせた,最初のトレーニング非依存型ゼロショットベンチマークである。
物理的リアリズムとアクションアライメントを別々に評価するために、分離されたプロトコルを使用する。
ABot-PhysWorldはPBenchとEZSbenchで新しい最先端のパフォーマンスを実現し、物理的妥当性と軌道整合性でVeo 3.1とSora v2 Proを上回っている。
我々はEZSbenchをリリースし、エンボディドビデオ生成における標準化された評価を促進する。
関連論文リスト
- Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation [63.04810454548667]
我々は、ロボット操作タスクを解決するために、スケーラブルで連続的かつシーケンシャルな世界インタラクションフレームワークであるPhysGenを紹介した。
トレーニング済みのビデオモデルを物理シミュレーターのプロキシとして扱うことで、PhysGenは外部環境とロボット動作の間の動的相互作用をモデル化する。
本稿では,映像とアクションを共有物理トークンに統合し,離散映像生成と連続ロボット制御のギャップを埋めるマルチモーダル連続表現を提案する。
論文 参考訳(メタデータ) (2026-02-18T14:58:18Z) - PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis [52.905353023326306]
物理的に妥当で多様な実演を合成し、効率的な世界モデルを学ぶためのフレームワークであるPhysWorldを提案する。
実験により、PhysWorldは、最新の最先端手法、すなわちPhysTwinよりも47倍高速な推論速度を実現しつつ、競争性能を持つことが示された。
論文 参考訳(メタデータ) (2025-10-24T13:25:39Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。