論文の概要: Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising
- arxiv url: http://arxiv.org/abs/2604.26694v2
- Date: Thu, 07 May 2026 11:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.265093
- Title: Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising
- Title(参考訳): 非同期デノケーションによるビデオ先行映像からの4次元世界行動モデリング
- Authors: Jun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu,
- Abstract要約: 我々は,リアルタイムなロボットアクションの実行と高忠実度4D世界合成(ビデオ+3D再構成)を単一のフレームワークで統合する,統一された4D世界モデルであるX-WAMを提案する。
X-WAMは、事前訓練されたビデオ拡散モデルの強い視覚的優位性を活用するために、マルチビューRGB-Dビデオを予測することによって未来を想像する。
非同期ノイズサンプリング(ANS)は、生成品質と動作復号効率を共同で最適化する。
- 参考スコア(独自算出の注目度): 22.899605451385824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose X-WAM, a Unified 4D World Model that unifies real-time robotic action execution and high-fidelity 4D world synthesis (video + 3D reconstruction) in a single framework, addressing the critical limitations of prior unified world models (e.g., UWM) that only model 2D pixel-space and fail to balance action efficiency and world modeling quality. To leverage the strong visual priors of pretrained video diffusion models, X-WAM imagines the future world by predicting multi-view RGB-D videos, and obtains spatial information efficiently through a lightweight structural adaptation: replicating the final few blocks of the pretrained Diffusion Transformer into a dedicated depth prediction branch for the reconstruction of future spatial information. Moreover, we propose Asynchronous Noise Sampling (ANS) to jointly optimize generation quality and action decoding efficiency. ANS applies a specialized asynchronous denoising schedule during inference, which rapidly decodes actions with fewer steps to enable efficient real-time execution, while dedicating the full sequence of steps to generate high-fidelity video. Rather than entirely decoupling the timesteps during training, ANS samples from their joint distribution to align with the inference distribution. Pretrained on over 5,800 hours of robotic data, X-WAM achieves 79.2% and 90.7% average success rate on RoboCasa and RoboTwin 2.0 benchmarks, while producing high-fidelity 4D reconstruction and generation surpassing existing methods in both visual and geometric metrics.
- Abstract(参考訳): 実時間ロボットアクションの実行と高忠実度4Dワールドシンセシス(ビデオ+3D再構成)を単一のフレームワークで統合する統一4DワールドモデルであるX-WAMを提案する。
X-WAMは、事前学習したビデオ拡散モデルの強い視覚的先行性を活用するため、マルチビューのRGB-D動画を予測して未来を想像し、軽量な構造的適応により空間情報を効率的に取得する。
さらに、生成品質と動作復号効率を協調的に最適化する非同期ノイズサンプリング(ANS)を提案する。
ANSは推論中に特別な非同期denoisingスケジュールを適用し、より少ないステップでアクションを高速にデコードし、効率的なリアルタイム実行を可能にします。
トレーニング中のタイムステップを完全に切り離すのではなく、ANSは共同分布から推論分布に合わせてサンプルをサンプリングする。
5800時間以上のロボットデータに基づいて、X-WAMはRoboCasaとRoboTwin 2.0のベンチマークで平均79.2%と90.7%の成功率を達成した。
関連論文リスト
- Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory [53.39687409541093]
Matrix-Game 3.0は、720pのリアルタイムビデオ生成用に設計されたメモリ拡張型インタラクティブワールドモデルである。
データ、モデル、推論にまたがる体系的な改善を導入する。
実験結果から, Matrix-Game 3.0は最大40FPSのリアルタイム生成を実現し, 5Bモデルで720pの解像度を実現した。
論文 参考訳(メタデータ) (2026-04-10T06:00:09Z) - Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning [18.397872306430006]
アクションコンディショニングされたロボットワールドモデルは、ロボットアクションシーケンスが与えられた操作されたシーンの将来のビデオフレームを生成する。
これらのモデルは、短時間の予測に最適化され、自動回帰的にデプロイされたときに分解される。
我々は,自己回帰的なロールアウトで世界モデルを訓練する強化学習スキームを導入する。
論文 参考訳(メタデータ) (2026-03-26T17:36:08Z) - DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control [16.562259973551786]
本稿では,ビデオ拡散変換器とアクション拡散変換器を結合したエンドツーエンドのビデオ・アクション・モデルであるDiT4DiTを紹介する。
DiT4DiTは、再構成後のフレームに頼る代わりに、ビデオ生成プロセスから中間的なデノイング機能を抽出する。
これは最先端の結果を達成し、LIBEROでは98.6%、RoboCasa GR1では50.8%という平均的な成功率に達した。
論文 参考訳(メタデータ) (2026-03-11T06:03:53Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving [26.379817613036597]
CVD-STORMは時空間再構成変分オートエンコーダ(VAE)を利用したクロスビュービデオ拡散モデルである
提案手法は,まず補助的な4次元再構成タスクでVAEを微調整し,その3次元構造と時間的ダイナミクスをエンコードする能力を向上する。
実験結果から,FIDとFVDの両指標の精度向上が得られた。
論文 参考訳(メタデータ) (2025-10-09T08:41:58Z) - 4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming [52.76837132019501]
本稿では,新しい階層型4D圧縮フレームワークである4DGCProを紹介する。
4DGCProは、プログレッシブボリュームビデオストリーミングによるリアルタイムモバイルデコーディングと高品質なレンダリングを容易にする。
エンドツーエンドのエントロピー最適化トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:38:17Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。