論文の概要: MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.09878v1
- Date: Tue, 10 Feb 2026 15:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.636112
- Title: MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation
- Title(参考訳): MVISTA-4D:ロボットマニピュレーションのためのテスト時間動作推論を用いたビュー一貫性4次元世界モデル
- Authors: Jiaxu Wang, Yicheng Jiang, Tianlun He, Jingkai Sun, Qiang Zhang, Junhao He, Jiahang Cao, Zesen Gan, Mingyuan Sun, Qiming Shao, Xiangyu Yue,
- Abstract要約: 本研究は,幾何学的に一貫した任意のRGBD生成が可能な,新しい4次元世界モデルを提案する。
3つのデータセットの実験は、4Dシーン生成と下流操作の両方で強いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 27.70398018267795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World-model-based imagine-then-act becomes a promising paradigm for robotic manipulation, yet existing approaches typically support either purely image-based forecasting or reasoning over partial 3D geometry, limiting their ability to predict complete 4D scene dynamics. This work proposes a novel embodied 4D world model that enables geometrically consistent, arbitrary-view RGBD generation: given only a single-view RGBD observation as input, the model imagines the remaining viewpoints, which can then be back-projected and fused to assemble a more complete 3D structure across time. To efficiently learn the multi-view, cross-modality generation, we explicitly design cross-view and cross-modality feature fusion that jointly encourage consistency between RGB and depth and enforce geometric alignment across views. Beyond prediction, converting generated futures into actions is often handled by inverse dynamics, which is ill-posed because multiple actions can explain the same transition. We address this with a test-time action optimization strategy that backpropagates through the generative model to infer a trajectory-level latent best matching the predicted future, and a residual inverse dynamics model that turns this trajectory prior into accurate executable actions. Experiments on three datasets demonstrate strong performance on both 4D scene generation and downstream manipulation, and ablations provide practical insights into the key design choices.
- Abstract(参考訳): World-model-based imagine-then-actはロボット操作において有望なパラダイムとなるが、既存のアプローチでは、純粋に画像ベースの予測や部分的な3D幾何学の推論がサポートされ、完全な4Dシーンのダイナミクスを予測する能力が制限される。
本研究は、幾何学的に一貫した任意のRGBD生成を可能にする新しい4次元世界モデルを提案する: 単一のビューRGBD観測のみを入力として与えると、モデルは残りの視点を想像し、それをバックプロジェクションして融合して、より完全な3D構造を時間をかけて組み立てることができる。
マルチビュー・クロスモダリティ生成を効果的に学習するために,RGBと深さの整合性を共同で促進し,ビュー間の幾何的アライメントを強制するクロスビュー・クロスモダリティ機能融合を明示的に設計する。
予測以外にも、生成された未来をアクションに変換することは、しばしば逆ダイナミクスによって扱われる。
提案手法は, 予測される未来に最適な軌道レベルの潜在状態を推定するために, 生成モデルを通じて逆伝搬するテスト時動作最適化手法と, この軌道を正確に実行可能な動作に変換する残差逆ダイナミクスモデルを用いて, この問題に対処する。
3つのデータセットの実験は、4Dシーンの生成と下流操作の両方で強力なパフォーマンスを示し、Ablationsは重要な設計選択に関する実践的な洞察を提供する。
関連論文リスト
- Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis [53.48281548500864]
Motion 3-to-4は、単一のモノクロビデオから高品質な4Dダイナミックオブジェクトを合成するためのフィードフォワードフレームワークである。
我々のモデルは、コンパクトな動き潜在表現を学習し、フレーム単位の軌道を予測して、時間的コヒーレントな幾何である完全なロバスト性を取り戻す。
論文 参考訳(メタデータ) (2026-01-20T18:59:48Z) - VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation [54.81449795163812]
時間的コヒーレントなロボット操作のための4次元認識型汎用VLAモデルを開発した。
視覚的特徴を抽出し, 4次元埋め込みのための3次元位置への1次元時間埋め込みを行い, クロスアテンション機構による統一視覚表現に融合する。
この枠組みの中で、デザインされた視覚アクションは、空間的に滑らかで時間的に一貫したロボット操作を共同で行う。
論文 参考訳(メタデータ) (2025-11-21T12:26:30Z) - DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - Advances in 4D Representation: Geometry, Motion, and Interaction [21.99533577912307]
コンピュータグラフィックスの高速進化サブフィールドである4次元生成と再構成について調査する。
私たちは4D表現のユニークで独特な視点から、ドメインのカバレッジを構築します。
論文 参考訳(メタデータ) (2025-10-22T05:22:20Z) - Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。
この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。
既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文 参考訳(メタデータ) (2025-07-01T18:01:41Z) - TesserAct: Learning 4D Embodied World Models [66.8519958275311]
我々は、RGB-DN(RGB、Depth、Normal)ビデオのトレーニングにより、4Dワールドモデルを学ぶ。
これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
論文 参考訳(メタデータ) (2025-04-29T17:59:30Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。