論文の概要: GaussianDream: A Feed-Forward 3D Gaussian World Model for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2605.20752v2
- Date: Thu, 28 May 2026 12:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.515501
- Title: GaussianDream: A Feed-Forward 3D Gaussian World Model for Robotic Manipulation
- Title(参考訳): GaussianDream:ロボットマニピュレーションのためのフィードフォワード3次元ガウス世界モデル
- Authors: Zijian Zhang, Yuqing Jiang, Qian Cheng, Xiaofan Li, Si Liu, Ding Zhao, Ping Luo, Weitao Zhou, Haibao Yu,
- Abstract要約: 視覚言語アクション(VLA)ポリシーは、セマンティック先行をアクション生成に転送することで、言語条件のロボット操作を進化させた。
標準的な行動模倣学習は、しばしば明示的な3次元空間情報、密集した幾何学的監督、将来の環境進化の十分なモデリングを欠いている。
フィードフォワード3Dガウス世界モデルプラグインである textbfGaussianDream を提案する。
- 参考スコア(独自算出の注目度): 54.671815855499034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) policies have advanced language-conditioned robotic manipulation by transferring semantic priors from pretrained vision-language models to action generation. However, standard action-imitation learning often lacks sufficient modeling of explicit 3D spatial information, dense geometric supervision, and future environment evolution, all critical for precise robotic interaction. To address this, we propose \textbf{GaussianDream}, a feed-forward 3D Gaussian world-model plug-in. Specifically, we introduce learnable GaussianDream Queries in the encoder, enabling the model to capture current-frame 3D spatial structure and short-horizon future evolution. During training, the latent GaussianDream prefix is processed by a static reconstruction head and a future prediction head to produce current 3D Gaussian scene states and future Gaussian evolution states. The current branch is supervised by RGB rendering and depth, while the future branch uses future RGB, depth, and pseudo 3D scene-flow signals. During inference, GaussianDream discards all auxiliary heads and retains only the learned prefix to condition action generation, without test-time Gaussian reconstruction or future prediction. Experimental results demonstrate that GaussianDream achieves state-of-the-art performance across multiple robotic manipulation benchmarks, reaching \textbf{98.4\%} on LIBERO, \textbf{54.8\%} on RoboCasa Human-50, and \textbf{50.0\%} on real-robot tasks. Compared with existing 3D-enhanced VLA methods, GaussianDream achieves strong accuracy while providing higher inference efficiency than video-based world-model approaches.
- Abstract(参考訳): ビジョン言語アクション(VLA)ポリシーは、事前訓練されたビジョン言語モデルからアクション生成へのセマンティック事前の転送によって、言語条件のロボット操作を進化させた。
しかし、標準的なアクション・シミュレーション学習には、明快な3次元空間情報、密集した幾何学的監督、将来の環境進化のモデリングが欠如していることが多い。
これを解決するために,フィードフォワード3Dガウス世界モデルプラグインである \textbf{GaussianDream} を提案する。
具体的には,学習可能なGaussianDream Queriesをエンコーダに導入し,現在の3次元空間構造と短期的未来進化をモデルとして捉えた。
トレーニング中、潜伏したGaussianDreamプレフィックスは静的再構成ヘッドと将来の予測ヘッドによって処理され、現在の3Dガウスシーン状態と将来のガウス進化状態を生成する。
現在のブランチはRGBレンダリングと深さで管理され、将来のブランチは将来のRGB、深さ、擬似3Dシーンフロー信号を使用する。
推論中、GaussianDreamはすべての補助ヘッドを破棄し、テストタイムのガウス再構成や将来の予測なしに、条件アクション生成のための学習したプレフィックスのみを保持する。
GaussianDreamは、複数のロボット操作ベンチマークで最先端のパフォーマンスを実現し、LIBEROでは \textbf{98.4\%}、RoboCasa Human-50では \textbf{54.8\%}、実ロボットタスクでは \textbf{50.0\%} に達した。
既存の3DエンハンスドVLA法と比較すると,GaussianDreamはビデオベースのワールドモデル手法よりも推論効率が高い。
関連論文リスト
- V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors [30.872127145725187]
V-Dreamerは、オープン語彙でシミュレーション可能な操作環境を生成する、完全に自動化されたフレームワークである。
V-Dreamerは、物理的に接地された3Dシーンを構成する新しい生成パイプラインを使用している。
我々は,本ポリシーがシミュレーションにおいて未確認オブジェクトに対して堅牢に一般化し,効率的なsim-to-real転送を実現することを示す。
論文 参考訳(メタデータ) (2026-03-19T12:00:04Z) - Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation [53.09168514034483]
バイマン操作は3次元幾何学を推論し、動作中にどのように進化するかを予測し、滑らかで協調された動きを生成するポリシーを必要とする。
本稿では,事前学習した3次元幾何学的基礎モデルに基づいて,バイマン操作を直接構築するフレームワークを提案する。
我々の政策は、幾何学的認識の潜伏子、2次元意味的特徴、およびプロプレセプションを統一状態表現に融合させ、拡散モデルを用いて将来のアクションチャンクと、密度の高いポイントマップにデコードする未来の3次元潜伏子を共同で予測する。
論文 参考訳(メタデータ) (2026-02-27T08:54:20Z) - FlowHOI: Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation [23.19464039872024]
FlowHOIは、時間的にコヒーレントなHOIシーケンスを生成するフローマッチングフレームワークである。
本研究では,FlowHOIが最も高い動作認識精度と1.7$times$高い物理シミュレーション成功率を達成することを示す。
論文 参考訳(メタデータ) (2026-02-13T20:46:08Z) - GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。
シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文 参考訳(メタデータ) (2025-08-25T02:01:09Z) - ManiTrend: Bridging Future Generation and Action Prediction with 3D Flow for Robotic Manipulation [11.233768932957771]
3次元流れは、シーン内の3次元粒子の動きの傾向を表す。
ManiTrendは3D粒子、視覚観察、操作動作のダイナミクスをモデル化する統合フレームワークである。
提案手法は最先端の性能を高い効率で達成する。
論文 参考訳(メタデータ) (2025-02-14T09:13:57Z) - GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction [67.81475355852997]
3次元占有予測は、周囲の包括的認識のため、自動運転にとって重要である。
本研究では、シーンの進化を知覚に利用するための世界モデルに基づくフレームワークを提案する。
我々のフレームワークは、追加の計算を導入することなく、mIoUの単一フレームの性能を2%以上向上させる。
論文 参考訳(メタデータ) (2024-12-13T18:59:54Z) - Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。
初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文 参考訳(メタデータ) (2023-07-17T04:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。