論文の概要: GWM: Towards Scalable Gaussian World Models for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2508.17600v1
- Date: Mon, 25 Aug 2025 02:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.600656
- Title: GWM: Towards Scalable Gaussian World Models for Robotic Manipulation
- Title(参考訳): GWM:ロボットマニピュレーションのためのスケーラブルなガウス世界モデルを目指して
- Authors: Guanxing Lu, Baoxiong Jia, Puhao Li, Yixin Chen, Ziwei Wang, Yansong Tang, Siyuan Huang,
- Abstract要約: 本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。
シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
- 参考スコア(独自算出の注目度): 53.51622803589185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training robot policies within a learned world model is trending due to the inefficiency of real-world interactions. The established image-based world models and policies have shown prior success, but lack robust geometric information that requires consistent spatial and physical understanding of the three-dimensional world, even pre-trained on internet-scale video sources. To this end, we propose a novel branch of world model named Gaussian World Model (GWM) for robotic manipulation, which reconstructs the future state by inferring the propagation of Gaussian primitives under the effect of robot actions. At its core is a latent Diffusion Transformer (DiT) combined with a 3D variational autoencoder, enabling fine-grained scene-level future state reconstruction with Gaussian Splatting. GWM can not only enhance the visual representation for imitation learning agent by self-supervised future prediction training, but can serve as a neural simulator that supports model-based reinforcement learning. Both simulated and real-world experiments depict that GWM can precisely predict future scenes conditioned on diverse robot actions, and can be further utilized to train policies that outperform the state-of-the-art by impressive margins, showcasing the initial data scaling potential of 3D world model.
- Abstract(参考訳): 学習された世界モデル内のロボットポリシーのトレーニングは、現実世界の相互作用の非効率性のためにトレンドになっている。
確立された画像ベースの世界モデルとポリシーは、先行的な成功を示しているが、インターネット規模のビデオソースで事前訓練されたとしても、3次元世界に対する一貫した空間的および物理的理解を必要とする、堅牢な幾何学的情報は欠如している。
そこで本研究では,ガウス的世界モデル(GWM)と呼ばれる世界モデルの新たなブランチを提案し,ガウス的プリミティブの伝播をロボット行動の影響下で推定することにより,未来状態を再構築する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、ガウス・スプラッティングによる微粒なシーンレベルの将来の状態復元を可能にする。
GWMは、自己教師付き将来の予測トレーニングによって模倣学習エージェントの視覚的表現を強化するだけでなく、モデルベースの強化学習をサポートする神経シミュレータとしても機能する。
シミュレーションと実世界の両方の実験は、GWMが様々なロボットアクションで条件付けられた未来のシーンを正確に予測でき、さらに3Dワールドモデルの初期データスケーリングの可能性を示す印象的なマージンによって最先端技術を上回るポリシーの訓練に活用できることを示している。
関連論文リスト
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - Pre-training Auto-regressive Robotic Models with 4D Representations [43.80798244473759]
ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。
実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
論文 参考訳(メタデータ) (2025-02-18T18:59:01Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination [25.62602420895531]
DreMaは、実世界の学習された明示的な表現とそのダイナミクスを使って、デジタル双生児を構築するための新しいアプローチである。
DreMaはタスク毎の1つの例から新しい物理タスクを学べることを示す。
論文 参考訳(メタデータ) (2024-12-19T15:38:15Z) - Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling [10.247075501610492]
マルチビューRGBビデオからオブジェクトダイナミクスを直接学習するフレームワークを導入する。
グラフニューラルネットワークを用いて粒子ベース力学モデルを訓練する。
本手法は,初期設定の異なる物体の動きやロボットの動作を予測できる。
論文 参考訳(メタデータ) (2024-10-24T17:02:52Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文 参考訳(メタデータ) (2023-03-06T18:59:09Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。