Fugu-MT 論文翻訳(概要): GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation

論文の概要: GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation

arxiv url: http://arxiv.org/abs/2605.22882v1
Date: Wed, 20 May 2026 21:36:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 17:29:20.019278
Title: GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation
Title（参考訳）: GEM-4D:ロボット操作のための幾何学的拡張ビデオワールドモデル
Authors: Kaichen Zhou, Yuzhen Chen, Fangneng Zhan, Hang Hua, Grace Chen, Xinhai Chang, Ao Qu, Yilun Du, Zhuang Liu, Paul Pu Liang, Mengyu Wang,
Abstract要約: ビデオワールドモデルは、1つの命令から現実的な未来を生成できるが、時間とともに一貫したポイントレベルの動きを維持できないことが多い。 GEM-4Dは、トレーニング中にビデオ生成バックボーンに高密度な4D対応制御を注入する幾何学的地上ビデオワールドモデルである。 Inverse dynamicsモジュールは、対応性のあるビデオロールアウトを実行可能なロボットトラジェクトリに変換し、現実世界とシミュレーション操作の両方で直接デプロイできる。
参考スコア（独自算出の注目度）: 72.52773248997929
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video world models can generate realistic futures from a single instruction, but they often fail to preserve consistent point-level motion over time. As a result, the generated videos appear plausible, yet lack the physical grounding required for reliable action execution, such as robot manipulation. We present GEM-4D, a geometry-grounded video world model that resolves this limitation by injecting dense 4D correspondence supervision, distilled from a pretrained geometry foundation model, into the video generative backbone during training. This supervision enables the model to jointly capture appearance and geometric structure while retaining a single-stream architecture with no additional inference cost. We further introduce an inverse dynamics module that converts correspondence-consistent video rollouts into executable robot trajectories, enabling direct deployment in both real-world and simulated manipulation. GEM-4D achieves state-of-the-art performance on both video prediction and geometric consistency across simulation and realistic scenarios and improves real-world manipulation success from 61% to 81%. Additional results are available at the project page: https://anonymous-submission-20.github.io/gem.github.io/.
Abstract（参考訳）: ビデオワールドモデルは、1つの命令から現実的な未来を生成できるが、時間とともに一貫したポイントレベルの動きを維持できないことが多い。その結果、生成されたビデオは可塑性に見えるが、ロボット操作のような信頼性の高いアクション実行に必要な物理的根拠は欠如している。 GEM-4Dは、トレーニング中のビデオ生成バックボーンに、事前訓練された幾何学基礎モデルから蒸留された高密度な4D対応監督を注入することにより、この制限を解消する幾何学的地上ビデオワールドモデルである。この監視により、追加の推論コストなしで単一ストリームアーキテクチャを維持しながら、外観と幾何学構造を共同でキャプチャすることができる。さらに、対応性のあるビデオロールアウトを実行可能なロボット軌道に変換する逆動的モジュールを導入し、実世界とシミュレーション操作の両方で直接展開できるようにする。 GEM-4Dは、シミュレーションや現実的なシナリオにおけるビデオ予測と幾何整合性の両方で最先端のパフォーマンスを達成し、実世界の操作成功を61%から81%に改善する。さらなる結果は、プロジェクトのページで見ることができる。

関連論文リスト

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control [16.562259973551786]
本稿では,ビデオ拡散変換器とアクション拡散変換器を結合したエンドツーエンドのビデオ・アクション・モデルであるDiT4DiTを紹介する。 DiT4DiTは、再構成後のフレームに頼る代わりに、ビデオ生成プロセスから中間的なデノイング機能を抽出する。これは最先端の結果を達成し、LIBEROでは98.6%、RoboCasa GR1では50.8%という平均的な成功率に達した。
論文参考訳（メタデータ） (2026-03-11T06:03:53Z)
VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [83.92729346325163]
VerseCrafterは、4D対応のビデオワールドモデルであり、カメラとオブジェクトのダイナミクスの両方を明示的で一貫性のある制御を可能にする。当社のアプローチは,静的な背景点雲を通じて世界状態をエンコードする,新しい4次元幾何制御表現を中心にしている。これらの4D制御は、事前訓練されたビデオ拡散モデルのための条件付け信号にレンダリングされ、高忠実でビュー一貫性のあるビデオを生成することができる。
論文参考訳（メタデータ） (2026-01-08T17:28:52Z)
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文参考訳（メタデータ） (2025-08-25T02:01:09Z)
Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。 DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文参考訳（メタデータ） (2025-08-08T21:31:51Z)
Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文参考訳（メタデータ） (2025-07-01T18:01:41Z)
TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文参考訳（メタデータ） (2024-03-26T17:55:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。