Fugu-MT 論文翻訳(概要): Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

論文の概要: Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

arxiv url: http://arxiv.org/abs/2603.16669v1
Date: Tue, 17 Mar 2026 15:36:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.378141
Title: Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation
Title（参考訳）: Kinema4D:時空間体温シミュレーションのためのキネマティック4次元世界モデリング
Authors: Mutian Xu, Tianbao Zhang, Tianqi Liu, Zhaoxi Chen, Xiaoguang Han, Ziwei Liu,
Abstract要約: Kinema4Dは、ロボットと世界の相互作用を、ロボットの正確な4D表現、すなわち環境反応の生成4Dモデリングに分解する、アクションコンディショナブルな新しい4D生成ロボットシミュレータである。初めてゼロショット転送能力を示し、次世代のエンボディドシミュレーションを進めるための高忠実度基盤を提供する。
参考スコア（独自算出の注目度）: 46.24300848525144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Simulating robot-world interactions is a cornerstone of Embodied AI. Recently, a few works have shown promise in leveraging video generations to transcend the rigid visual/physical constraints of traditional simulators. However, they primarily operate in 2D space or are guided by static environmental cues, ignoring the fundamental reality that robot-world interactions are inherently 4D spatiotemporal events that require precise interactive modeling. To restore this 4D essence while ensuring the precise robot control, we introduce Kinema4D, a new action-conditioned 4D generative robotic simulator that disentangles the robot-world interaction into: i) Precise 4D representation of robot controls: we drive a URDF-based 3D robot via kinematics, producing a precise 4D robot control trajectory. ii) Generative 4D modeling of environmental reactions: we project the 4D robot trajectory into a pointmap as a spatiotemporal visual signal, controlling the generative model to synthesize complex environments' reactive dynamics into synchronized RGB/pointmap sequences. To facilitate training, we curated a large-scale dataset called Robo4D-200k, comprising 201,426 robot interaction episodes with high-quality 4D annotations. Extensive experiments demonstrate that our method effectively simulates physically-plausible, geometry-consistent, and embodiment-agnostic interactions that faithfully mirror diverse real-world dynamics. For the first time, it shows potential zero-shot transfer capability, providing a high-fidelity foundation for advancing next-generation embodied simulation.
Abstract（参考訳）: ロボットと世界の相互作用をシミュレートすることは、Embodied AIの土台だ。近年、ビデオ世代を利用して従来のシミュレータの厳密な視覚的/物理的制約を超越することを約束する研究がいくつかある。しかし、ロボットと世界の相互作用は本質的には4次元の時空間イベントであり、正確な対話的モデリングを必要とするという基本的な現実を無視し、主に2次元空間で動作するか、静的環境の手がかりによって導かれる。ロボットの正確な制御を確保しつつ、この4Dの本質を復元するために、ロボットと世界の相互作用をアンタングルするアクション条件付き4D生成ロボットシミュレータKinema4Dを紹介します。 i) ロボット制御の精密な4D表現: URDFベースの3Dロボットをキネマティクスで駆動し、正確な4Dロボット制御軌道を生成する。二環境反応の生成的4次元モデリング: 4次元ロボット軌道を時空間視覚信号としてポイントマップに投影し、複雑な環境の反応力学を同期RGB/ポイントマップシーケンスに合成するための生成モデルを制御する。トレーニングを容易にするため,201,426件のロボットインタラクションエピソードと高品質な4Dアノテーションを組み合わせたRobo4D-200kという大規模データセットをキュレートした。大規模実験により,本手法は実世界の様々な力学を忠実に反映した物理的,幾何学的,具体的相互作用を効果的にシミュレートすることを示した。初めてゼロショット転送能力を示し、次世代のエンボディドシミュレーションを進めるための高忠実度基盤を提供する。

関連論文リスト

VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [83.92729346325163]
VerseCrafterは、4D対応のビデオワールドモデルであり、カメラとオブジェクトのダイナミクスの両方を明示的で一貫性のある制御を可能にする。当社のアプローチは,静的な背景点雲を通じて世界状態をエンコードする,新しい4次元幾何制御表現を中心にしている。これらの4D制御は、事前訓練されたビデオ拡散モデルのための条件付け信号にレンダリングされ、高忠実でビュー一貫性のあるビデオを生成することができる。
論文参考訳（メタデータ） (2026-01-08T17:28:52Z)
Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文参考訳（メタデータ） (2025-07-01T18:01:41Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Pre-training Auto-regressive Robotic Models with 4D Representations [43.80798244473759]
ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
論文参考訳（メタデータ） (2025-02-18T18:59:01Z)
4D-based Robot Navigation Using Relativistic Image Processing [0.0]
4D知覚は、時間とともに自分の位置と環境の変化を予測する可能性を提供する。相対論的画像処理を用いたロボットナビゲーションのための4次元アプローチを提案する。
論文参考訳（メタデータ） (2024-10-29T14:42:19Z)
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文参考訳（メタデータ） (2024-09-26T17:57:16Z)
Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文参考訳（メタデータ） (2022-06-16T10:45:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。