論文の概要: ChronoDreamer: Action-Conditioned World Model as an Online Simulator for Robotic Planning
- arxiv url: http://arxiv.org/abs/2512.18619v1
- Date: Sun, 21 Dec 2025 06:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.426341
- Title: ChronoDreamer: Action-Conditioned World Model as an Online Simulator for Robotic Planning
- Title(参考訳): ChronoDreamer: ロボット計画のためのオンラインシミュレータとしてのアクションコンディション世界モデル
- Authors: Zhenhao Zhou, Dan Negrut,
- Abstract要約: ChronoDreamerは、コンタクトリッチなロボット操作のためのアクションコンディション付き世界モデルである。
コンタクトは、奥行き重み付けされたガウスのスプラット画像としてエンコードされ、3Dの力をカメラ対応のフォーマットに描画する。
本モデルは,非接触動作時の空間コヒーレンスを保ち,高い接触予測を生成する。
- 参考スコア(独自算出の注目度): 1.6453685972661827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ChronoDreamer, an action-conditioned world model for contact-rich robotic manipulation. Given a history of egocentric RGB frames, contact maps, actions, and joint states, ChronoDreamer predicts future video frames, contact distributions, and joint angles via a spatial-temporal transformer trained with MaskGIT-style masked prediction. Contact is encoded as depth-weighted Gaussian splat images that render 3D forces into a camera-aligned format suitable for vision backbones. At inference, predicted rollouts are evaluated by a vision-language model that reasons about collision likelihood, enabling rejection sampling of unsafe actions before execution. We train and evaluate on DreamerBench, a simulation dataset generated with Project Chrono that provides synchronized RGB, contact splat, proprioception, and physics annotations across rigid and deformable object scenarios. Qualitative results demonstrate that the model preserves spatial coherence during non-contact motion and generates plausible contact predictions, while the LLM-based judge distinguishes collision from non-collision trajectories.
- Abstract(参考訳): 我々はコンタクトリッチなロボット操作のための行動条件付き世界モデルであるChronoDreamerを紹介する。
エゴセントリックなRGBフレーム、コンタクトマップ、アクション、関節状態の履歴が与えられたChronoDreamerは、将来のビデオフレーム、コンタクト分布、関節角をMaskGITスタイルのマスク付き予測で訓練された時空間変換器を介して予測する。
コンタクトは、奥行き重み付けされたガウスのスプレート画像としてエンコードされ、3D力を視覚バックボーンに適したカメラ整列フォーマットに描画する。
予測されたロールアウトは、衝突の可能性について推論した視覚言語モデルにより評価され、実行前に安全でない動作の拒否サンプリングを可能にする。
我々は、Project Chronoで生成されたシミュレーションデータセットであるDreamerBenchをトレーニングし、評価する。
定性的な結果は,非接触運動時の空間的コヒーレンスを保ち,接触予測が妥当であることを示し,LCMに基づく判断は非衝突軌道との衝突を区別する。
関連論文リスト
- Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。
MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。
MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文 参考訳(メタデータ) (2025-11-17T02:17:04Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - COPILOT: Human-Environment Collision Prediction and Localization from
Egocentric Videos [62.34712951567793]
エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。
本稿では、ボディマウントカメラから撮影した多視点エゴセントリックビデオから、多様な環境における衝突を予測するという課題を紹介する。
衝突予測と局所化を同時に行うために,COPILOTと呼ばれるトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-04T17:49:23Z) - Object Rearrangement Using Learned Implicit Collision Functions [61.90305371998561]
本研究では,シーン内の6DOFオブジェクトのポーズに対して,シーンとクエリ対象点の雲を受け付け,衝突を予測できる学習的衝突モデルを提案する。
我々は,テーブルトップ再構成タスクにおけるモデル予測経路積分(MPPI)ポリシーの一部として,学習された衝突モデルを活用する。
学習モデルは従来のパイプラインよりも優れており、シミュレーションされた衝突クエリのデータセット上では9.8%の精度で学習精度が向上している。
論文 参考訳(メタデータ) (2020-11-21T05:36:06Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。