論文の概要: DRAW2ACT: Turning Depth-Encoded Trajectories into Robotic Demonstration Videos
- arxiv url: http://arxiv.org/abs/2512.14217v1
- Date: Tue, 16 Dec 2025 09:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.653107
- Title: DRAW2ACT: Turning Depth-Encoded Trajectories into Robotic Demonstration Videos
- Title(参考訳): DRAW2ACT:深度エンコードされた軌道をロボットデモビデオに変える
- Authors: Yang Bai, Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Ziyuan Liu, Gitta Kutyniok,
- Abstract要約: ビデオモデルは、組み込みAIのための強力な現実世界シミュレータを提供するが、ロボット操作の制御性には制限がある。
入力軌跡から複数の表現を抽出するトラジェクトリ条件付きビデオ生成フレームワークであるDRAW2ACTを提案する。
DRAW2ACTは、既存のベースラインよりも高い操作成功率を示しながら、より優れた視覚的忠実度と一貫性を実現する。
- 参考スコア(独自算出の注目度): 24.681248200255975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video diffusion models provide powerful real-world simulators for embodied AI but remain limited in controllability for robotic manipulation. Recent works on trajectory-conditioned video generation address this gap but often rely on 2D trajectories or single modality conditioning, which restricts their ability to produce controllable and consistent robotic demonstrations. We present DRAW2ACT, a depth-aware trajectory-conditioned video generation framework that extracts multiple orthogonal representations from the input trajectory, capturing depth, semantics, shape and motion, and injects them into the diffusion model. Moreover, we propose to jointly generate spatially aligned RGB and depth videos, leveraging cross-modality attention mechanisms and depth supervision to enhance the spatio-temporal consistency. Finally, we introduce a multimodal policy model conditioned on the generated RGB and depth sequences to regress the robot's joint angles. Experiments on Bridge V2, Berkeley Autolab, and simulation benchmarks show that DRAW2ACT achieves superior visual fidelity and consistency while yielding higher manipulation success rates compared to existing baselines.
- Abstract(参考訳): ビデオ拡散モデルは、組み込みAIのための強力な現実世界シミュレータを提供するが、ロボット操作の制御性には制限がある。
トラジェクティブ条件付きビデオ生成の最近の研究は、このギャップに対処するが、しばしば2次元トラジェクトリや単一モード条件付けに依存しており、制御可能で一貫したロボットデモを作成する能力を制限する。
DRAW2ACTは深度を考慮した軌道条件付きビデオ生成フレームワークで、入力軌跡から複数の直交表現を抽出し、深度、意味、形状、動きを捉え、拡散モデルに注入する。
さらに,空間的に整合したRGBと深度映像を共同で生成し,空間的時間的整合性を高めるために,モーダリティ間の注意機構と深度監視を活用することを提案する。
最後に、生成したRGBと深度シーケンスを条件としたマルチモーダルポリシーモデルを導入し、ロボットの関節角を復元する。
Bridge V2、Berkeley Autolab、およびシミュレーションベンチマークの実験により、DRAW2ACTは、既存のベースラインよりも高い操作成功率を示しながら、優れた視覚的忠実度と一貫性を達成することが示された。
関連論文リスト
- Real-Time Motion-Controllable Autoregressive Video Diffusion [79.32730467857535]
本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
論文 参考訳(メタデータ) (2025-10-09T12:17:11Z) - PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control [67.17998939712326]
本稿では,ロボットの状態推定と制御を単一のフレームワーク内で統一する条件拡散モデルPoseDiffを提案する。
中心となるPoseDiffは、生の視覚を3Dキーポイントや関節角などの構造化されたロボットの状態にマッピングする。
この基盤の上に構築されたPoseDiffは、ビデオからアクションへの逆ダイナミクスに自然に拡張する。
論文 参考訳(メタデータ) (2025-09-29T10:55:48Z) - Pixel Motion Diffusion is What We Need for Robot Control [38.925028601732116]
DAWNは言語条件のロボット操作のための統合拡散ベースのフレームワークである。
高レベルの動き意図と低レベルのロボット動作を、構造化されたピクセルの動き表現を介してブリッジする。
DAWNは、挑戦的なCALVINベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-26T17:59:59Z) - Vidar: Embodied Video Diffusion Model for Generalist Manipulation [28.216910600346512]
Vidarは、ほとんどのエンボディメント固有のデータを転送可能なビデオに置き換える、事前駆動のローショット適応パラダイムである。
以上の結果から,強力で安価なビデオプリエントと最小限のオンロボットアライメントという,“先行的かつ多数の実施”のためのスケーラブルなレシピが示唆された。
論文 参考訳(メタデータ) (2025-07-17T08:31:55Z) - ORV: 4D Occupancy-centric Robot Video Generation [33.360345403049685]
遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。
ORVは,4次元のセマンティック・コンカレンシー・シーケンスをきめ細かな表現として利用した,作業中心のロボットビデオ生成フレームワークである。
ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
論文 参考訳(メタデータ) (2025-06-03T17:00:32Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。