論文の概要: Vidarc: Embodied Video Diffusion Model for Closed-loop Control
- arxiv url: http://arxiv.org/abs/2512.17661v1
- Date: Fri, 19 Dec 2025 15:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.44996
- Title: Vidarc: Embodied Video Diffusion Model for Closed-loop Control
- Title(参考訳): Vidarc:クローズドループ制御のための身体的ビデオ拡散モデル
- Authors: Yao Feng, Chendong Xiang, Xinyi Mao, Hengkai Tan, Zuyue Zhang, Shuhe Huang, Kaiwen Zheng, Haitian Liu, Hang Su, Jun Zhu,
- Abstract要約: Vidarcは、マスク付き逆ダイナミクスモデルによって強化された、新しい自己回帰的エンボディドビデオ拡散手法である。
実際のデプロイメントでは,少なくとも15%高い成功率,91%のレイテンシ削減を実現している。
また、これまで見つからなかったロボットプラットフォームにまたがる、堅牢な一般化とエラー訂正機能についても強調する。
- 参考スコア(独自算出の注目度): 33.993131517600894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic arm manipulation in data-scarce settings is a highly challenging task due to the complex embodiment dynamics and diverse contexts. Recent video-based approaches have shown great promise in capturing and transferring the temporal and physical interactions by pre-training on Internet-scale video data. However, such methods are often not optimized for the embodiment-specific closed-loop control, typically suffering from high latency and insufficient grounding. In this paper, we present Vidarc (Video Diffusion for Action Reasoning and Closed-loop Control), a novel autoregressive embodied video diffusion approach augmented by a masked inverse dynamics model. By grounding video predictions with action-relevant masks and incorporating real-time feedback through cached autoregressive generation, Vidarc achieves fast, accurate closed-loop control. Pre-trained on one million cross-embodiment episodes, Vidarc surpasses state-of-the-art baselines, achieving at least a 15% higher success rate in real-world deployment and a 91% reduction in latency. We also highlight its robust generalization and error correction capabilities across previously unseen robotic platforms.
- Abstract(参考訳): データスカース設定におけるロボットアーム操作は、複雑なエンボディメントダイナミクスと多様なコンテキストのために非常に難しい作業である。
最近のビデオベースアプローチは、インターネットスケールのビデオデータによる事前学習によって、時間的および物理的相互作用を捕捉し、転送するという大きな可能性を示している。
しかし、このような手法はしばしばエンボディメント固有のクローズドループ制御に最適化されていない。
本稿では,マスク付き逆ダイナミクスモデルにより拡張された自己回帰的エンボディドビデオ拡散手法であるVidarc(ビデオ拡散・アクション推論・クローズドループ制御)を提案する。
アクション関連マスクによる映像予測とキャッシュされた自己回帰生成によるリアルタイムフィードバックの導入により、Vidarcは高速で正確なクローズドループ制御を実現する。
100万回のクロスエボディメントエピソードで事前トレーニングされたVidarcは、最先端のベースラインを越え、現実のデプロイメントにおいて少なくとも15%高い成功率と91%のレイテンシを達成している。
また、これまで見つからなかったロボットプラットフォームにまたがる、堅牢な一般化とエラー訂正機能についても強調する。
関連論文リスト
- End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - DRAW2ACT: Turning Depth-Encoded Trajectories into Robotic Demonstration Videos [24.681248200255975]
ビデオモデルは、組み込みAIのための強力な現実世界シミュレータを提供するが、ロボット操作の制御性には制限がある。
入力軌跡から複数の表現を抽出するトラジェクトリ条件付きビデオ生成フレームワークであるDRAW2ACTを提案する。
DRAW2ACTは、既存のベースラインよりも高い操作成功率を示しながら、より優れた視覚的忠実度と一貫性を実現する。
論文 参考訳(メタデータ) (2025-12-16T09:11:36Z) - Real-Time Motion-Controllable Autoregressive Video Diffusion [79.32730467857535]
本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
論文 参考訳(メタデータ) (2025-10-09T12:17:11Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Vidar: Embodied Video Diffusion Model for Generalist Manipulation [28.216910600346512]
Vidarは、ほとんどのエンボディメント固有のデータを転送可能なビデオに置き換える、事前駆動のローショット適応パラダイムである。
以上の結果から,強力で安価なビデオプリエントと最小限のオンロボットアライメントという,“先行的かつ多数の実施”のためのスケーラブルなレシピが示唆された。
論文 参考訳(メタデータ) (2025-07-17T08:31:55Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。