論文の概要: mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs
- arxiv url: http://arxiv.org/abs/2512.15692v1
- Date: Wed, 17 Dec 2025 18:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.110655
- Title: mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs
- Title(参考訳): 擬似ビデオ:VLAを超えた汎用ロボット制御のためのビデオ・アクション・モデル
- Authors: Jonas Pai, Liam Achenbach, Victoriano Montesinos, Benedek Forrai, Oier Mees, Elvis Nava,
- Abstract要約: 本稿では,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
- 参考スコア(独自算出の注目度): 5.109732854501585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prevailing Vision-Language-Action Models (VLAs) for robotic manipulation are built upon vision-language backbones pretrained on large-scale, but disconnected static web data. As a result, despite improved semantic generalization, the policy must implicitly infer complex physical dynamics and temporal dependencies solely from robot trajectories. This reliance creates an unsustainable data burden, necessitating continuous, large-scale expert data collection to compensate for the lack of innate physical understanding. We contend that while vision-language pretraining effectively captures semantic priors, it remains blind to physical causality. A more effective paradigm leverages video to jointly capture semantics and visual dynamics during pretraining, thereby isolating the remaining task of low-level control. To this end, we introduce \model, a novel Video-Action Model (VAM) that pairs a pretrained Internet-scale video model with a flow matching-based action decoder conditioned on its latent representations. The decoder serves as an Inverse Dynamics Model (IDM), generating low-level robot actions from the latent representation of video-space action plans. Our extensive evaluation shows that our approach achieves state-of-the-art performance on simulated and real-world robotic manipulation tasks, improving sample efficiency by 10x and convergence speed by 2x compared to traditional VLA architectures.
- Abstract(参考訳): ロボット操作のためのVLA(Vision-Language-Action Models)は、大規模な静的Webデータに基づいて事前訓練された視覚言語バックボーン上に構築されている。
その結果、セマンティック・ジェネレーションの改善にもかかわらず、このポリシーはロボットの軌道のみから複雑な物理力学と時間的依存を暗黙的に推論する必要がある。
この依存は、自然の物理的理解の欠如を補うために、継続的で大規模な専門家データ収集を必要とする、持続不可能なデータ負担を生み出します。
視覚言語による事前学習は意味論的先行を効果的に捉えるが、身体的因果性には目が見えないと我々は主張する。
より効果的なパラダイムは、ビデオを利用して事前トレーニング中にセマンティクスと視覚力学を共同でキャプチャし、低レベル制御の残りのタスクを分離する。
そこで本研究では,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)について紹介する。
デコーダは逆ダイナミクスモデル(IDM)として機能し、ビデオ空間のアクションプランの潜在表現から低レベルのロボットアクションを生成する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を従来のVLAアーキテクチャと比較して2倍向上することを示す。
関連論文リスト
- Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。