論文の概要: AMPLIFY: Actionless Motion Priors for Robot Learning from Videos
- arxiv url: http://arxiv.org/abs/2506.14198v1
- Date: Tue, 17 Jun 2025 05:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.341118
- Title: AMPLIFY: Actionless Motion Priors for Robot Learning from Videos
- Title(参考訳): AMPLIFY:ビデオから学ぶロボットのためのアクションレス動作優先
- Authors: Jeremy A. Collins, Loránd Cheng, Kunal Aneja, Albert Wilcox, Benjamin Joffe, Animesh Garg,
- Abstract要約: AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。
我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。
下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
- 参考スコア(独自算出の注目度): 29.799207502031496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action-labeled data for robotics is scarce and expensive, limiting the generalization of learned policies. In contrast, vast amounts of action-free video data are readily available, but translating these observations into effective policies remains a challenge. We introduce AMPLIFY, a novel framework that leverages large-scale video data by encoding visual dynamics into compact, discrete motion tokens derived from keypoint trajectories. Our modular approach separates visual motion prediction from action inference, decoupling the challenges of learning what motion defines a task from how robots can perform it. We train a forward dynamics model on abundant action-free videos and an inverse dynamics model on a limited set of action-labeled examples, allowing for independent scaling. Extensive evaluations demonstrate that the learned dynamics are both accurate, achieving up to 3.7x better MSE and over 2.5x better pixel prediction accuracy compared to prior approaches, and broadly useful. In downstream policy learning, our dynamics predictions enable a 1.2-2.2x improvement in low-data regimes, a 1.4x average improvement by learning from action-free human videos, and the first generalization to LIBERO tasks from zero in-distribution action data. Beyond robotic control, we find the dynamics learned by AMPLIFY to be a versatile latent world model, enhancing video prediction quality. Our results present a novel paradigm leveraging heterogeneous data sources to build efficient, generalizable world models. More information can be found at https://amplify-robotics.github.io/.
- Abstract(参考訳): ロボット工学のためのアクションラベル付きデータは乏しく高価であり、学習ポリシーの一般化を制限している。
対照的に、大量のアクションフリービデオデータが容易に利用可能であるが、これらの観察結果を効果的なポリシーに翻訳することは依然として課題である。
AMPLIFYは、視覚力学をキーポイント軌道から導出される離散的な動きトークンに符号化することで、大規模ビデオデータを活用する新しいフレームワークである。
私たちのモジュラーアプローチは、視覚的な動きの予測をアクション推論から切り離し、ロボットがタスクをどのように実行できるかから、どの動きがタスクを定義するかを学ぶという課題を分離します。
我々は、豊富なアクションフリービデオのフォワードダイナミクスモデルと、限定されたアクションラベル付き例の逆ダイナミクスモデルをトレーニングし、独立的なスケーリングを可能にした。
大規模な評価では、学習されたダイナミクスはどちらも正確であり、MSEの最大3.7倍、ピクセル予測の精度は以前のアプローチに比べて2.5倍に向上し、広範囲に有用であることが示されている。
下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
ロボット制御以外にも、AMPLIFYが学習したダイナミックスは多用途の潜在世界モデルであり、ビデオ予測の品質を向上させる。
本研究は、異種データを利用した効率的で一般化可能な世界モデル構築のための新しいパラダイムを提案する。
詳細はhttps://amplify-robotics.github.io/で確認できる。
関連論文リスト
- Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。