論文の概要: AMPLIFY: Actionless Motion Priors for Robot Learning from Videos
- arxiv url: http://arxiv.org/abs/2506.14198v1
- Date: Tue, 17 Jun 2025 05:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.341118
- Title: AMPLIFY: Actionless Motion Priors for Robot Learning from Videos
- Title(参考訳): AMPLIFY:ビデオから学ぶロボットのためのアクションレス動作優先
- Authors: Jeremy A. Collins, Loránd Cheng, Kunal Aneja, Albert Wilcox, Benjamin Joffe, Animesh Garg,
- Abstract要約: AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。
我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。
下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
- 参考スコア(独自算出の注目度): 29.799207502031496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action-labeled data for robotics is scarce and expensive, limiting the generalization of learned policies. In contrast, vast amounts of action-free video data are readily available, but translating these observations into effective policies remains a challenge. We introduce AMPLIFY, a novel framework that leverages large-scale video data by encoding visual dynamics into compact, discrete motion tokens derived from keypoint trajectories. Our modular approach separates visual motion prediction from action inference, decoupling the challenges of learning what motion defines a task from how robots can perform it. We train a forward dynamics model on abundant action-free videos and an inverse dynamics model on a limited set of action-labeled examples, allowing for independent scaling. Extensive evaluations demonstrate that the learned dynamics are both accurate, achieving up to 3.7x better MSE and over 2.5x better pixel prediction accuracy compared to prior approaches, and broadly useful. In downstream policy learning, our dynamics predictions enable a 1.2-2.2x improvement in low-data regimes, a 1.4x average improvement by learning from action-free human videos, and the first generalization to LIBERO tasks from zero in-distribution action data. Beyond robotic control, we find the dynamics learned by AMPLIFY to be a versatile latent world model, enhancing video prediction quality. Our results present a novel paradigm leveraging heterogeneous data sources to build efficient, generalizable world models. More information can be found at https://amplify-robotics.github.io/.
- Abstract(参考訳): ロボット工学のためのアクションラベル付きデータは乏しく高価であり、学習ポリシーの一般化を制限している。
対照的に、大量のアクションフリービデオデータが容易に利用可能であるが、これらの観察結果を効果的なポリシーに翻訳することは依然として課題である。
AMPLIFYは、視覚力学をキーポイント軌道から導出される離散的な動きトークンに符号化することで、大規模ビデオデータを活用する新しいフレームワークである。
私たちのモジュラーアプローチは、視覚的な動きの予測をアクション推論から切り離し、ロボットがタスクをどのように実行できるかから、どの動きがタスクを定義するかを学ぶという課題を分離します。
我々は、豊富なアクションフリービデオのフォワードダイナミクスモデルと、限定されたアクションラベル付き例の逆ダイナミクスモデルをトレーニングし、独立的なスケーリングを可能にした。
大規模な評価では、学習されたダイナミクスはどちらも正確であり、MSEの最大3.7倍、ピクセル予測の精度は以前のアプローチに比べて2.5倍に向上し、広範囲に有用であることが示されている。
下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
ロボット制御以外にも、AMPLIFYが学習したダイナミックスは多用途の潜在世界モデルであり、ビデオ予測の品質を向上させる。
本研究は、異種データを利用した効率的で一般化可能な世界モデル構築のための新しいパラダイムを提案する。
詳細はhttps://amplify-robotics.github.io/で確認できる。
関連論文リスト
- Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - Vidar: Embodied Video Diffusion Model for Generalist Bimanual Manipulation [21.424029706788883]
アクション推論のためのビデオ拡散(Vidar)について紹介する。
実世界の3つのロボットプラットフォームから、750Kのマルチビュービデオ上で、ビデオ拡散モデルを事前訓練する。
ロボットプラットフォーム上での人間によるデモはわずか20分で終わるが、Vidarは目に見えないタスクや背景を、強力なセマンティックな理解で一般化する。
論文 参考訳(メタデータ) (2025-07-17T08:31:55Z) - CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning [47.195002937893115]
CoMoは、多様なインターネットスケールのビデオから、より情報に富んだ連続的な動きの表現を学ぶことを目指している。
動作評価と学習指導のための2つの新しい指標を提案する。
CoMoは強力なゼロショットの一般化を示しており、以前は目に見えないビデオドメインに対して連続的な擬似アクションを生成することができる。
論文 参考訳(メタデータ) (2025-05-22T17:58:27Z) - Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。