論文の概要: NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.10626v1
- Date: Thu, 13 Mar 2025 17:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:55:09.920830
- Title: NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models
- Title(参考訳): NIL: 事前学習したビデオ拡散モデルを活用するノンデータ模倣学習
- Authors: Mert Albaba, Chenhao Li, Markos Diomataris, Omid Taheri, Andreas Krause, Michael Black,
- Abstract要約: 本稿では,2次元映像から3次元モータースキルを学習する技術習得のためのデータ非依存手法を提案する。
ヒューマノイドロボットのタスクにおいて、NIL(No-data Imitation Learning)が3次元モーションキャプチャーデータに基づいてトレーニングされたベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 36.05972290909729
- License:
- Abstract: Acquiring physically plausible motor skills across diverse and unconventional morphologies-including humanoid robots, quadrupeds, and animals-is essential for advancing character simulation and robotics. Traditional methods, such as reinforcement learning (RL) are task- and body-specific, require extensive reward function engineering, and do not generalize well. Imitation learning offers an alternative but relies heavily on high-quality expert demonstrations, which are difficult to obtain for non-human morphologies. Video diffusion models, on the other hand, are capable of generating realistic videos of various morphologies, from humans to ants. Leveraging this capability, we propose a data-independent approach for skill acquisition that learns 3D motor skills from 2D-generated videos, with generalization capability to unconventional and non-human forms. Specifically, we guide the imitation learning process by leveraging vision transformers for video-based comparisons by calculating pair-wise distance between video embeddings. Along with video-encoding distance, we also use a computed similarity between segmented video frames as a guidance reward. We validate our method on locomotion tasks involving unique body configurations. In humanoid robot locomotion tasks, we demonstrate that 'No-data Imitation Learning' (NIL) outperforms baselines trained on 3D motion-capture data. Our results highlight the potential of leveraging generative video models for physically plausible skill learning with diverse morphologies, effectively replacing data collection with data generation for imitation learning.
- Abstract(参考訳): 人型ロボット、四足ロボット、動物を含む、多種多様な非伝統的な形態の物理的にもっともらしい運動技術を取得することは、キャラクターシミュレーションとロボット工学の進歩に不可欠である。
強化学習(RL)のような従来の手法はタスク固有であり、広範な報酬関数工学を必要とし、うまく一般化しない。
模倣学習は代替手段を提供するが、高品質な専門家によるデモンストレーションに大きく依存しており、非人間形態学では入手が困難である。
一方、ビデオ拡散モデルは人間からアリまで様々な形態のリアルなビデオを生成することができる。
そこで本研究では,2次元映像から3次元モータースキルを学習し,非従来型および非人間型に一般化する,データに依存しない技術習得手法を提案する。
具体的には、ビデオ埋め込み間のペアワイド距離を計算することで、映像ベースの比較に視覚変換器を活用することで、模倣学習プロセスを導出する。
また、映像符号化距離とともに、セグメント化されたビデオフレーム間の類似性を指導報酬として用いる。
本手法は,ユニークな身体構成を含む移動課題について検証する。
ヒューマノイドロボットの移動作業において、NIL(No-data Imitation Learning)が3次元モーションキャプチャーデータに基づいてトレーニングされたベースラインより優れていることを示す。
本研究は,データ収集とデータ生成を効果的に置き換えることで,データ収集を模倣学習に活用する可能性を強調した。
関連論文リスト
- VILP: Imitation Learning with Latent Video Planning [19.25411361966752]
本稿では、遅延ビデオ計画(VILP)による模倣学習を紹介する。
複数のビューから高度にタイムアラインなビデオを生成することができる。
本稿では,映像生成モデルをロボットポリシーに効果的に統合する方法の実践例を提供する。
論文 参考訳(メタデータ) (2025-02-03T19:55:57Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning by Watching: A Review of Video-based Learning Approaches for
Robot Manipulation [0.0]
最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
論文 参考訳(メタデータ) (2024-02-11T08:41:42Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - A Differentiable Recipe for Learning Visual Non-Prehensile Planar
Manipulation [63.1610540170754]
視覚的非包括的平面操作の問題に焦点をあてる。
本稿では,ビデオデコードニューラルモデルと接触力学の先行情報を組み合わせた新しいアーキテクチャを提案する。
モジュラーで完全に差別化可能なアーキテクチャは、目に見えないオブジェクトやモーションの学習専用手法よりも優れていることが分かりました。
論文 参考訳(メタデータ) (2021-11-09T18:39:45Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。