論文の概要: Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online
Videos
- arxiv url: http://arxiv.org/abs/2206.11795v1
- Date: Thu, 23 Jun 2022 16:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 13:17:58.898332
- Title: Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online
Videos
- Title(参考訳): Video PreTraining (VPT):未ラベルオンラインビデオの視聴による行動学習
- Authors: Bowen Baker, Ilge Akkaya, Peter Zhokhov, Joost Huizinga, Jie Tang,
Adrien Ecoffet, Brandon Houghton, Raul Sampedro, Jeff Clune
- Abstract要約: 我々は、半自明な模倣学習を通じて、インターネット規模の事前学習パラダイムをシーケンシャルな決定領域に拡張する。
この動作先行はゼロショット機能を有しておらず、模倣学習と強化学習の両方で微調整可能であることを示す。
多くのタスクにおいて、私たちのモデルは人間レベルのパフォーマンスを示しており、ダイアモンドツールを作れるコンピュータエージェントを最初に報告しています。
- 参考スコア(独自算出の注目度): 16.858980871368175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining on noisy, internet-scale datasets has been heavily studied as a
technique for training models with broad, general capabilities for text,
images, and other modalities. However, for many sequential decision domains
such as robotics, video games, and computer use, publicly available data does
not contain the labels required to train behavioral priors in the same way. We
extend the internet-scale pretraining paradigm to sequential decision domains
through semi-supervised imitation learning wherein agents learn to act by
watching online unlabeled videos. Specifically, we show that with a small
amount of labeled data we can train an inverse dynamics model accurate enough
to label a huge unlabeled source of online data -- here, online videos of
people playing Minecraft -- from which we can then train a general behavioral
prior. Despite using the native human interface (mouse and keyboard at 20Hz),
we show that this behavioral prior has nontrivial zero-shot capabilities and
that it can be fine-tuned, with both imitation learning and reinforcement
learning, to hard-exploration tasks that are impossible to learn from scratch
via reinforcement learning. For many tasks our models exhibit human-level
performance, and we are the first to report computer agents that can craft
diamond tools, which can take proficient humans upwards of 20 minutes (24,000
environment actions) of gameplay to accomplish.
- Abstract(参考訳): ノイズの多いインターネットスケールのデータセットを事前学習することは、テキスト、画像、その他のモダリティの幅広い一般的な能力を持つモデルをトレーニングするための技術として、非常に研究されている。
しかしながら、ロボット工学、ビデオゲーム、コンピュータ利用といった多くのシーケンシャルな決定領域では、公開データは、行動の事前を同じ方法で訓練するために必要なラベルを含まない。
我々は,インターネット規模の事前学習パラダイムを準教師付き模倣学習を通じて逐次決定ドメインに拡張し,エージェントはオンラインのラベルなし動画を視聴することで行動することを学ぶ。
具体的には、少量のラベル付きデータによって、オンラインデータの巨大なラベル付けされていないソース(ここではMinecraftをプレイしている人々のオンラインビデオ)をラベル付けするのに十分な正確な逆ダイナミクスモデルをトレーニングできることを示します。
ネイティブなヒューマンインタフェース(マウスとキーボードは20Hz)を用いているにもかかわらず、この動作は、非自明なゼロショット能力を持ち、模倣学習と強化学習の両方で微調整が可能で、強化学習によってゼロから学習できないハード探索タスクまでできることを示す。
多くのタスクにおいて、我々のモデルは人間レベルのパフォーマンスを示しており、私たちはダイヤモンドツールを作ることができるコンピュータエージェントを最初に報告します。
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Learning to Play by Imitating Humans [8.209859328381269]
遠隔操作型プレイデータ上での自己監督制御により,多様なスキルの獲得が可能であることを示す。
比較的少量の人間の遊びに対して行動的クローン化ポリシーを訓練することにより、我々は大量のクローン化プレイデータを自律的に生成する。
この拡張データセットでトレーニングされた汎用目標条件ポリシーは、本来の人的データでトレーニングされた政策よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-06-11T23:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。