論文の概要: Towards Learning to Imitate from a Single Video Demonstration
- arxiv url: http://arxiv.org/abs/1901.07186v4
- Date: Wed, 12 Jul 2023 19:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 18:02:47.859663
- Title: Towards Learning to Imitate from a Single Video Demonstration
- Title(参考訳): 一つのデモ映像から模倣する学習に向けて
- Authors: Glen Berseth, Florian Golemo, Christopher Pal
- Abstract要約: 我々は,映像観察を模倣して学習できる強化学習エージェントを開発した。
我々は、Siameseリカレントニューラルネットワークアーキテクチャを使用して、モーションクリップ間の空間と時間における報酬を学習する。
シミュレーションされたヒューマノイド, 犬, ラプターエージェントを2D, 四足歩行, ヒューマノイドを3Dで示す。
- 参考スコア(独自算出の注目度): 11.15358253586118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents that can learn to imitate given video observation -- \emph{without
direct access to state or action information} are more applicable to learning
in the natural world. However, formulating a reinforcement learning (RL) agent
that facilitates this goal remains a significant challenge. We approach this
challenge using contrastive training to learn a reward function comparing an
agent's behaviour with a single demonstration. We use a Siamese recurrent
neural network architecture to learn rewards in space and time between motion
clips while training an RL policy to minimize this distance. Through
experimentation, we also find that the inclusion of multi-task data and
additional image encoding losses improve the temporal consistency of the
learned rewards and, as a result, significantly improves policy learning. We
demonstrate our approach on simulated humanoid, dog, and raptor agents in 2D
and a quadruped and a humanoid in 3D. We show that our method outperforms
current state-of-the-art techniques in these environments and can learn to
imitate from a single video demonstration.
- Abstract(参考訳): 与えられたビデオ観察を模倣することを学ぶことができるエージェント -- \emph{without direct access to state or action information]は、自然界での学習にもっと適している。
しかし、この目標を促進する強化学習(RL)エージェントの定式化は依然として大きな課題である。
我々は,エージェントの行動と1つのデモンストレーションを比較する報酬関数を学ぶために,対照的なトレーニングを用いてこの課題にアプローチする。
この距離を最小化するためにRLポリシーをトレーニングしながら、Siameseリカレントニューラルネットワークアーキテクチャを使用して、モーションクリップ間の空間と時間における報酬を学習する。
実験により,マルチタスクデータと画像エンコーディングロスの追加により,学習報酬の時間的一貫性が向上し,その結果,ポリシ学習が大幅に向上することが分かった。
2dと4倍体と3dのヒューマノイドをシミュレートしたヒューマノイド,犬,およびラプター剤に対するアプローチを実証した。
提案手法は,これらの環境下での最先端技術よりも優れており,単一のビデオデモから模倣を学べることを示す。
関連論文リスト
- MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Minimizing Human Assistance: Augmenting a Single Demonstration for Deep
Reinforcement Learning [0.0]
簡単なバーチャルリアリティーシミュレーションによって収集された1つの人間の例を用いて、RLトレーニングを支援する。
提案手法は,人間的なデモを多数生成するために,1つのデモを増強する。
人間の例から学ぶにもかかわらず、エージェントは人間レベルのパフォーマンスに制約されない。
論文 参考訳(メタデータ) (2022-09-22T19:04:43Z) - Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。
まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。
次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文 参考訳(メタデータ) (2021-09-08T17:59:01Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Self-Supervised Human Depth Estimation from Monocular Videos [99.39414134919117]
人間の深度を推定する従来の方法は、しばしば地上の真実の深度データを用いた教師あり訓練を必要とする。
本稿では,YouTubeビデオの奥行きを知ることなく,自己指導型手法を提案する。
実験により,本手法はより一般化され,野生のデータに対してより優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-07T09:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。