論文の概要: Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data
- arxiv url: http://arxiv.org/abs/2012.08824v1
- Date: Wed, 16 Dec 2020 09:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 08:36:13.179097
- Title: Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data
- Title(参考訳): 映像データからの潜在的リワードシェーピングとデモによる実行学習
- Authors: Aleksandra Malysheva, Daniel Kudenko, Aleksei Shpilman
- Abstract要約: 「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
- 参考スコア(独自算出の注目度): 70.540936204654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to produce efficient movement behaviour for humanoid robots from
scratch is a hard problem, as has been illustrated by the "Learning to run"
competition at NIPS 2017. The goal of this competition was to train a
two-legged model of a humanoid body to run in a simulated race course with
maximum speed. All submissions took a tabula rasa approach to reinforcement
learning (RL) and were able to produce relatively fast, but not optimal running
behaviour. In this paper, we demonstrate how data from videos of human running
(e.g. taken from YouTube) can be used to shape the reward of the humanoid
learning agent to speed up the learning and produce a better result.
Specifically, we are using the positions of key body parts at regular time
intervals to define a potential function for potential-based reward shaping
(PBRS). Since PBRS does not change the optimal policy, this approach allows the
RL agent to overcome sub-optimalities in the human movements that are shown in
the videos.
We present experiments in which we combine selected techniques from the top
ten approaches from the NIPS competition with further optimizations to create
an high-performing agent as a baseline. We then demonstrate how video-based
reward shaping improves the performance further, resulting in an RL agent that
runs twice as fast as the baseline in 12 hours of training. We furthermore show
that our approach can overcome sub-optimal running behaviour in videos, with
the learned policy significantly outperforming that of the running agent from
the video.
- Abstract(参考訳): nips 2017の"learning to run"コンペティションで示されているように、ヒューマノイドロボットをスクラッチから効率的に動作させるための学習は難しい問題である。
この競技の目的は、最大速度でシミュレートされたレースコースを走るヒューマノイドボディの2本足のモデルを訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本稿では,人間の動画(例えば,動画)からのデータについて述べる。
youtubeから引用)は、ヒューマノイド学習エージェントの報酬を形作り、学習をスピードアップさせ、より良い結果を生み出すために使用できる。
具体的には、鍵体部分の位置を一定時間間隔で使用して、ポテンシャルベース報酬形成(PBRS)のポテンシャル関数を定義する。
PBRSは最適なポリシーを変更しないため、このアプローチにより、RLエージェントはビデオで示されている人間の動きの準最適性を克服することができる。
我々は,nipsコンペティションにおけるトップ10アプローチから選択した手法と,ベースラインとして高性能エージェントを作成するためのさらなる最適化を組み合わせる実験を行った。
そして、ビデオベースの報酬形成によってさらにパフォーマンスが向上し、12時間のトレーニングでベースラインの2倍の速度でRLエージェントが実行されることを示す。
さらに,本手法は,動画のランニングエージェントよりも学習ポリシーが優れており,映像の準最適ランニング動作を克服できることを示す。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Chrome Dino Run using Reinforcement Learning [0.0]
我々は,Chrome Dino Runをプレイするエージェントをトレーニングするために,畳み込みニューラルネットワークとともに,最も人気のあるモデル強化学習アルゴリズムについて検討した。
我々は、Deep Q-Learning(深層Q-Learning)とPre expecteded SARSA(SARSA)という2つの時間差分アプローチを使用し、エージェントを訓練するためにDouble DQNモデルを実装した。
論文 参考訳(メタデータ) (2020-08-15T22:18:20Z) - Curriculum Learning for Recurrent Video Object Segmentation [2.3376061255029064]
本研究は,繰り返しアーキテクチャの性能を著しく向上させるため,異なるスケジュールサンプリングとフレームスキップのバリエーションについて検討する。
KITTI-MOTS チャレンジのカークラスにおける結果から, 意外なことに, 逆スケジュールサンプリングの方が, 従来のフォワードよりも優れた選択肢であることが示唆された。
論文 参考訳(メタデータ) (2020-08-15T10:51:22Z) - Dynamic Experience Replay [6.062589413216726]
我々は, Ape-X DDPG を基盤として, ロボットによるタイトな組立作業へのアプローチを実証する。
特に、ペグ・イン・ホール(peg-in-hole)とラップ・ジョイント( lap-joint)という2つの異なるタスクで実験を行う。
私たちのアブレーション研究は、ダイナミックエクスペリエンス・リプレイが、これらの困難な環境でのトレーニング時間を大幅に短縮する重要な要素であることを示しています。
論文 参考訳(メタデータ) (2020-03-04T23:46:45Z) - Towards Learning to Imitate from a Single Video Demonstration [11.15358253586118]
我々は,映像観察を模倣して学習できる強化学習エージェントを開発した。
我々は、Siameseリカレントニューラルネットワークアーキテクチャを使用して、モーションクリップ間の空間と時間における報酬を学習する。
シミュレーションされたヒューマノイド, 犬, ラプターエージェントを2D, 四足歩行, ヒューマノイドを3Dで示す。
論文 参考訳(メタデータ) (2019-01-22T06:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。