論文の概要: Dynamic Experience Replay
- arxiv url: http://arxiv.org/abs/2003.02372v1
- Date: Wed, 4 Mar 2020 23:46:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 12:14:42.887706
- Title: Dynamic Experience Replay
- Title(参考訳): ダイナミックエクスペリエンスのリプレイ
- Authors: Jieliang Luo and Hui Li
- Abstract要約: 我々は, Ape-X DDPG を基盤として, ロボットによるタイトな組立作業へのアプローチを実証する。
特に、ペグ・イン・ホール(peg-in-hole)とラップ・ジョイント( lap-joint)という2つの異なるタスクで実験を行う。
私たちのアブレーション研究は、ダイナミックエクスペリエンス・リプレイが、これらの困難な環境でのトレーニング時間を大幅に短縮する重要な要素であることを示しています。
- 参考スコア(独自算出の注目度): 6.062589413216726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel technique called Dynamic Experience Replay (DER) that
allows Reinforcement Learning (RL) algorithms to use experience replay samples
not only from human demonstrations but also successful transitions generated by
RL agents during training and therefore improve training efficiency. It can be
combined with an arbitrary off-policy RL algorithm, such as DDPG or DQN, and
their distributed versions. We build upon Ape-X DDPG and demonstrate our
approach on robotic tight-fitting joint assembly tasks, based on force/torque
and Cartesian pose observations. In particular, we run experiments on two
different tasks: peg-in-hole and lap-joint. In each case, we compare different
replay buffer structures and how DER affects them. Our ablation studies show
that Dynamic Experience Replay is a crucial ingredient that either largely
shortens the training time in these challenging environments or solves the
tasks that the vanilla Ape-X DDPG cannot solve. We also show that our policies
learned purely in simulation can be deployed successfully on the real robot.
The video presenting our experiments is available at
https://sites.google.com/site/dynamicexperiencereplay
- Abstract(参考訳): 本稿では,強化学習(rl)アルゴリズムが,人間の実演だけでなく,訓練中にrlエージェントが生成したトランジションにも成功した経験リプレイサンプルを使用することを可能にする,dynamic experience replay(der)と呼ばれる新しい手法を提案する。
DDPGやDQNなどの任意の外部RLアルゴリズムとその分散バージョンと組み合わせることができる。
我々は,Ape-X DDPGを基盤として,力・トルク・カルテシアンポーズの観察に基づくロボットタイトな組立作業へのアプローチを実証する。
特に、peg-in-holeとlap-jointという2つの異なるタスクで実験を行います。
それぞれのケースで、異なるリプレイバッファ構造とDERがどのように影響するかを比較します。
我々のアブレーション研究によると、ダイナミックエクスペリエンス・リプレイは、これらの困難な環境でのトレーニング時間を大幅に短縮するか、あるいは、Ape-X DDPGが解決できない課題を解決するために重要な要素である。
また、シミュレーションで純粋に学習したポリシーを実際のロボットにうまく展開できることも示している。
実験のビデオはhttps://sites.google.com/site/dynamicexperiencereplayで公開されている。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - On-Robot Reinforcement Learning with Goal-Contrastive Rewards [24.415607337006968]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界で自身の行動から学ぶことができる能力を持つ。
我々は、受動的ビデオデモでトレーニング可能な高密度報酬関数学習法であるGCR(Goal-intensiveive Rewards)を提案する。
GCRは2つの損失関数、成功軌跡を走行する際の報酬の増大をモデル化する暗黙値損失関数、そして成功軌跡と失敗軌跡を区別する目標コントラスト損失を組み合わせた。
論文 参考訳(メタデータ) (2024-10-25T22:11:54Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Reward Relabelling for combined Reinforcement and Imitation Learning on
sparse-reward tasks [2.0305676256390934]
そこで本稿では, オンライン上で収集した実演とエピソードを, オフ・ポリティクス・アルゴリズムを用いて任意のスパース・リワード環境において活用する手法を提案する。
本手法は、実演や成功エピソードに与えられる報酬ボーナスに基づいて、専門家の模倣と自己模倣を奨励する。
実験では、ロボット工学の操作、特にシミュレーションにおける6自由度ロボットアームの3つのタスクに焦点を当てた。
論文 参考訳(メタデータ) (2022-01-11T08:35:18Z) - Learning from demonstrations with SACR2: Soft Actor-Critic with Reward
Relabeling [2.1485350418225244]
オフポリシーアルゴリズムはサンプリング効率が良く、リプレイバッファに格納された任意のオフポリシーデータの恩恵を受けることができる。
専門家によるデモンストレーションは、そのようなデータのための一般的な情報源である。
本稿では,実演と成功エピソードに対する報酬ボーナスに基づく新たな手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T14:30:29Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z) - Towards Learning to Imitate from a Single Video Demonstration [11.15358253586118]
我々は,映像観察を模倣して学習できる強化学習エージェントを開発した。
我々は、Siameseリカレントニューラルネットワークアーキテクチャを使用して、モーションクリップ間の空間と時間における報酬を学習する。
シミュレーションされたヒューマノイド, 犬, ラプターエージェントを2D, 四足歩行, ヒューマノイドを3Dで示す。
論文 参考訳(メタデータ) (2019-01-22T06:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。