論文の概要: Learning from demonstrations with SACR2: Soft Actor-Critic with Reward
Relabeling
- arxiv url: http://arxiv.org/abs/2110.14464v1
- Date: Wed, 27 Oct 2021 14:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 15:42:39.659973
- Title: Learning from demonstrations with SACR2: Soft Actor-Critic with Reward
Relabeling
- Title(参考訳): SACR2によるデモから学ぶ - Reward Relabelingによるソフトアクター批判
- Authors: Jesus Bujalance Martin, Rapha\"el Chekroun and Fabien Moutarde
- Abstract要約: オフポリシーアルゴリズムはサンプリング効率が良く、リプレイバッファに格納された任意のオフポリシーデータの恩恵を受けることができる。
専門家によるデモンストレーションは、そのようなデータのための一般的な情報源である。
本稿では,実演と成功エピソードに対する報酬ボーナスに基づく新たな手法を提案する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: During recent years, deep reinforcement learning (DRL) has made successful
incursions into complex decision-making applications such as robotics,
autonomous driving or video games. However, a well-known caveat of DRL
algorithms is their inefficiency, requiring huge amounts of data to converge.
Off-policy algorithms tend to be more sample-efficient, and can additionally
benefit from any off-policy data stored in the replay buffer. Expert
demonstrations are a popular source for such data: the agent is exposed to
successful states and actions early on, which can accelerate the learning
process and improve performance. In the past, multiple ideas have been proposed
to make good use of the demonstrations in the buffer, such as pretraining on
demonstrations only or minimizing additional cost functions. We carry on a
study to evaluate several of these ideas in isolation, to see which of them
have the most significant impact. We also present a new method, based on a
reward bonus given to demonstrations and successful episodes. First, we give a
reward bonus to the transitions coming from demonstrations to encourage the
agent to match the demonstrated behaviour. Then, upon collecting a successful
episode, we relabel its transitions with the same bonus before adding them to
the replay buffer, encouraging the agent to also match its previous successes.
The base algorithm for our experiments is the popular Soft Actor-Critic (SAC),
a state-of-the-art off-policy algorithm for continuous action spaces. Our
experiments focus on robotics, specifically on a reaching task for a robotic
arm in simulation. We show that our method SACR2 based on reward relabeling
improves the performance on this task, even in the absence of demonstrations.
- Abstract(参考訳): 近年、深層強化学習(DRL)は、ロボット工学、自律運転、ビデオゲームといった複雑な意思決定アプリケーションへの侵入に成功した。
しかし、DRLアルゴリズムのよく知られた欠点は、その非効率性であり、膨大なデータを収束させる必要があることである。
オフポリシーアルゴリズムはサンプル効率が高く、リプレイバッファに格納されたオフポリシーデータの恩恵を受ける可能性がある。
エージェントは、早期に成功した状態やアクションに晒され、学習プロセスを加速し、パフォーマンスを向上させることができる。
これまで、デモのみの事前トレーニングや追加コスト関数の最小化など、バッファ内のデモをうまく利用するために、複数のアイデアが提案されてきた。
我々は、これらのアイデアのいくつかを独立して評価し、どれが最も大きな影響を与えているかを調べる研究を行っている。
また,実演や成功したエピソードに与えられる報酬ボーナスに基づいて,新たな手法を提案する。
まず、エージェントが実証された動作にマッチするように促すために、デモから来る遷移に報奨ボーナスを与える。
次に、成功したエピソードを収集すると、リプレイバッファに追加する前に同じボーナスで遷移を緩和し、エージェントが以前の成功と一致するように促します。
我々の実験のベースアルゴリズムは、連続的な行動空間に対する最先端のオフポリシーアルゴリズムであるSoft Actor-Critic (SAC)である。
我々の実験はロボット工学、特にシミュレーションにおけるロボットアームの到達タスクに焦点を当てている。
報酬レラベル化に基づくsacr2手法は,実演がなくても,このタスクの性能を向上させることを示す。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Latent Action Priors From a Single Gait Cycle Demonstration for Online Imitation Learning [42.642008092347986]
本稿では,ロボット学習における帰納的バイアスとして,専門家による実証から学んだ潜伏行動を行動空間の先行として提案する。
単純なオートエンコーダを用いて1つのオープンループ歩行サイクルのみからこれらの動作先を学習できることが示される。
論文 参考訳(メタデータ) (2024-10-04T09:10:56Z) - Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文 参考訳(メタデータ) (2022-10-04T11:06:38Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z) - Reward Relabelling for combined Reinforcement and Imitation Learning on
sparse-reward tasks [2.0305676256390934]
そこで本稿では, オンライン上で収集した実演とエピソードを, オフ・ポリティクス・アルゴリズムを用いて任意のスパース・リワード環境において活用する手法を提案する。
本手法は、実演や成功エピソードに与えられる報酬ボーナスに基づいて、専門家の模倣と自己模倣を奨励する。
実験では、ロボット工学の操作、特にシミュレーションにおける6自由度ロボットアームの3つのタスクに焦点を当てた。
論文 参考訳(メタデータ) (2022-01-11T08:35:18Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Dynamic Experience Replay [6.062589413216726]
我々は, Ape-X DDPG を基盤として, ロボットによるタイトな組立作業へのアプローチを実証する。
特に、ペグ・イン・ホール(peg-in-hole)とラップ・ジョイント( lap-joint)という2つの異なるタスクで実験を行う。
私たちのアブレーション研究は、ダイナミックエクスペリエンス・リプレイが、これらの困難な環境でのトレーニング時間を大幅に短縮する重要な要素であることを示しています。
論文 参考訳(メタデータ) (2020-03-04T23:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。