論文の概要: Reward Relabelling for combined Reinforcement and Imitation Learning on
sparse-reward tasks
- arxiv url: http://arxiv.org/abs/2201.03834v1
- Date: Tue, 11 Jan 2022 08:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 15:06:57.729429
- Title: Reward Relabelling for combined Reinforcement and Imitation Learning on
sparse-reward tasks
- Title(参考訳): スパース・リワード課題における強化と模倣学習を組み合わせたリワード・リラベリング
- Authors: Jesus Bujalance Martin, Fabien Moutarde
- Abstract要約: そこで本稿では, オンライン上で収集した実演とエピソードを, オフ・ポリティクス・アルゴリズムを用いて任意のスパース・リワード環境において活用する手法を提案する。
本手法は、実演や成功エピソードに与えられる報酬ボーナスに基づいて、専門家の模倣と自己模倣を奨励する。
実験では、ロボット工学の操作、特にシミュレーションにおける6自由度ロボットアームの3つのタスクに焦点を当てた。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: During recent years, deep reinforcement learning (DRL) has made successful
incursions into complex decision-making applications such as robotics,
autonomous driving or video games. In the search for more sample-efficient
algorithms, a promising direction is to leverage as much external off-policy
data as possible. One staple of this data-driven approach is to learn from
expert demonstrations. In the past, multiple ideas have been proposed to make
good use of the demonstrations added to the replay buffer, such as pretraining
on demonstrations only or minimizing additional cost functions. We present a
new method, able to leverage demonstrations and episodes collected online in
any sparse-reward environment with any off-policy algorithm. Our method is
based on a reward bonus given to demonstrations and successful episodes,
encouraging expert imitation and self-imitation. First, we give a reward bonus
to the transitions coming from demonstrations to encourage the agent to match
the demonstrated behaviour. Then, upon collecting a successful episode, we
relabel its transitions with the same bonus before adding them to the replay
buffer, encouraging the agent to also match its previous successes. Our
experiments focus on manipulation robotics, specifically on three tasks for a 6
degrees-of-freedom robotic arm in simulation. We show that our method based on
reward relabeling improves the performance of the base algorithm (SAC and DDPG)
on these tasks, even in the absence of demonstrations. Furthermore, integrating
into our method two improvements from previous works allows our approach to
outperform all baselines.
- Abstract(参考訳): 近年、深層強化学習(DRL)は、ロボット工学、自律運転、ビデオゲームといった複雑な意思決定アプリケーションへの侵入に成功した。
よりサンプル効率の良いアルゴリズムの探索では、できるだけ多くの外部のオフポリシーデータを活用することが有望な方向である。
このデータ駆動アプローチの要点は、専門家のデモから学ぶことだ。
過去には、デモのみの事前トレーニングや追加コスト関数の最小化など、リプレイバッファに追加されるデモをうまく活用するための複数のアイデアが提案されている。
我々は,オンライン上で収集したデモやエピソードを,オフ・ポリシー・アルゴリズムを用いて,どのようなスパース・リワード環境でも活用できる新しい手法を提案する。
本手法は,実演や成功したエピソードに与えられる報酬ボーナスに基づいて,専門家の模倣と自己模倣を奨励する。
まず、エージェントが実証された動作にマッチするように促すために、デモから来る遷移に報奨ボーナスを与える。
次に、成功したエピソードを収集すると、リプレイバッファに追加する前に同じボーナスで遷移を緩和し、エージェントが以前の成功と一致するように促します。
実験はロボットの操作,特に6自由度ロボットアームの3つのタスクに焦点をあてた。
報奨関係に基づく手法は, 実演がなくても, 基本アルゴリズム (sac, ddpg) の性能を向上させることを示す。
さらに,従来の方法から2つの改善点を取り入れることで,すべてのベースラインを上回ります。
関連論文リスト
- Latent Action Priors From a Single Gait Cycle Demonstration for Online Imitation Learning [42.642008092347986]
本稿では,ロボット学習における帰納的バイアスとして,専門家による実証から学んだ潜伏行動を行動空間の先行として提案する。
単純なオートエンコーダを用いて1つのオープンループ歩行サイクルのみからこれらの動作先を学習できることが示される。
論文 参考訳(メタデータ) (2024-10-04T09:10:56Z) - Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning from demonstrations with SACR2: Soft Actor-Critic with Reward
Relabeling [2.1485350418225244]
オフポリシーアルゴリズムはサンプリング効率が良く、リプレイバッファに格納された任意のオフポリシーデータの恩恵を受けることができる。
専門家によるデモンストレーションは、そのようなデータのための一般的な情報源である。
本稿では,実演と成功エピソードに対する報酬ボーナスに基づく新たな手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T14:30:29Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Dynamic Experience Replay [6.062589413216726]
我々は, Ape-X DDPG を基盤として, ロボットによるタイトな組立作業へのアプローチを実証する。
特に、ペグ・イン・ホール(peg-in-hole)とラップ・ジョイント( lap-joint)という2つの異なるタスクで実験を行う。
私たちのアブレーション研究は、ダイナミックエクスペリエンス・リプレイが、これらの困難な環境でのトレーニング時間を大幅に短縮する重要な要素であることを示しています。
論文 参考訳(メタデータ) (2020-03-04T23:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。