論文の概要: Policy Gradient from Demonstration and Curiosity
- arxiv url: http://arxiv.org/abs/2004.10430v2
- Date: Tue, 9 Jun 2020 10:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:22:21.525473
- Title: Policy Gradient from Demonstration and Curiosity
- Title(参考訳): 実証と好奇心からの政策グラディエント
- Authors: Jie Chen, Wenjun Xu
- Abstract要約: 本研究では,探索を促進し,本質的な報酬学習を促進するために,統合されたポリシー勾配アルゴリズムを提案する。
提案アルゴリズムは, 疎外報酬信号を用いて, シミュレーションされたタスクに対して評価を行った。
エージェントは専門家の行動を模倣し、高いリターンを維持することができることがわかった。
- 参考スコア(独自算出の注目度): 9.69620214666782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With reinforcement learning, an agent could learn complex behaviors from
high-level abstractions of the task. However, exploration and reward shaping
remained challenging for existing methods, especially in scenarios where the
extrinsic feedback was sparse. Expert demonstrations have been investigated to
solve these difficulties, but a tremendous number of high-quality
demonstrations were usually required. In this work, an integrated policy
gradient algorithm was proposed to boost exploration and facilitate intrinsic
reward learning from only limited number of demonstrations. We achieved this by
reformulating the original reward function with two additional terms, where the
first term measured the Jensen-Shannon divergence between current policy and
the expert, and the second term estimated the agent's uncertainty about the
environment. The presented algorithm was evaluated on a range of simulated
tasks with sparse extrinsic reward signals where only one single demonstrated
trajectory was provided to each task, superior exploration efficiency and high
average return were demonstrated in all tasks. Furthermore, it was found that
the agent could imitate the expert's behavior and meanwhile sustain high
return.
- Abstract(参考訳): 強化学習では、エージェントはタスクの高レベルの抽象化から複雑な振る舞いを学ぶことができる。
しかし、特に極端にフィードバックが乏しいシナリオでは、既存の手法では探索と報酬のシェーピングが難しかった。
これらの課題を解決するために専門家によるデモンストレーションが調査されてきたが、非常に多くの高品質なデモが必要であった。
そこで本研究では,少数の実験からのみ,探索の促進と本質的報酬学習の促進を目的として,統合ポリシー勾配アルゴリズムを提案する。
我々は,第1項が現在の政策と専門家の間でjensen-shannonの相違を計測し,第2項がエージェントの環境に対する不確かさを推定した。
提案アルゴリズムは,各タスクに1つの実験軌道のみを付与し,全てのタスクにおいて優れた探索効率と高い平均回帰を実証する,疎外報酬信号を用いたシミュレーションタスクに対して評価を行った。
さらに,エージェントが専門家の行動を模倣し,その一方で高いリターンを維持できることが判明した。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。