論文の概要: ADER:Adapting between Exploration and Robustness for Actor-Critic
Methods
- arxiv url: http://arxiv.org/abs/2109.03443v1
- Date: Wed, 8 Sep 2021 05:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:43:39.485764
- Title: ADER:Adapting between Exploration and Robustness for Actor-Critic
Methods
- Title(参考訳): ADER:アクター・クリティカル法における探索とロバストネスの適応
- Authors: Bo Zhou, Kejiao Li, Hongsheng Zeng, Fan Wang, Hao Tian
- Abstract要約: プリミティブな環境では,Vanilla actor-criticメソッドよりもTD3のパフォーマンスが遅れていることが示される。
本稿では,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。
いくつかの挑戦的な環境における実験は、連続制御タスクにおける提案手法の優位性を実証している。
- 参考スコア(独自算出の注目度): 8.750251598581102
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Combining off-policy reinforcement learning methods with function
approximators such as neural networks has been found to lead to overestimation
of the value function and sub-optimal solutions. Improvement such as TD3 has
been proposed to address this issue. However, we surprisingly find that its
performance lags behind the vanilla actor-critic methods (such as DDPG) in some
primitive environments. In this paper, we show that the failure of some cases
can be attributed to insufficient exploration. We reveal the culprit of
insufficient exploration in TD3, and propose a novel algorithm toward this
problem that ADapts between Exploration and Robustness, namely ADER. To enhance
the exploration ability while eliminating the overestimation bias, we introduce
a dynamic penalty term in value estimation calculated from estimated
uncertainty, which takes into account different compositions of the uncertainty
in different learning stages. Experiments in several challenging environments
demonstrate the supremacy of the proposed method in continuous control tasks.
- Abstract(参考訳): 外部強化学習法とニューラルネットワークのような関数近似器を組み合わせることで、値関数と準最適解の過大評価が導かれる。
TD3のような改善はこの問題に対処するために提案されている。
しかし、いくつかのプリミティブな環境では、そのパフォーマンスがバニラアクター批判的手法(DDPGなど)に遅れていることに驚く。
本稿では,いくつかのケースの故障が不十分な探索によるものと考えられることを示す。
本稿では,TD3の探索に不十分な原因を明らかにするとともに,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。
過大評価バイアスを排除しつつ探索能力を高めるため,推定不確実性から算出した値推定における動的ペナルティ項を導入し,異なる学習段階における不確実性の構成を考慮に入れた。
いくつかの困難な環境での実験は、連続制御タスクにおける提案手法の優位性を示している。
関連論文リスト
- Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - On the Minimal Adversarial Perturbation for Deep Neural Networks with
Provable Estimation Error [65.51757376525798]
敵の摂動の存在は、証明可能な堅牢性に関する興味深い研究ラインを開いた。
検証可能な結果は、コミットしたエラーを見積り、バウンドするものではない。
本稿では,最小対向摂動を求めるための2つの軽量戦略を提案する。
その結果, 提案手法は, 分類に近い試料の理論的距離とロバスト性を近似し, 敵攻撃に対する確実な保証が得られた。
論文 参考訳(メタデータ) (2022-01-04T16:40:03Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文 参考訳(メタデータ) (2021-03-11T01:15:26Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。