論文の概要: The Effect of Multi-step Methods on Overestimation in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2006.12692v1
- Date: Tue, 23 Jun 2020 01:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 23:10:53.587863
- Title: The Effect of Multi-step Methods on Overestimation in Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習における多段階手法が過大評価に及ぼす影響
- Authors: Lingheng Meng, Rob Gorbet, Dana Kuli\'c
- Abstract要約: 強化学習における多段階法(n段階法)は1段階法よりも効率的であることが示されている。
MDDPG と MMDDPG の両者は 1 段階バックアップによる DDPG よりも過大評価問題の影響が著しく小さいことを示す。
また、近似誤差を低減するために、多段階展開を行う様々な方法の利点と欠点についても論じる。
- 参考スコア(独自算出の注目度): 6.181642248900806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-step (also called n-step) methods in reinforcement learning (RL) have
been shown to be more efficient than the 1-step method due to faster
propagation of the reward signal, both theoretically and empirically, in tasks
exploiting tabular representation of the value-function. Recently, research in
Deep Reinforcement Learning (DRL) also shows that multi-step methods improve
learning speed and final performance in applications where the value-function
and policy are represented with deep neural networks. However, there is a lack
of understanding about what is actually contributing to the boost of
performance. In this work, we analyze the effect of multi-step methods on
alleviating the overestimation problem in DRL, where multi-step experiences are
sampled from a replay buffer. Specifically building on top of Deep
Deterministic Policy Gradient (DDPG), we propose Multi-step DDPG (MDDPG), where
different step sizes are manually set, and its variant called Mixed Multi-step
DDPG (MMDDPG) where an average over different multi-step backups is used as
update target of Q-value function. Empirically, we show that both MDDPG and
MMDDPG are significantly less affected by the overestimation problem than DDPG
with 1-step backup, which consequently results in better final performance and
learning speed. We also discuss the advantages and disadvantages of different
ways to do multi-step expansion in order to reduce approximation error, and
expose the tradeoff between overestimation and underestimation that underlies
offline multi-step methods. Finally, we compare the computational resource
needs of Twin Delayed Deep Deterministic Policy Gradient (TD3), a state-of-art
algorithm proposed to address overestimation in actor-critic methods, and our
proposed methods, since they show comparable final performance and learning
speed.
- Abstract(参考訳): 強化学習(RL)における多段階(n-step)法は、値関数の表象表現を利用するタスクにおいて、理論的にも経験的にも報酬信号の高速な伝播により、1段階法よりも効率的であることが示されている。
近年、Deep Reinforcement Learning (DRL) の研究により、価値関数とポリシーが深層ニューラルネットワークで表現されるアプリケーションにおいて、学習速度と最終性能を改善する多段階手法が示されている。
しかし、実際にパフォーマンスの向上に寄与しているものについての理解の欠如がある。
本研究では,リプレイバッファからマルチステップ体験をサンプリングするDRLにおける過大評価問題を緩和するためのマルチステップ手法の効果を解析する。
具体的には,Deep Deterministic Policy Gradient (DDPG) 上に構築した多段階DDPG (MDDPG) と,Q値関数の更新ターゲットとして,異なるステップサイズを手動で設定するMixed Multi-step DDPG (MMDDPG) を提案する。
実験の結果,MDDPGとMMDDPGは1ステップバックアップのDDPGよりも過大評価問題の影響を受けにくく,最終性能と学習速度が向上した。
また、近似誤差を低減するために多段階展開を行う方法の長所と短所を議論し、オフラインの多段階メソッドの下位にある過大評価と過大評価のトレードオフを明らかにする。
最後に,アクター-批判的手法の過大評価に対処するために提案される最先端アルゴリズムであるtd3の計算資源ニーズと,最終性能と学習速度が同等であることから,提案手法を比較した。
関連論文リスト
- One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient
Reinforcement Learning [61.662504399411695]
より正確でロバストなメタ勾配信号を持つ複数の内部ステップを混合する新しい手法を提案する。
Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、その分散を3倍に削減することができる。
論文 参考訳(メタデータ) (2021-10-30T08:36:52Z) - Multi-Task Meta-Learning Modification with Stochastic Approximation [0.7734726150561089]
数ショットの学習問題は、メタ学習アルゴリズムの主要なベンチマークの1つである。
本稿では、トレーニング中にマルチタスクアプローチをとる標準的なメタ学習パイプラインの修正について検討する。
提案手法は,共通損失関数における複数のメタ学習タスクの情報の同時利用を行う。
これらの重みの適切な最適化は、モデル全体のトレーニングに大きな影響を与え、テスト時間タスクの品質を改善する可能性がある。
論文 参考訳(メタデータ) (2021-10-25T18:11:49Z) - Learning to Perform Downlink Channel Estimation in Massive MIMO Systems [72.76968022465469]
大規模マルチインプット・マルチアウトプット(MIMO)システムにおけるダウンリンク(DL)チャネル推定について検討する。
一般的なアプローチは、チャネル硬化によって動機付けられた推定値として平均値を使用することである。
本稿では2つの新しい推定法を提案する。
論文 参考訳(メタデータ) (2021-09-06T13:42:32Z) - Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。
マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。
エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。
MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文 参考訳(メタデータ) (2021-08-19T10:49:10Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。