論文の概要: Softmax Deep Double Deterministic Policy Gradients
- arxiv url: http://arxiv.org/abs/2010.09177v1
- Date: Mon, 19 Oct 2020 02:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 22:24:17.373091
- Title: Softmax Deep Double Deterministic Policy Gradients
- Title(参考訳): ソフトマックスDeep Double Deterministic Policy Gradients
- Authors: Ling Pan, Qingpeng Cai, Longbo Huang
- Abstract要約: 連続制御における値関数推定にボルツマンソフトマックス演算子を用いることを提案する。
また,ソフトマックス・ディープ・Deep Deterministic Policy Gradients (SD2) とソフトマックス・ディープ・ダブル・Deterministic Policy Gradients (SD3) の2つの新しいアルゴリズムを設計し,ソフトマックス・オペレータを単一および二重推定器上に構築する。
- 参考スコア(独自算出の注目度): 37.23518654230526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A widely-used actor-critic reinforcement learning algorithm for continuous
control, Deep Deterministic Policy Gradients (DDPG), suffers from the
overestimation problem, which can negatively affect the performance. Although
the state-of-the-art Twin Delayed Deep Deterministic Policy Gradient (TD3)
algorithm mitigates the overestimation issue, it can lead to a large
underestimation bias. In this paper, we propose to use the Boltzmann softmax
operator for value function estimation in continuous control. We first
theoretically analyze the softmax operator in continuous action space. Then, we
uncover an important property of the softmax operator in actor-critic
algorithms, i.e., it helps to smooth the optimization landscape, which sheds
new light on the benefits of the operator. We also design two new algorithms,
Softmax Deep Deterministic Policy Gradients (SD2) and Softmax Deep Double
Deterministic Policy Gradients (SD3), by building the softmax operator upon
single and double estimators, which can effectively improve the overestimation
and underestimation bias. We conduct extensive experiments on challenging
continuous control tasks, and results show that SD3 outperforms
state-of-the-art methods.
- Abstract(参考訳): 連続制御のための広く使われているアクター-クリティック強化学習アルゴリズムであるdeep deterministic policy gradients (ddpg)は、過大評価問題に苦しんでおり、パフォーマンスに悪影響を及ぼす可能性がある。
最先端のツイン遅延Deep Deterministic Policy Gradient (TD3)アルゴリズムは過大評価問題を緩和するが、大きな過小評価バイアスをもたらす可能性がある。
本稿では,連続制御における値関数推定にボルツマンソフトマックス演算子を用いることを提案する。
まず, 連続作用空間におけるソフトマックス作用素を理論的に解析する。
次に、アクター-批判アルゴリズムにおけるsoftmax演算子の重要な特性、すなわち、オペレータの利点に新たな光を当てる最適化環境の円滑化に役立つことを明らかにする。
また,ソフトマックス・ディープ・Deep Deterministic Policy Gradients (SD2) とソフトマックス・ディープ・ダブル・Deterministic Policy Gradients (SD3) の2つの新しいアルゴリズムを設計した。
連続制御課題に対する広範囲な実験を行い,sd3が最先端手法を上回ることを示した。
関連論文リスト
- Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - Value Activation for Bias Alleviation: Generalized-activated Deep Double
Deterministic Policy Gradients [11.545991873249564]
深層強化学習(DRL)における値関数を正確に推定することは不可欠である。
既存のアクター批判的手法は、過小評価バイアスまたは過大評価バイアスにより、多かれ少なかれ悩まされる。
本稿では、より優れた値推定のための重み付けとして、非減少関数、すなわちアクティベーション関数を用いる一般化活性化重み演算子を提案する。
論文 参考訳(メタデータ) (2021-12-21T13:45:40Z) - AWD3: Dynamic Reduction of the Estimation Bias [0.0]
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
論文 参考訳(メタデータ) (2021-11-12T15:46:19Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Stabilizing Q Learning Via Soft Mellowmax Operator [12.208344427928466]
Mellowmaxは学習と計画における収束行動を可能にする、微分可能で非拡張型ソフトマックス演算子である。
SM2演算子を多エージェント強化学習シナリオに適用することにより,安定な値関数近似と技術性能の状態を実現できることを示す。
論文 参考訳(メタデータ) (2020-12-17T09:11:13Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z) - WD3: Taming the Estimation Bias in Deep Reinforcement Learning [7.29018671106362]
我々はTD3アルゴリズムが軽度の仮定で過小評価バイアスをもたらすことを示す。
本稿では, 推定バイアスを除去できる, アンダーライン重み付きアンダーライン重み付きアンダーラインDeepアンダーライン決定性ポリシー勾配 (WD3) を提案する。
論文 参考訳(メタデータ) (2020-06-18T01:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。