論文の概要: Efficient Continuous Control with Double Actors and Regularized Critics
- arxiv url: http://arxiv.org/abs/2106.03050v1
- Date: Sun, 6 Jun 2021 07:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:51:42.596000
- Title: Efficient Continuous Control with Double Actors and Regularized Critics
- Title(参考訳): 二重アクターと正規化批評家による効率的な連続制御
- Authors: Jiafei Lyu, Xiaoteng Ma, Jiangpeng Yan, Xiu Li
- Abstract要約: 我々は,長期にわたって無視されてきた二重アクターの可能性を探り,連続的な設定におけるより良い値関数推定法を提案する。
我々は、DDPGの過大評価バイアスとTD3の過小評価バイアスに対処するため、シングル・批評家とダブル・批評家に二重アクターを構築した。
二重批評家による価値推定の不確実性を軽減するため、二重アクターアーキテクチャの下での批判ネットワークの正規化を提案する。
- 参考スコア(独自算出の注目度): 7.072664211491016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to obtain good value estimation is one of the key problems in
Reinforcement Learning (RL). Current value estimation methods, such as DDPG and
TD3, suffer from unnecessary over- or underestimation bias. In this paper, we
explore the potential of double actors, which has been neglected for a long
time, for better value function estimation in continuous setting. First, we
uncover and demonstrate the bias alleviation property of double actors by
building double actors upon single critic and double critics to handle
overestimation bias in DDPG and underestimation bias in TD3 respectively. Next,
we interestingly find that double actors help improve the exploration ability
of the agent. Finally, to mitigate the uncertainty of value estimate from
double critics, we further propose to regularize the critic networks under
double actors architecture, which gives rise to Double Actors Regularized
Critics (DARC) algorithm. Extensive experimental results on challenging
continuous control tasks show that DARC significantly outperforms
state-of-the-art methods with higher sample efficiency.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)において, 優れた価値推定方法が問題となっている。
DDPGやTD3のような現在の値推定法は、不要な過大評価バイアスや過小評価バイアスに悩まされる。
本稿では,長期にわたって無視されてきた二重アクターの可能性について検討し,連続設定における価値関数の推定について検討する。
まず, DDPGの過大評価バイアスとTD3の過小評価バイアスに対処するため, シングル批評家とダブル批評家に二重アクターを構築することで, 二重アクターのバイアス緩和特性を明らかにし, 実証する。
次に、二重アクターがエージェントの探索能力を向上させることが興味深い。
最後に,ダブルアクタによる評価の不確実性を軽減するため,ダブルアクタアーキテクチャの下での批判ネットワークの正則化が提案され,二重アクタ正則化批評家(darc)アルゴリズムが提案されている。
挑戦的連続制御タスクに対する大規模な実験結果から, DARCは試料効率が高く, 最先端の手法よりも優れていた。
関連論文リスト
- Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Mitigating Estimation Errors by Twin TD-Regularized Actor and Critic for
Deep Reinforcement Learning [10.577516871906816]
深部強化学習(DRL)における推定バイアス問題に対処するために,新しい双子のTD正規化アクター批判法(TDR)を導入する。
我々は,新しいアクタ批判学習により,DeepMind Control Suiteの課題環境において,DRL手法がそれぞれのベースラインを上回ったことを示す。
論文 参考訳(メタデータ) (2023-11-07T04:30:51Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Actor-Director-Critic: A Novel Deep Reinforcement Learning Framework [2.6477113498726244]
深層強化学習のための新しい枠組みであるアクター・ディレクタ・クリティカルを提案する。
使用した2つの批評家ネットワークに対して、1つではなく2つの批評家ネットワークを設計する。
アクター・ディレクタ・クリティック・フレームワークの性能検証と改良された2重推定器法をTD3アルゴリズムに適用した。
論文 参考訳(メタデータ) (2023-01-10T10:21:32Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Value Activation for Bias Alleviation: Generalized-activated Deep Double
Deterministic Policy Gradients [11.545991873249564]
深層強化学習(DRL)における値関数を正確に推定することは不可欠である。
既存のアクター批判的手法は、過小評価バイアスまたは過大評価バイアスにより、多かれ少なかれ悩まされる。
本稿では、より優れた値推定のための重み付けとして、非減少関数、すなわちアクティベーション関数を用いる一般化活性化重み演算子を提案する。
論文 参考訳(メタデータ) (2021-12-21T13:45:40Z) - Parameter-Free Deterministic Reduction of the Estimation Bias in
Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。
我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文 参考訳(メタデータ) (2021-09-24T07:41:07Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - WD3: Taming the Estimation Bias in Deep Reinforcement Learning [7.29018671106362]
我々はTD3アルゴリズムが軽度の仮定で過小評価バイアスをもたらすことを示す。
本稿では, 推定バイアスを除去できる, アンダーライン重み付きアンダーライン重み付きアンダーラインDeepアンダーライン決定性ポリシー勾配 (WD3) を提案する。
論文 参考訳(メタデータ) (2020-06-18T01:28:07Z) - Controlling Overestimation Bias with Truncated Mixture of Continuous
Distributional Quantile Critics [65.51757376525798]
過大評価バイアスは、政治以外の学習を正確にするための主要な障害の1つである。
本稿では,連続制御環境における過大評価バイアスを軽減する新しい手法について検討する。
我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。
論文 参考訳(メタデータ) (2020-05-08T19:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。