論文の概要: Actor-Director-Critic: A Novel Deep Reinforcement Learning Framework
- arxiv url: http://arxiv.org/abs/2301.03887v1
- Date: Tue, 10 Jan 2023 10:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 17:03:05.567447
- Title: Actor-Director-Critic: A Novel Deep Reinforcement Learning Framework
- Title(参考訳): Actor-Director-Critic - 新しい強化学習フレームワーク
- Authors: Zongwei Liu, Yonghong Song, Yuanlin Zhang
- Abstract要約: 深層強化学習のための新しい枠組みであるアクター・ディレクタ・クリティカルを提案する。
使用した2つの批評家ネットワークに対して、1つではなく2つの批評家ネットワークを設計する。
アクター・ディレクタ・クリティック・フレームワークの性能検証と改良された2重推定器法をTD3アルゴリズムに適用した。
- 参考スコア(独自算出の注目度): 2.6477113498726244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose actor-director-critic, a new framework for deep
reinforcement learning. Compared with the actor-critic framework, the director
role is added, and action classification and action evaluation are applied
simultaneously to improve the decision-making performance of the agent.
Firstly, the actions of the agent are divided into high quality actions and low
quality actions according to the rewards returned from the environment. Then,
the director network is trained to have the ability to discriminate high and
low quality actions and guide the actor network to reduce the repetitive
exploration of low quality actions in the early stage of training. In addition,
we propose an improved double estimator method to better solve the problem of
overestimation in the field of reinforcement learning. For the two critic
networks used, we design two target critic networks for each critic network
instead of one. In this way, the target value of each critic network can be
calculated by taking the average of the outputs of the two target critic
networks, which is more stable and accurate than using only one target critic
network to obtain the target value. In order to verify the performance of the
actor-director-critic framework and the improved double estimator method, we
applied them to the TD3 algorithm to improve the TD3 algorithm. Then, we
carried out experiments in multiple environments in MuJoCo and compared the
experimental data before and after the algorithm improvement. The final
experimental results show that the improved algorithm can achieve faster
convergence speed and higher total return.
- Abstract(参考訳): 本稿では,深層強化学習のための新しいフレームワークであるactor-director-criticを提案する。
アクター批判フレームワークと比較して、監督役が追加され、同時に行動分類と行動評価が適用され、エージェントの意思決定性能が向上する。
第1に、エージェントのアクションは、環境から返される報酬に応じて、高品質なアクションと品質の低いアクションに分割される。
そして、監督ネットワークは、ハイクオリティアクションと低クオリティアクションとを判別し、アクタネットワークを誘導し、トレーニングの初期段階における低クオリティアクションの繰り返し探索を低減する能力を有するように訓練される。
さらに,強化学習分野における過大評価問題を改善するために,改良された二重推定器を提案する。
使用する2つの批評家ネットワークに対して、1つではなく2つの批評家ネットワークを設計する。
これにより、2つの目標批評家ネットワークの出力の平均を1つの目標批評家ネットワークのみを用いて算出し、目標値を得るよりも安定かつ精度の高い各批評家ネットワークの目標値を算出できる。
アクタ-ディレクトリ-クリティック・フレームワークと改良されたdouble estimator法の性能を検証するために, td3アルゴリズムに適用し, td3アルゴリズムの改善を行った。
次に,MuJoCoの複数の環境で実験を行い,アルゴリズムの改良前後の実験データを比較した。
最終実験の結果,改良アルゴリズムはより高速な収束速度と総帰納率を達成できることがわかった。
関連論文リスト
- Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - Analysis of a Target-Based Actor-Critic Algorithm with Linear Function
Approximation [2.1592777170316366]
ターゲットネットワークを統合するアクター・クリティカルな手法は、深層強化学習において頑強な経験的成功を示している。
割引報酬設定において線形関数近似を用いたオンラインターゲットベースアクター批判の最初の理論的解析を行うことにより、このギャップを橋渡しする。
論文 参考訳(メタデータ) (2021-06-14T14:59:05Z) - Efficient Continuous Control with Double Actors and Regularized Critics [7.072664211491016]
我々は,長期にわたって無視されてきた二重アクターの可能性を探り,連続的な設定におけるより良い値関数推定法を提案する。
我々は、DDPGの過大評価バイアスとTD3の過小評価バイアスに対処するため、シングル・批評家とダブル・批評家に二重アクターを構築した。
二重批評家による価値推定の不確実性を軽減するため、二重アクターアーキテクチャの下での批判ネットワークの正規化を提案する。
論文 参考訳(メタデータ) (2021-06-06T07:04:48Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。