論文の概要: AACHER: Assorted Actor-Critic Deep Reinforcement Learning with Hindsight
Experience Replay
- arxiv url: http://arxiv.org/abs/2210.12892v1
- Date: Mon, 24 Oct 2022 00:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 21:35:05.763005
- Title: AACHER: Assorted Actor-Critic Deep Reinforcement Learning with Hindsight
Experience Replay
- Title(参考訳): AACHER:Hindsight Experience Replayによるアクター批判的深層強化学習
- Authors: Adarsh Sehgal, Muskan Sehgal and Hung Manh La
- Abstract要約: アクター学習と批判学習は、卓越した、主に使われているDeep Deterministic Policy Gradient(DDPG)強化学習法の2つの構成要素である。
本稿では,DDPGの性能と安定性をさらに向上させるために,信頼性の高いアクター・クリティック学習のためのマルチアクタ・クリティックDDPGを提案する。
このマルチアクター批判型DDPGは、Hindsight Experience Replay(HER)と統合され、AACHERと呼ばれる新しいディープラーニングフレームワークを形成します。
- 参考スコア(独自算出の注目度): 0.19336815376402716
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Actor learning and critic learning are two components of the outstanding and
mostly used Deep Deterministic Policy Gradient (DDPG) reinforcement learning
method. Since actor and critic learning plays a significant role in the overall
robot's learning, the performance of the DDPG approach is relatively sensitive
and unstable as a result. We propose a multi-actor-critic DDPG for reliable
actor-critic learning to further enhance the performance and stability of DDPG.
This multi-actor-critic DDPG is then integrated with Hindsight Experience
Replay (HER) to form our new deep learning framework called AACHER. AACHER uses
the average value of multiple actors or critics to substitute the single actor
or critic in DDPG to increase resistance in the case when one actor or critic
performs poorly. Numerous independent actors and critics can also gain
knowledge from the environment more broadly. We implemented our proposed AACHER
on goal-based environments: AuboReach, FetchReach-v1, FetchPush-v1,
FetchSlide-v1, and FetchPickAndPlace-v1. For our experiments, we used various
instances of actor/critic combinations, among which A10C10 and A20C20 were the
best-performing combinations. Overall results show that AACHER outperforms the
traditional algorithm (DDPG+HER) in all of the actor/critic number combinations
that are used for evaluation. When used on FetchPickAndPlace-v1, the
performance boost for A20C20 is as high as roughly 3.8 times the success rate
in DDPG+HER.
- Abstract(参考訳): アクター学習と批判学習は、卓越した、主に使われているDeep Deterministic Policy Gradient(DDPG)強化学習法の2つの構成要素である。
アクターと批評家の学習はロボット全体の学習において重要な役割を果たすため、DDPGアプローチのパフォーマンスは比較的敏感で不安定である。
本稿では,DDPGの性能と安定性をさらに向上させるために,信頼性の高いアクター・クリティック学習のためのマルチアクタ・クリティックDDPGを提案する。
このマルチアクター批判型DDPGは、Hindsight Experience Replay(HER)と統合され、AACHERと呼ばれる新しいディープラーニングフレームワークを形成します。
AACHERは、複数の俳優や批評家の平均値を用いて、DDPGの1人の俳優や批評家に代えて、1人の俳優や批評家が不運な場合の抵抗を高める。
多くの独立系俳優や批評家は、環境からより広く知識を得ることができる。
提案したAACHERを,AuboReach,FetchReach-v1,FetchPush-v1,FetchSlide-v1,FetchPickAndPlace-v1という目標ベースの環境に実装した。
実験では,a10c10とa20c20が最適な組み合わせであるアクタ/クリティックの組み合わせを多用した。
その結果、AACHERは従来のアルゴリズム(DDPG+HER)よりも、評価に用いられるアクター/批評家の数字の組み合わせに優れていた。
FetchPickAndPlace-v1で使用する場合、A20C20のパフォーマンス向上率はDDPG+HERの約3.8倍である。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Actor-Director-Critic: A Novel Deep Reinforcement Learning Framework [2.6477113498726244]
深層強化学習のための新しい枠組みであるアクター・ディレクタ・クリティカルを提案する。
使用した2つの批評家ネットワークに対して、1つではなく2つの批評家ネットワークを設計する。
アクター・ディレクタ・クリティック・フレームワークの性能検証と改良された2重推定器法をTD3アルゴリズムに適用した。
論文 参考訳(メタデータ) (2023-01-10T10:21:32Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - Effects of Spectral Normalization in Multi-agent Reinforcement Learning [7.064383217512461]
スペクトル正規化(SN)による批判の正規化は,より堅牢な学習を可能にすることを示す。
我々の実験は、正規化された批評家が、まばらな報奨経験からすぐに学ぶことができることを示している。
論文 参考訳(メタデータ) (2022-12-10T16:26:30Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning
Algorithms [13.649494534428745]
アクター批判に基づく強化学習アルゴリズムにおけるアクターと批評家の階層的相互作用は、ゲーム理論の解釈に自然に結びつく。
そこで我々は,従来の個人勾配ではなく,その目的の全体微分をリーダプレイヤーが追従する,Stackelbergアクタ批判アルゴリズムのメタフレームワークを提案する。
OpenAIのジム環境での実験では、Stackelbergのアクター批判アルゴリズムは常に、少なくとも同じようにパフォーマンスし、標準的なアクター批判アルゴリズムよりもはるかに優れていることが示されている。
論文 参考訳(メタデータ) (2021-09-25T06:18:41Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - Efficient Continuous Control with Double Actors and Regularized Critics [7.072664211491016]
我々は,長期にわたって無視されてきた二重アクターの可能性を探り,連続的な設定におけるより良い値関数推定法を提案する。
我々は、DDPGの過大評価バイアスとTD3の過小評価バイアスに対処するため、シングル・批評家とダブル・批評家に二重アクターを構築した。
二重批評家による価値推定の不確実性を軽減するため、二重アクターアーキテクチャの下での批判ネットワークの正規化を提案する。
論文 参考訳(メタデータ) (2021-06-06T07:04:48Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。