論文の概要: AFU: Actor-Free critic Updates in off-policy RL for continuous control
- arxiv url: http://arxiv.org/abs/2404.16159v2
- Date: Fri, 25 Oct 2024 11:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:05.547765
- Title: AFU: Actor-Free critic Updates in off-policy RL for continuous control
- Title(参考訳): AFU: アクターフリーの批判者が継続的管理のためにオフポリティのRLを更新
- Authors: Nicolas Perrin-Gilbert,
- Abstract要約: AFUは、Qラーニングにおける挑戦的な「マックスQ問題」に対処する、非政治的なディープRLアルゴリズムである。
AFUには俳優がいるが、批評家の更新は完全に独立している。
アクター更新がローカルオプティマに閉じ込められにくくするため、AFUをどのように修正できるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents AFU, an off-policy deep RL algorithm addressing in a new way the challenging "max-Q problem" in Q-learning for continuous action spaces, with a solution based on regression and conditional gradient scaling. AFU has an actor but its critic updates are entirely independent from it. As a consequence, the actor can be chosen freely. In the initial version, AFU-alpha, we employ the same stochastic actor as in Soft Actor-Critic (SAC), but we then study a simple failure mode of SAC and show how AFU can be modified to make actor updates less likely to become trapped in local optima, resulting in a second version of the algorithm, AFU-beta. Experimental results demonstrate the sample efficiency of both versions of AFU, marking it as the first model-free off-policy algorithm competitive with state-of-the-art actor-critic methods while departing from the actor-critic perspective.
- Abstract(参考訳): 本稿では、連続的な行動空間に対するQラーニングにおける「最大Q問題」を、回帰と条件付き勾配スケーリングに基づく解を用いて新しい方法で解決する、非政治的な深部RLアルゴリズムであるAFUを提案する。
AFUには俳優がいるが、批評家の更新は完全に独立している。
その結果、俳優は自由に選択できる。
初期バージョンであるAFU-alphaでは、Soft Actor-Critic(SAC)と同じ確率的アクターを用いているが、SACの単純な障害モードを研究し、アクター更新を局所的な最適状態に閉じ込められにくくするためにAFUをどう修正できるかを示し、アルゴリズムの第2バージョンであるAFU-beta(AFU-beta)が実現される。
両バージョンのAFUのサンプル効率を実証し,アクター批判的視点から逸脱しながら,最先端のアクター批判手法と競合する最初のモデルフリーオフポリチアルゴリズムであることを示す。
関連論文リスト
- SARC: Soft Actor Retrospective Critic [14.775519703997478]
SARC(Soft Actor Retrospective Critic)は、SAC批評家の損失を別の損失項で増大させるアクター批判アルゴリズムである。
SARCはベンチマーク環境でのSACよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2023-06-28T18:50:18Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Variance Reduction for Policy-Gradient Methods via Empirical Variance
Minimization [69.32510868632988]
強化学習における政策段階的な手法は、勾配推定の高分散に悩まされる。
本稿では,実証変動(EV)と呼ばれる装置の性能について,初めて検討する。
実験により, 分散還元EV法はA2C法よりはるかに優れ, 分散低減効果が強いことが示唆された。
論文 参考訳(メタデータ) (2022-06-14T13:18:49Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Regularized OFU: an Efficient UCB Estimator forNon-linear Contextual
Bandit [90.0208037317206]
両立探索と搾取(EE)は、同性間の盗賊の根本的問題である。
ROFU(ROFU)という新しいOFUアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-29T07:28:15Z) - GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文 参考訳(メタデータ) (2020-09-18T17:58:29Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。