論文の概要: PAC-Bayesian Soft Actor-Critic Learning
- arxiv url: http://arxiv.org/abs/2301.12776v1
- Date: Mon, 30 Jan 2023 10:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 15:07:21.640998
- Title: PAC-Bayesian Soft Actor-Critic Learning
- Title(参考訳): PAC-Bayesian Soft Actor-Critic Learning
- Authors: Bahareh Tasdighi, Abdullah Akg\"ul, Kenny Kazimirzak Brink, Melih
Kandemir
- Abstract要約: アクター批判アルゴリズムは2つの関数近似器を通して強化学習、政策評価、改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)を初めて採用することによって対処する。
- 参考スコア(独自算出の注目度): 10.462479979608021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Actor-critic algorithms address the dual goals of reinforcement learning,
policy evaluation and improvement, via two separate function approximators. The
practicality of this approach comes at the expense of training instability,
caused mainly by the destructive effect of the approximation errors of the
critic on the actor. We tackle this bottleneck by employing an existing
Probably Approximately Correct (PAC) Bayesian bound for the first time as the
critic training objective of the Soft Actor-Critic (SAC) algorithm. We further
demonstrate that the online learning performance improves significantly when a
stochastic actor explores multiple futures by critic-guided random search. We
observe our resulting algorithm to compare favorably to the state of the art on
multiple classical control and locomotion tasks in both sample efficiency and
asymptotic performance.
- Abstract(参考訳): アクター批判アルゴリズムは2つの関数近似器を通して強化学習、政策評価、改善という2つの目標に対処する。
このアプローチの実用性は、主に俳優に対する批評家の近似誤差の破壊的影響によって引き起こされるトレーニング不安定さを犠牲にしている。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を用いる。
さらに,確率的俳優が批判的指示によるランダム検索によって複数の未来を探索すると,オンライン学習性能が著しく向上することを示す。
その結果得られたアルゴリズムを,サンプル効率と漸近的性能の両方において,複数の古典的制御とロコモーションタスクの技術と好適に比較した。
関連論文リスト
- ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Analysis of a Target-Based Actor-Critic Algorithm with Linear Function
Approximation [2.1592777170316366]
ターゲットネットワークを統合するアクター・クリティカルな手法は、深層強化学習において頑強な経験的成功を示している。
割引報酬設定において線形関数近似を用いたオンラインターゲットベースアクター批判の最初の理論的解析を行うことにより、このギャップを橋渡しする。
論文 参考訳(メタデータ) (2021-06-14T14:59:05Z) - Behavior-Guided Actor-Critic: Improving Exploration via Learning Policy
Behavior Representation for Deep Reinforcement Learning [0.0]
行動誘導アクタークリティカル(BAC)を非政治アクタークリティカル深部RLアルゴリズムとして提案する。
BACは、オートエンコーダを介してポリシーの挙動を数学的に定式化する。
その結果,いくつかの最先端学習アルゴリズムと比較して,BACの性能は有意に向上した。
論文 参考訳(メタデータ) (2021-04-09T15:22:35Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。