論文の概要: Probabilistic Actor-Critic: Learning to Explore with PAC-Bayes
Uncertainty
- arxiv url: http://arxiv.org/abs/2402.03055v1
- Date: Mon, 5 Feb 2024 14:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:47:22.730397
- Title: Probabilistic Actor-Critic: Learning to Explore with PAC-Bayes
Uncertainty
- Title(参考訳): 確率的アクター批判:PAC-Bayes不確実性による探索の学習
- Authors: Bahareh Tasdighi, Nicklas Werge, Yi-Shan Wu, Melih Kandemir
- Abstract要約: 本稿では,連続制御を改良した新しい強化学習アルゴリズムである確率的アクタ批判(PAC)を紹介する。
PACは、ポリシーと批評家を統合することでこれを達成し、批判の不確実性の推定とアクタートレーニングのダイナミックな相乗効果を生み出す。
- 参考スコア(独自算出の注目度): 14.348879224354125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Probabilistic Actor-Critic (PAC), a novel reinforcement learning
algorithm with improved continuous control performance thanks to its ability to
mitigate the exploration-exploitation trade-off. PAC achieves this by
seamlessly integrating stochastic policies and critics, creating a dynamic
synergy between the estimation of critic uncertainty and actor training. The
key contribution of our PAC algorithm is that it explicitly models and infers
epistemic uncertainty in the critic through Probably Approximately
Correct-Bayesian (PAC-Bayes) analysis. This incorporation of critic uncertainty
enables PAC to adapt its exploration strategy as it learns, guiding the actor's
decision-making process. PAC compares favorably against fixed or pre-scheduled
exploration schemes of the prior art. The synergy between stochastic policies
and critics, guided by PAC-Bayes analysis, represents a fundamental step
towards a more adaptive and effective exploration strategy in deep
reinforcement learning. We report empirical evaluations demonstrating PAC's
enhanced stability and improved performance over the state of the art in
diverse continuous control problems.
- Abstract(参考訳): 我々は,探索・探索トレードオフを軽減する能力により,連続制御性能が向上した新しい強化学習アルゴリズムであるprobabilistic actor-critic (pac)を提案する。
PACは、確率的ポリシーと批評家をシームレスに統合し、批判の不確実性の推定とアクタートレーニングのダイナミックな相乗効果を生んでいる。
我々のPACアルゴリズムの重要な貢献は、PAC-Bayesian (Probably Aough Correct-Bayesian) 分析により、批判者の疫学的不確実性を明示的にモデル化し、推論することである。
この批判の不確実性の取り込みは、PACが学習するにつれて探索戦略に適応し、アクターの意思決定プロセスを導くことを可能にする。
PACは、先行技術の固定または事前の探査スキームと比較して好意的に比較する。
PAC-Bayes分析によって導かれた確率的政策と批判の相乗効果は、深層強化学習におけるより適応的で効果的な探索戦略への根本的な一歩である。
我々は,pacの安定性の向上と,様々な連続制御問題における最先端性能の向上を実証した経験的評価を報告する。
関連論文リスト
- Towards Optimal Adversarial Robust Q-learning with Bellman
Infinity-error [9.88109749688605]
最近の研究は、国家の敵対的ロバスト性を探究し、最適ロバスト政策(ORP)の潜在的な欠如を示唆している。
我々はベルマン最適政策に適合する決定論的かつ定常なORPの存在を証明した。
この発見は、ベルマン・インフィニティ・エラーのサロゲートを最小限にして、一貫性のある敵対的ロバスト深度Q-Network(CAR-DQN)を訓練する動機となる。
論文 参考訳(メタデータ) (2024-02-03T14:25:33Z) - PAC-Bayesian Soft Actor-Critic Learning [10.462479979608021]
アクター批判アルゴリズムは2つの関数近似器を通して強化学習(RL)と政策評価と改善の両目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep
Reinforcement Learning [1.8220718426493654]
本稿では,ベイズ連鎖に基づく新規な非巡回戦略グラフ分解手法を提案する。
我々は、このアプローチを最先端DRL法、ソフトアクター・クリティック(SAC)に統合する。
ベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築し, 共同政策としていくつかのサブ政治を組織化することによって, 対応するベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築する。
論文 参考訳(メタデータ) (2022-08-11T20:36:23Z) - CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery [88.97076030698433]
本稿では,教師なしスキル発見のためのアルゴリズムであるContrastive Intrinsic Control (CIC)を紹介する。
CICは、状態エントロピーを最大化することで、多様な振る舞いを明示的にインセンティブ化する。
CICは従来の教師なしスキル発見手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-02-01T00:36:29Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - A PAC-Bayes Analysis of Adversarial Robustness [0.0]
対向ロバスト性に対する最初の一般PAC-ベイズ境界の一般化を提案する。
PAC-Bayesianフレームワークを利用して、多数決の摂動に対する平均的なリスクを制限します。
論文 参考訳(メタデータ) (2021-02-19T10:23:48Z) - PACOH: Bayes-Optimal Meta-Learning with PAC-Guarantees [77.67258935234403]
PAC-Bayesianフレームワークを用いた理論的解析を行い、メタ学習のための新しい一般化境界を導出する。
我々は、性能保証と原則付きメタレベル正規化を備えたPAC最適メタ学習アルゴリズムのクラスを開発する。
論文 参考訳(メタデータ) (2020-02-13T15:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。