論文の概要: Probabilistic Actor-Critic: Learning to Explore with PAC-Bayes
Uncertainty
- arxiv url: http://arxiv.org/abs/2402.03055v1
- Date: Mon, 5 Feb 2024 14:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:47:22.730397
- Title: Probabilistic Actor-Critic: Learning to Explore with PAC-Bayes
Uncertainty
- Title(参考訳): 確率的アクター批判:PAC-Bayes不確実性による探索の学習
- Authors: Bahareh Tasdighi, Nicklas Werge, Yi-Shan Wu, Melih Kandemir
- Abstract要約: 本稿では,連続制御を改良した新しい強化学習アルゴリズムである確率的アクタ批判(PAC)を紹介する。
PACは、ポリシーと批評家を統合することでこれを達成し、批判の不確実性の推定とアクタートレーニングのダイナミックな相乗効果を生み出す。
- 参考スコア(独自算出の注目度): 14.348879224354125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Probabilistic Actor-Critic (PAC), a novel reinforcement learning
algorithm with improved continuous control performance thanks to its ability to
mitigate the exploration-exploitation trade-off. PAC achieves this by
seamlessly integrating stochastic policies and critics, creating a dynamic
synergy between the estimation of critic uncertainty and actor training. The
key contribution of our PAC algorithm is that it explicitly models and infers
epistemic uncertainty in the critic through Probably Approximately
Correct-Bayesian (PAC-Bayes) analysis. This incorporation of critic uncertainty
enables PAC to adapt its exploration strategy as it learns, guiding the actor's
decision-making process. PAC compares favorably against fixed or pre-scheduled
exploration schemes of the prior art. The synergy between stochastic policies
and critics, guided by PAC-Bayes analysis, represents a fundamental step
towards a more adaptive and effective exploration strategy in deep
reinforcement learning. We report empirical evaluations demonstrating PAC's
enhanced stability and improved performance over the state of the art in
diverse continuous control problems.
- Abstract(参考訳): 我々は,探索・探索トレードオフを軽減する能力により,連続制御性能が向上した新しい強化学習アルゴリズムであるprobabilistic actor-critic (pac)を提案する。
PACは、確率的ポリシーと批評家をシームレスに統合し、批判の不確実性の推定とアクタートレーニングのダイナミックな相乗効果を生んでいる。
我々のPACアルゴリズムの重要な貢献は、PAC-Bayesian (Probably Aough Correct-Bayesian) 分析により、批判者の疫学的不確実性を明示的にモデル化し、推論することである。
この批判の不確実性の取り込みは、PACが学習するにつれて探索戦略に適応し、アクターの意思決定プロセスを導くことを可能にする。
PACは、先行技術の固定または事前の探査スキームと比較して好意的に比較する。
PAC-Bayes分析によって導かれた確率的政策と批判の相乗効果は、深層強化学習におけるより適応的で効果的な探索戦略への根本的な一歩である。
我々は,pacの安定性の向上と,様々な連続制御問題における最先端性能の向上を実証した経験的評価を報告する。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Exploring More When It Needs in Deep Reinforcement Learning [3.442899929543427]
エージェントが必要とするときの騒音付加(AN2N)を探求する深層強化学習における政策のメカニズムを提案する。
エージェントが正常に動作していない過去の状態を評価するために累積報酬を使用し、コサイン距離を用いて現在の状態をさらに調査する必要があるかどうかを測定する。
半チェタ、ホッパー、スイマーなどの連続制御タスクに適用し、性能と収束速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-09-28T04:29:38Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Adversarially Guided Actor-Critic [42.76141646708985]
本稿では,第3の主人公である敵を紹介した。
相手は、各行動分布間のKL分割を最小化して役者を模倣するが、その課題の学習に加えて、相手の予測と差別化しようとする。
実験により,Adversarially Guided Actor-Critic (AGAC) アルゴリズムにより,より徹底的な探索が可能となった。
論文 参考訳(メタデータ) (2021-02-08T17:31:13Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文 参考訳(メタデータ) (2020-09-18T17:58:29Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。