論文の概要: Probabilistic Actor-Critic: Learning to Explore with PAC-Bayes
Uncertainty
- arxiv url: http://arxiv.org/abs/2402.03055v1
- Date: Mon, 5 Feb 2024 14:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:47:22.730397
- Title: Probabilistic Actor-Critic: Learning to Explore with PAC-Bayes
Uncertainty
- Title(参考訳): 確率的アクター批判:PAC-Bayes不確実性による探索の学習
- Authors: Bahareh Tasdighi, Nicklas Werge, Yi-Shan Wu, Melih Kandemir
- Abstract要約: 本稿では,連続制御を改良した新しい強化学習アルゴリズムである確率的アクタ批判(PAC)を紹介する。
PACは、ポリシーと批評家を統合することでこれを達成し、批判の不確実性の推定とアクタートレーニングのダイナミックな相乗効果を生み出す。
- 参考スコア(独自算出の注目度): 14.348879224354125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Probabilistic Actor-Critic (PAC), a novel reinforcement learning
algorithm with improved continuous control performance thanks to its ability to
mitigate the exploration-exploitation trade-off. PAC achieves this by
seamlessly integrating stochastic policies and critics, creating a dynamic
synergy between the estimation of critic uncertainty and actor training. The
key contribution of our PAC algorithm is that it explicitly models and infers
epistemic uncertainty in the critic through Probably Approximately
Correct-Bayesian (PAC-Bayes) analysis. This incorporation of critic uncertainty
enables PAC to adapt its exploration strategy as it learns, guiding the actor's
decision-making process. PAC compares favorably against fixed or pre-scheduled
exploration schemes of the prior art. The synergy between stochastic policies
and critics, guided by PAC-Bayes analysis, represents a fundamental step
towards a more adaptive and effective exploration strategy in deep
reinforcement learning. We report empirical evaluations demonstrating PAC's
enhanced stability and improved performance over the state of the art in
diverse continuous control problems.
- Abstract(参考訳): 我々は,探索・探索トレードオフを軽減する能力により,連続制御性能が向上した新しい強化学習アルゴリズムであるprobabilistic actor-critic (pac)を提案する。
PACは、確率的ポリシーと批評家をシームレスに統合し、批判の不確実性の推定とアクタートレーニングのダイナミックな相乗効果を生んでいる。
我々のPACアルゴリズムの重要な貢献は、PAC-Bayesian (Probably Aough Correct-Bayesian) 分析により、批判者の疫学的不確実性を明示的にモデル化し、推論することである。
この批判の不確実性の取り込みは、PACが学習するにつれて探索戦略に適応し、アクターの意思決定プロセスを導くことを可能にする。
PACは、先行技術の固定または事前の探査スキームと比較して好意的に比較する。
PAC-Bayes分析によって導かれた確率的政策と批判の相乗効果は、深層強化学習におけるより適応的で効果的な探索戦略への根本的な一歩である。
我々は,pacの安定性の向上と,様々な連続制御問題における最先端性能の向上を実証した経験的評価を報告する。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Adversarially Guided Actor-Critic [42.76141646708985]
本稿では,第3の主人公である敵を紹介した。
相手は、各行動分布間のKL分割を最小化して役者を模倣するが、その課題の学習に加えて、相手の予測と差別化しようとする。
実験により,Adversarially Guided Actor-Critic (AGAC) アルゴリズムにより,より徹底的な探索が可能となった。
論文 参考訳(メタデータ) (2021-02-08T17:31:13Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文 参考訳(メタデータ) (2020-09-18T17:58:29Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。