Fugu-MT 論文翻訳(概要): Probabilistic Actor-Critic: Learning to Explore with PAC-Bayes Uncertainty

論文の概要: Probabilistic Actor-Critic: Learning to Explore with PAC-Bayes Uncertainty

arxiv url: http://arxiv.org/abs/2402.03055v1
Date: Mon, 5 Feb 2024 14:42:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 15:47:22.730397
Title: Probabilistic Actor-Critic: Learning to Explore with PAC-Bayes Uncertainty
Title（参考訳）: 確率的アクター批判:PAC-Bayes不確実性による探索の学習
Authors: Bahareh Tasdighi, Nicklas Werge, Yi-Shan Wu, Melih Kandemir
Abstract要約: 本稿では,連続制御を改良した新しい強化学習アルゴリズムである確率的アクタ批判(PAC)を紹介する。 PACは、ポリシーと批評家を統合することでこれを達成し、批判の不確実性の推定とアクタートレーニングのダイナミックな相乗効果を生み出す。
参考スコア（独自算出の注目度）: 14.348879224354125
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Probabilistic Actor-Critic (PAC), a novel reinforcement learning algorithm with improved continuous control performance thanks to its ability to mitigate the exploration-exploitation trade-off. PAC achieves this by seamlessly integrating stochastic policies and critics, creating a dynamic synergy between the estimation of critic uncertainty and actor training. The key contribution of our PAC algorithm is that it explicitly models and infers epistemic uncertainty in the critic through Probably Approximately Correct-Bayesian (PAC-Bayes) analysis. This incorporation of critic uncertainty enables PAC to adapt its exploration strategy as it learns, guiding the actor's decision-making process. PAC compares favorably against fixed or pre-scheduled exploration schemes of the prior art. The synergy between stochastic policies and critics, guided by PAC-Bayes analysis, represents a fundamental step towards a more adaptive and effective exploration strategy in deep reinforcement learning. We report empirical evaluations demonstrating PAC's enhanced stability and improved performance over the state of the art in diverse continuous control problems.
Abstract（参考訳）: 我々は,探索・探索トレードオフを軽減する能力により,連続制御性能が向上した新しい強化学習アルゴリズムであるprobabilistic actor-critic (pac)を提案する。 PACは、確率的ポリシーと批評家をシームレスに統合し、批判の不確実性の推定とアクタートレーニングのダイナミックな相乗効果を生んでいる。我々のPACアルゴリズムの重要な貢献は、PAC-Bayesian (Probably Aough Correct-Bayesian) 分析により、批判者の疫学的不確実性を明示的にモデル化し、推論することである。この批判の不確実性の取り込みは、PACが学習するにつれて探索戦略に適応し、アクターの意思決定プロセスを導くことを可能にする。 PACは、先行技術の固定または事前の探査スキームと比較して好意的に比較する。 PAC-Bayes分析によって導かれた確率的政策と批判の相乗効果は、深層強化学習におけるより適応的で効果的な探索戦略への根本的な一歩である。我々は,pacの安定性の向上と,様々な連続制御問題における最先端性能の向上を実証した経験的評価を報告する。

関連論文リスト

Recursive Deep Inverse Reinforcement Learning [16.05411507856928]
対向計画や非協調型マルチエージェントシステムにおいては,相手の行動から相手の目標を推定することが重要である。本稿では, 対向行動と目標を管理する費用関数を復元するオンライン逆強化学習(RDIRL)手法を提案する。
論文参考訳（メタデータ） (2025-04-17T17:39:35Z)
Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-10-31T11:46:48Z)
Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。 LATent TIme-Correlated Exploration (Lattice)を提案する。
論文参考訳（メタデータ） (2023-05-31T17:40:43Z)
Asymptotic Convergence of Deep Multi-Agent Actor-Critic Algorithms [0.6961253535504979]
我々は,多エージェントDeep Deterministic Policy Gradient (DDPG)アルゴリズムの収束を保証する十分な条件を提案する。これは、連続的なアクション空間を扱うためのDeep Reinforcement Learning(DeepRL)の最も人気のあるパラダイムの1つである。
論文参考訳（メタデータ） (2022-01-03T10:33:52Z)
Exploring More When It Needs in Deep Reinforcement Learning [3.442899929543427]
エージェントが必要とするときの騒音付加(AN2N)を探求する深層強化学習における政策のメカニズムを提案する。エージェントが正常に動作していない過去の状態を評価するために累積報酬を使用し、コサイン距離を用いて現在の状態をさらに調査する必要があるかどうかを測定する。半チェタ、ホッパー、スイマーなどの連続制御タスクに適用し、性能と収束速度を大幅に向上させる。
論文参考訳（メタデータ） (2021-09-28T04:29:38Z)
Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文参考訳（メタデータ） (2021-09-21T13:47:04Z)
Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。 CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2021-07-23T20:06:32Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
Adversarially Guided Actor-Critic [42.76141646708985]
本稿では,第3の主人公である敵を紹介した。相手は、各行動分布間のKL分割を最小化して役者を模倣するが、その課題の学習に加えて、相手の予測と差別化しようとする。実験により,Adversarially Guided Actor-Critic (AGAC) アルゴリズムにより,より徹底的な探索が可能となった。
論文参考訳（メタデータ） (2021-02-08T17:31:13Z)
BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文参考訳（メタデータ） (2020-12-15T21:26:54Z)
Batch Exploration with Examples for Scalable Robotic Reinforcement Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。 BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文参考訳（メタデータ） (2020-10-22T17:49:25Z)
Reannealing of Decaying Exploration Based On Heuristic Measure in Deep Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文参考訳（メタデータ） (2020-09-29T20:40:00Z)
GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文参考訳（メタデータ） (2020-09-18T17:58:29Z)
Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。 Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文参考訳（メタデータ） (2020-05-12T17:59:45Z)
Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文参考訳（メタデータ） (2020-02-14T13:57:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。