論文の概要: Deep Exploration with PAC-Bayes
- arxiv url: http://arxiv.org/abs/2402.03055v2
- Date: Thu, 03 Oct 2024 09:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-05 03:34:13.155862
- Title: Deep Exploration with PAC-Bayes
- Title(参考訳): PAC-Bayesによる深部探査
- Authors: Bahareh Tasdighi, Manuel Haussmann, Nicklas Werge, Yi-Shan Wu, Melih Kandemir,
- Abstract要約: スパース報酬下での継続的な制御のための強化学習は、実生活における重要性にもかかわらず、未探索の問題である。
本研究では,PAC-ベイジアンの視点からアクター・クリティカル・ラーニングの文脈において,この深層探査問題に初めて対処する。
提案アルゴリズムは,PAC-Bayesian Actor-Critic (PBAC) と名付けられ,多種多様な連続制御タスクにおけるスパース報酬の発見に成功した唯一のアルゴリズムである。
- 参考スコア(独自算出の注目度): 12.622116321154113
- License:
- Abstract: Reinforcement learning for continuous control under sparse rewards is an under-explored problem despite its significance in real life. Many complex skills build on intermediate ones as prerequisites. For instance, a humanoid locomotor has to learn how to stand before it can learn to walk. To cope with reward sparsity, a reinforcement learning agent has to perform deep exploration. However, existing deep exploration methods are designed for small discrete action spaces, and their successful generalization to state-of-the-art continuous control remains unproven. We address the deep exploration problem for the first time from a PAC-Bayesian perspective in the context of actor-critic learning. To do this, we quantify the error of the Bellman operator through a PAC-Bayes bound, where a bootstrapped ensemble of critic networks represents the posterior distribution, and their targets serve as a data-informed function-space prior. We derive an objective function from this bound and use it to train the critic ensemble. Each critic trains an individual actor network, implemented as a shared trunk and critic-specific heads. The agent performs deep exploration by acting deterministically on a randomly chosen actor head. Our proposed algorithm, named PAC-Bayesian Actor-Critic (PBAC), is the only algorithm to successfully discover sparse rewards on a diverse set of continuous control tasks with varying difficulty.
- Abstract(参考訳): スパース報酬下での継続的な制御のための強化学習は、実生活における重要性にもかかわらず、未探索の問題である。
多くの複雑なスキルは、中間のスキルを前提条件として構築する。
例えば、ヒューマノイドの運動士は歩く前に立ち方を学ぶ必要がある。
報酬空間に対処するためには、強化学習エージェントが深い探索を行う必要がある。
しかし、既存の深層探査法は小さな離散的な行動空間のために設計されており、その最先端の連続制御への一般化はいまだに証明されていない。
本研究では,PAC-ベイジアンの視点からアクター・クリティカル・ラーニングの文脈において,この深層探査問題に初めて対処する。
そこで,批判ネットワークのブートストラップされたアンサンブルが後続分布を表現し,その対象が事前にデータインフォームド関数空間として機能する,PAC-Bayes境界によるベルマン作用素の誤差を定量化する。
我々は、この境界から客観的関数を導き、それを批評家のアンサンブルを訓練するために使用します。
各批評家は、共通のトランクとして実装された個々のアクターネットワークと、批評家固有のヘッドを訓練する。
エージェントは、ランダムに選択されたアクターヘッドに決定的に作用し、深い探索を行う。
提案アルゴリズムはPAC-Bayesian Actor-Critic (PBAC) と名付けられ,多種多様な連続制御タスクにおけるスパース報酬の発見に成功している唯一のアルゴリズムである。
関連論文リスト
- The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Towards Optimal Adversarial Robust Q-learning with Bellman Infinity-error [9.473089575932375]
最近の研究は、国家の敵対的ロバスト性を探究し、最適ロバスト政策(ORP)の潜在的な欠如を示唆している。
我々はベルマン最適政策に適合する決定論的かつ定常なORPの存在を証明した。
この発見は、ベルマン・インフィニティ・エラーのサロゲートを最小限にして、一貫性のある敵対的ロバスト深度Q-Network(CAR-DQN)を訓練する動機となる。
論文 参考訳(メタデータ) (2024-02-03T14:25:33Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery [88.97076030698433]
本稿では,教師なしスキル発見のためのアルゴリズムであるContrastive Intrinsic Control (CIC)を紹介する。
CICは、状態エントロピーを最大化することで、多様な振る舞いを明示的にインセンティブ化する。
CICは従来の教師なしスキル発見手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-02-01T00:36:29Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - A PAC-Bayes Analysis of Adversarial Robustness [0.0]
対向ロバスト性に対する最初の一般PAC-ベイズ境界の一般化を提案する。
PAC-Bayesianフレームワークを利用して、多数決の摂動に対する平均的なリスクを制限します。
論文 参考訳(メタデータ) (2021-02-19T10:23:48Z) - PACOH: Bayes-Optimal Meta-Learning with PAC-Guarantees [77.67258935234403]
PAC-Bayesianフレームワークを用いた理論的解析を行い、メタ学習のための新しい一般化境界を導出する。
我々は、性能保証と原則付きメタレベル正規化を備えたPAC最適メタ学習アルゴリズムのクラスを開発する。
論文 参考訳(メタデータ) (2020-02-13T15:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。