論文の概要: Deep Exploration with PAC-Bayes
- arxiv url: http://arxiv.org/abs/2402.03055v2
- Date: Thu, 03 Oct 2024 09:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-05 03:34:13.155862
- Title: Deep Exploration with PAC-Bayes
- Title(参考訳): PAC-Bayesによる深部探査
- Authors: Bahareh Tasdighi, Manuel Haussmann, Nicklas Werge, Yi-Shan Wu, Melih Kandemir,
- Abstract要約: スパース報酬下での継続的な制御のための強化学習は、実生活における重要性にもかかわらず、未探索の問題である。
本研究では,PAC-ベイジアンの視点からアクター・クリティカル・ラーニングの文脈において,この深層探査問題に初めて対処する。
提案アルゴリズムは,PAC-Bayesian Actor-Critic (PBAC) と名付けられ,多種多様な連続制御タスクにおけるスパース報酬の発見に成功した唯一のアルゴリズムである。
- 参考スコア(独自算出の注目度): 12.622116321154113
- License:
- Abstract: Reinforcement learning for continuous control under sparse rewards is an under-explored problem despite its significance in real life. Many complex skills build on intermediate ones as prerequisites. For instance, a humanoid locomotor has to learn how to stand before it can learn to walk. To cope with reward sparsity, a reinforcement learning agent has to perform deep exploration. However, existing deep exploration methods are designed for small discrete action spaces, and their successful generalization to state-of-the-art continuous control remains unproven. We address the deep exploration problem for the first time from a PAC-Bayesian perspective in the context of actor-critic learning. To do this, we quantify the error of the Bellman operator through a PAC-Bayes bound, where a bootstrapped ensemble of critic networks represents the posterior distribution, and their targets serve as a data-informed function-space prior. We derive an objective function from this bound and use it to train the critic ensemble. Each critic trains an individual actor network, implemented as a shared trunk and critic-specific heads. The agent performs deep exploration by acting deterministically on a randomly chosen actor head. Our proposed algorithm, named PAC-Bayesian Actor-Critic (PBAC), is the only algorithm to successfully discover sparse rewards on a diverse set of continuous control tasks with varying difficulty.
- Abstract(参考訳): スパース報酬下での継続的な制御のための強化学習は、実生活における重要性にもかかわらず、未探索の問題である。
多くの複雑なスキルは、中間のスキルを前提条件として構築する。
例えば、ヒューマノイドの運動士は歩く前に立ち方を学ぶ必要がある。
報酬空間に対処するためには、強化学習エージェントが深い探索を行う必要がある。
しかし、既存の深層探査法は小さな離散的な行動空間のために設計されており、その最先端の連続制御への一般化はいまだに証明されていない。
本研究では,PAC-ベイジアンの視点からアクター・クリティカル・ラーニングの文脈において,この深層探査問題に初めて対処する。
そこで,批判ネットワークのブートストラップされたアンサンブルが後続分布を表現し,その対象が事前にデータインフォームド関数空間として機能する,PAC-Bayes境界によるベルマン作用素の誤差を定量化する。
我々は、この境界から客観的関数を導き、それを批評家のアンサンブルを訓練するために使用します。
各批評家は、共通のトランクとして実装された個々のアクターネットワークと、批評家固有のヘッドを訓練する。
エージェントは、ランダムに選択されたアクターヘッドに決定的に作用し、深い探索を行う。
提案アルゴリズムはPAC-Bayesian Actor-Critic (PBAC) と名付けられ,多種多様な連続制御タスクにおけるスパース報酬の発見に成功している唯一のアルゴリズムである。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Adversarially Guided Actor-Critic [42.76141646708985]
本稿では,第3の主人公である敵を紹介した。
相手は、各行動分布間のKL分割を最小化して役者を模倣するが、その課題の学習に加えて、相手の予測と差別化しようとする。
実験により,Adversarially Guided Actor-Critic (AGAC) アルゴリズムにより,より徹底的な探索が可能となった。
論文 参考訳(メタデータ) (2021-02-08T17:31:13Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文 参考訳(メタデータ) (2020-09-18T17:58:29Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。