Fugu-MT 論文翻訳(概要): Deep Exploration with PAC-Bayes

論文の概要: Deep Exploration with PAC-Bayes

arxiv url: http://arxiv.org/abs/2402.03055v2
Date: Thu, 03 Oct 2024 09:51:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 07:32:24.773428
Title: Deep Exploration with PAC-Bayes
Title（参考訳）: PAC-Bayesによる深部探査
Authors: Bahareh Tasdighi, Manuel Haussmann, Nicklas Werge, Yi-Shan Wu, Melih Kandemir,
Abstract要約: スパース報酬下での継続的な制御のための強化学習は、実生活における重要性にもかかわらず、未探索の問題である。本研究では,PAC-ベイジアンの視点からアクター・クリティカル・ラーニングの文脈において,この深層探査問題に初めて対処する。提案アルゴリズムは,PAC-Bayesian Actor-Critic (PBAC) と名付けられ,多種多様な連続制御タスクにおけるスパース報酬の発見に成功した唯一のアルゴリズムである。
参考スコア（独自算出の注目度）: 12.622116321154113
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning for continuous control under sparse rewards is an under-explored problem despite its significance in real life. Many complex skills build on intermediate ones as prerequisites. For instance, a humanoid locomotor has to learn how to stand before it can learn to walk. To cope with reward sparsity, a reinforcement learning agent has to perform deep exploration. However, existing deep exploration methods are designed for small discrete action spaces, and their successful generalization to state-of-the-art continuous control remains unproven. We address the deep exploration problem for the first time from a PAC-Bayesian perspective in the context of actor-critic learning. To do this, we quantify the error of the Bellman operator through a PAC-Bayes bound, where a bootstrapped ensemble of critic networks represents the posterior distribution, and their targets serve as a data-informed function-space prior. We derive an objective function from this bound and use it to train the critic ensemble. Each critic trains an individual actor network, implemented as a shared trunk and critic-specific heads. The agent performs deep exploration by acting deterministically on a randomly chosen actor head. Our proposed algorithm, named PAC-Bayesian Actor-Critic (PBAC), is the only algorithm to successfully discover sparse rewards on a diverse set of continuous control tasks with varying difficulty.
Abstract（参考訳）: スパース報酬下での継続的な制御のための強化学習は、実生活における重要性にもかかわらず、未探索の問題である。多くの複雑なスキルは、中間のスキルを前提条件として構築する。例えば、ヒューマノイドの運動士は歩く前に立ち方を学ぶ必要がある。報酬空間に対処するためには、強化学習エージェントが深い探索を行う必要がある。しかし、既存の深層探査法は小さな離散的な行動空間のために設計されており、その最先端の連続制御への一般化はいまだに証明されていない。本研究では,PAC-ベイジアンの視点からアクター・クリティカル・ラーニングの文脈において,この深層探査問題に初めて対処する。そこで,批判ネットワークのブートストラップされたアンサンブルが後続分布を表現し,その対象が事前にデータインフォームド関数空間として機能する,PAC-Bayes境界によるベルマン作用素の誤差を定量化する。我々は、この境界から客観的関数を導き、それを批評家のアンサンブルを訓練するために使用します。各批評家は、共通のトランクとして実装された個々のアクターネットワークと、批評家固有のヘッドを訓練する。エージェントは、ランダムに選択されたアクターヘッドに決定的に作用し、深い探索を行う。提案アルゴリズムはPAC-Bayesian Actor-Critic (PBAC) と名付けられ,多種多様な連続制御タスクにおけるスパース報酬の発見に成功している唯一のアルゴリズムである。

関連論文リスト

Recursive Deep Inverse Reinforcement Learning [16.05411507856928]
対向計画や非協調型マルチエージェントシステムにおいては,相手の行動から相手の目標を推定することが重要である。本稿では, 対向行動と目標を管理する費用関数を復元するオンライン逆強化学習(RDIRL)手法を提案する。
論文参考訳（メタデータ） (2025-04-17T17:39:35Z)
Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-10-31T11:46:48Z)
Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。 LATent TIme-Correlated Exploration (Lattice)を提案する。
論文参考訳（メタデータ） (2023-05-31T17:40:43Z)
Asymptotic Convergence of Deep Multi-Agent Actor-Critic Algorithms [0.6961253535504979]
我々は,多エージェントDeep Deterministic Policy Gradient (DDPG)アルゴリズムの収束を保証する十分な条件を提案する。これは、連続的なアクション空間を扱うためのDeep Reinforcement Learning(DeepRL)の最も人気のあるパラダイムの1つである。
論文参考訳（メタデータ） (2022-01-03T10:33:52Z)
Exploring More When It Needs in Deep Reinforcement Learning [3.442899929543427]
エージェントが必要とするときの騒音付加(AN2N)を探求する深層強化学習における政策のメカニズムを提案する。エージェントが正常に動作していない過去の状態を評価するために累積報酬を使用し、コサイン距離を用いて現在の状態をさらに調査する必要があるかどうかを測定する。半チェタ、ホッパー、スイマーなどの連続制御タスクに適用し、性能と収束速度を大幅に向上させる。
論文参考訳（メタデータ） (2021-09-28T04:29:38Z)
Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文参考訳（メタデータ） (2021-09-21T13:47:04Z)
Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。 CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2021-07-23T20:06:32Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
Adversarially Guided Actor-Critic [42.76141646708985]
本稿では,第3の主人公である敵を紹介した。相手は、各行動分布間のKL分割を最小化して役者を模倣するが、その課題の学習に加えて、相手の予測と差別化しようとする。実験により,Adversarially Guided Actor-Critic (AGAC) アルゴリズムにより,より徹底的な探索が可能となった。
論文参考訳（メタデータ） (2021-02-08T17:31:13Z)
BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文参考訳（メタデータ） (2020-12-15T21:26:54Z)
Batch Exploration with Examples for Scalable Robotic Reinforcement Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。 BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文参考訳（メタデータ） (2020-10-22T17:49:25Z)
Reannealing of Decaying Exploration Based On Heuristic Measure in Deep Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文参考訳（メタデータ） (2020-09-29T20:40:00Z)
GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文参考訳（メタデータ） (2020-09-18T17:58:29Z)
Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。 Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文参考訳（メタデータ） (2020-05-12T17:59:45Z)
Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文参考訳（メタデータ） (2020-02-14T13:57:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。