論文の概要: BADDr: Bayes-Adaptive Deep Dropout RL for POMDPs
- arxiv url: http://arxiv.org/abs/2202.08884v1
- Date: Thu, 17 Feb 2022 19:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 13:02:45.069625
- Title: BADDr: Bayes-Adaptive Deep Dropout RL for POMDPs
- Title(参考訳): BADDr:PMDP用ベイズ適応型ディープドロップアウトRL
- Authors: Sammie Katt, Hai Nguyen, Frans A. Oliehoek, Christopher Amato
- Abstract要約: BRLの表現非依存な定式化を部分的に観測可能とし,従来のモデルを1つの理論的傘の下で統一する。
また,新しい導出手法であるBayes-Adaptive Deep Dropout rl (BADDr)を提案する。
- 参考スコア(独自算出の注目度): 22.78390558602203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning (RL) has made great advances in scalability,
exploration and partial observability are still active research topics. In
contrast, Bayesian RL (BRL) provides a principled answer to both state
estimation and the exploration-exploitation trade-off, but struggles to scale.
To tackle this challenge, BRL frameworks with various prior assumptions have
been proposed, with varied success. This work presents a
representation-agnostic formulation of BRL under partially observability,
unifying the previous models under one theoretical umbrella. To demonstrate its
practical significance we also propose a novel derivation, Bayes-Adaptive Deep
Dropout rl (BADDr), based on dropout networks. Under this parameterization, in
contrast to previous work, the belief over the state and dynamics is a more
scalable inference problem. We choose actions through Monte-Carlo tree search
and empirically show that our method is competitive with state-of-the-art BRL
methods on small domains while being able to solve much larger ones.
- Abstract(参考訳): 強化学習(RL)はスケーラビリティに大きな進歩を遂げているが、探索と部分観測可能性はまだ研究トピックとして活発である。
対照的に、ベイジアンRL(BRL)は、州の推定と探索・探索のトレードオフの両方に対して原則的な答えを提供するが、スケールに苦慮している。
この課題に対処するため、様々な前提を持つBRLフレームワークが提案され、様々な成功を収めている。
この研究は、部分的に可観測性の下でのBRLの表現に依存しない定式化を示し、1つの理論的な傘の下で以前のモデルを統一する。
また,その実用性を示すために,ドロップアウトネットワークに基づく新しい導出手法Bayes-Adaptive Deep Dropout rl (BADDr)を提案する。
このパラメータ化の下では、以前の仕事とは対照的に、状態とダイナミクスに対する信念は、よりスケーラブルな推論問題である。
我々はモンテカルロ木探索による行動選択を行い、我々の手法がより大きい領域を解きながら、小さな領域における最先端のBRL法と競合することを示す。
関連論文リスト
- Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Bag of Policies for Distributional Deep Exploration [7.522221438479138]
Bag of Policies (BoP) はリターン分布推定器上に構築されており、コピーの個体数を維持する。
トレーニング中、各エピソードは1つのヘッドで制御され、収集されたステートアクションペアはすべてのヘッドをオフ・ポリティに更新するために使用される。
ALE Atariゲームにおける実験結果から,BoPは学習時の堅牢性や速度が向上することが示された。
論文 参考訳(メタデータ) (2023-08-03T13:43:03Z) - ContraBAR: Contrastive Bayes-Adaptive Deep RL [22.649531458557206]
メタ強化学習(メタRL)では、エージェントが未知のタスクに直面するときの最適なポリシーであるベイズ最適ポリシーを求める。
ベイズ最適行動の学習にコントラスト法が有効かどうかを検討する。
本稿では,変分的信念推論の代わりにコントラスト的予測符号化(CPC)を用いる単純なメタRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-04T17:50:20Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - A Survey on Model-based Reinforcement Learning [21.85904195671014]
強化学習(Reinforcement Learning, RL)は、環境と対話する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。
モデルベース強化学習(MBRL)は有望な方向であり、実際のコストなしで試行錯誤を行う環境モデルを構築する。
論文 参考訳(メタデータ) (2022-06-19T05:28:03Z) - Generalization in Deep RL for TSP Problems via Equivariance and Local
Search [21.07325126324399]
本稿では,新しいRL学習手法を用いて学習する,シンプルなディープラーニングアーキテクチャを提案する。
我々は,関連する最先端の深部RL法に対して,ランダムかつ現実的なTSP問題に関する提案を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-07T16:20:37Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Principled Exploration via Optimistic Bootstrapping and Backward
Induction [84.78836146128238]
最適ブートストラップ・バックワード誘導(OB2I)による深層強化学習(DRL)の原理的探索法を提案する。
OB2IはDRLの非パラメトリックブートストラップを介して汎用UCB結合を構築する。
提案する UCB-bonus と LSVI-UCB の理論的接続を線形に構築する。
論文 参考訳(メタデータ) (2021-05-13T01:15:44Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Making Sense of Reinforcement Learning and Probabilistic Inference [15.987913388420667]
強化学習(RL)は、制御問題と統計的推定を組み合わせたものである。
推論の近似として人気の高いRLは、非常に基本的な問題でさえも性能が良くないことを示す。
わずかな修正で、このフレームワークは、確実に性能を発揮できるアルゴリズムを生成できることを示す。
論文 参考訳(メタデータ) (2020-01-03T12:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。