論文の概要: E-MCTS: Deep Exploration in Model-Based Reinforcement Learning by
Planning with Epistemic Uncertainty
- arxiv url: http://arxiv.org/abs/2210.13455v3
- Date: Wed, 30 Aug 2023 10:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 18:02:47.326260
- Title: E-MCTS: Deep Exploration in Model-Based Reinforcement Learning by
Planning with Epistemic Uncertainty
- Title(参考訳): E-MCTS:てんかん不確実性を考慮した計画によるモデルベース強化学習の深層探査
- Authors: Yaniv Oren, Matthijs T. J. Spaan and Wendelin B\"ohmer
- Abstract要約: モンテカルロ木探索法(MCTS)の主な課題は、未知の状況に直面した深い探索と信頼性である。
まず、MCTSにおける不確実性を伝播する手法を開発し、エージェントが予測の不確実性を推定できるようにする。
第2に、探索を明示的に計画することで、新しい深層探査アルゴリズムの伝播不確実性を利用する。
- 参考スコア(独自算出の注目度): 7.399291598113285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most well-studied and highly performing planning approaches used
in Model-Based Reinforcement Learning (MBRL) is Monte-Carlo Tree Search (MCTS).
Key challenges of MCTS-based MBRL methods remain dedicated deep exploration and
reliability in the face of the unknown, and both challenges can be alleviated
through principled epistemic uncertainty estimation in the predictions of MCTS.
We present two main contributions: First, we develop methodology to propagate
epistemic uncertainty in MCTS, enabling agents to estimate the epistemic
uncertainty in their predictions. Second, we utilize the propagated uncertainty
for a novel deep exploration algorithm by explicitly planning to explore. We
incorporate our approach into variations of MCTS-based MBRL approaches with
learned and provided dynamics models, and empirically show deep exploration
through successful epistemic uncertainty estimation achieved by our approach.
We compare to a non-planning-based deep-exploration baseline, and demonstrate
that planning with epistemic MCTS significantly outperforms non-planning based
exploration in the investigated deep exploration benchmark.
- Abstract(参考訳): Model-Based Reinforcement Learning (MBRL) で最もよく研究され、高機能な計画手法の1つはモンテカルロ木探索 (MCTS) である。
MCTSをベースとしたMBRL法の主な課題は、未知の状況下での深層探査と信頼性であり、MCTSの予測における原則的疫学的不確実性推定によって両者の課題を緩和することができる。
まず,mctsにおける認識的不確かさを伝達する手法を開発し,その予測における認識的不確かさをエージェントが推定できるようにする。
第2に,新しい深層探査アルゴリズムの伝播不確実性を利用して,探索を明示的に計画する。
このアプローチをmtsベースのmbrlアプローチと学習と提供のダイナミクスモデルに取り入れ,そのアプローチによって達成された認識論的不確実性推定による深い探索を実証的に示す。
本研究は,非計画に基づく深層探査ベースラインと比較し,非計画に基づく深部調査ベンチマークにおいて,MCTSを用いた計画が有意に優れていることを示す。
関連論文リスト
- Is Epistemic Uncertainty Faithfully Represented by Evidential Deep
Learning Methods? [12.88166582566313]
本稿では,顕在的深層学習の新たな理論的考察について述べる。
これは二階損失関数の最適化の難しさを強調している。
第二次損失最小化における識別可能性と収束性の問題に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-02-14T10:07:05Z) - Mind the Uncertainty: Risk-Aware and Actively Exploring Model-Based
Reinforcement Learning [26.497229327357935]
トラジェクティブサンプリングを用いたモデルベース強化学習におけるリスク管理手法を提案する。
実験により、不確実性の分離は、不確実かつ安全クリティカルな制御環境において、データ駆動型アプローチとうまく連携するために不可欠であることが示されている。
論文 参考訳(メタデータ) (2023-09-11T16:10:58Z) - Sample-efficient Real-time Planning with Curiosity Cross-Entropy Method
and Contrastive Learning [21.995159117991278]
そこで我々はCuriosity CEMを提案する。Curiosity CEMはCEM(Cross-Entropy Method)アルゴリズムの改良版である。
提案手法は,計画地平線上の状態-作用Q値の総和を最大化し,これらのQ値が将来の外因性および内因性報酬を推定する。
DeepMind Controlスイートによるイメージベース連続制御タスクの実験では、CCEMは以前のMBRLアルゴリズムよりも大きなマージンでサンプリング効率が高いことが示されている。
論文 参考訳(メタデータ) (2023-03-07T10:48:20Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Provable Generalization of Overparameterized Meta-learning Trained with
SGD [62.892930625034374]
我々は、広く使われているメタラーニング手法、モデル非依存メタラーニング(MAML)の一般化について研究する。
我々は、MAMLの過大なリスクに対して、上界と下界の両方を提供し、SGDダイナミクスがこれらの一般化境界にどのように影響するかをキャプチャする。
理論的知見は実験によってさらに検証される。
論文 参考訳(メタデータ) (2022-06-18T07:22:57Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z) - Uncertainty Estimation in Medical Image Localization: Towards Robust
Anterior Thalamus Targeting for Deep Brain Stimulation [11.910765921234333]
本稿では,2段階の深層学習(DL)フレームワークを提案する。
第1段階は、脳MRI全体から視床領域を特定して収穫する。
第2段階は、最も微細な解像度スケールで目標をローカライズするために、収穫された体積に対してボクセル単位の回帰を行う。
論文 参考訳(メタデータ) (2020-11-03T23:43:52Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - On the uncertainty of self-supervised monocular depth estimation [52.13311094743952]
単眼深度推定のための自己監督的パラダイムは、基礎的な真理アノテーションを全く必要としないため、非常に魅力的である。
我々は,このタスクの不確かさを推定する方法と,これが深さ精度にどのように影響するかを初めて検討する。
自己教師型アプローチに特化して設計された,斬新な手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T09:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。