Fugu-MT 論文翻訳(概要): E-MCTS: Deep Exploration in Model-Based Reinforcement Learning by Planning with Epistemic Uncertainty

論文の概要: E-MCTS: Deep Exploration in Model-Based Reinforcement Learning by Planning with Epistemic Uncertainty

arxiv url: http://arxiv.org/abs/2210.13455v3
Date: Wed, 30 Aug 2023 10:27:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 18:02:47.326260
Title: E-MCTS: Deep Exploration in Model-Based Reinforcement Learning by Planning with Epistemic Uncertainty
Title（参考訳）: E-MCTS:てんかん不確実性を考慮した計画によるモデルベース強化学習の深層探査
Authors: Yaniv Oren, Matthijs T. J. Spaan and Wendelin B\"ohmer
Abstract要約: モンテカルロ木探索法(MCTS)の主な課題は、未知の状況に直面した深い探索と信頼性である。まず、MCTSにおける不確実性を伝播する手法を開発し、エージェントが予測の不確実性を推定できるようにする。第2に、探索を明示的に計画することで、新しい深層探査アルゴリズムの伝播不確実性を利用する。
参考スコア（独自算出の注目度）: 7.399291598113285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the most well-studied and highly performing planning approaches used in Model-Based Reinforcement Learning (MBRL) is Monte-Carlo Tree Search (MCTS). Key challenges of MCTS-based MBRL methods remain dedicated deep exploration and reliability in the face of the unknown, and both challenges can be alleviated through principled epistemic uncertainty estimation in the predictions of MCTS. We present two main contributions: First, we develop methodology to propagate epistemic uncertainty in MCTS, enabling agents to estimate the epistemic uncertainty in their predictions. Second, we utilize the propagated uncertainty for a novel deep exploration algorithm by explicitly planning to explore. We incorporate our approach into variations of MCTS-based MBRL approaches with learned and provided dynamics models, and empirically show deep exploration through successful epistemic uncertainty estimation achieved by our approach. We compare to a non-planning-based deep-exploration baseline, and demonstrate that planning with epistemic MCTS significantly outperforms non-planning based exploration in the investigated deep exploration benchmark.
Abstract（参考訳）: Model-Based Reinforcement Learning (MBRL) で最もよく研究され、高機能な計画手法の1つはモンテカルロ木探索 (MCTS) である。 MCTSをベースとしたMBRL法の主な課題は、未知の状況下での深層探査と信頼性であり、MCTSの予測における原則的疫学的不確実性推定によって両者の課題を緩和することができる。まず,mctsにおける認識的不確かさを伝達する手法を開発し,その予測における認識的不確かさをエージェントが推定できるようにする。第2に,新しい深層探査アルゴリズムの伝播不確実性を利用して,探索を明示的に計画する。このアプローチをmtsベースのmbrlアプローチと学習と提供のダイナミクスモデルに取り入れ,そのアプローチによって達成された認識論的不確実性推定による深い探索を実証的に示す。本研究は,非計画に基づく深層探査ベースラインと比較し,非計画に基づく深部調査ベンチマークにおいて,MCTSを用いた計画が有意に優れていることを示す。

関連論文リスト

ACMamba: Fast Unsupervised Anomaly Detection via An Asymmetrical Consensus State Space Model [51.83639270669481]
ハイパースペクトル画像(HSI)における教師なし異常検出は、背景から未知のターゲットを検出することを目的としている。 HSI研究は、HSIの高次元特性と高密度サンプリングベーストレーニングパラダイムにより、計算コストの急激さによって妨げられている。計算コストを大幅に削減する非対称コンセンサス状態空間モデル(ACMamba)を提案する。
論文参考訳（メタデータ） (2025-04-16T05:33:42Z)
Multi-LLM Collaborative Search for Complex Problem Solving [54.194370845153784]
そこで我々は,Mixture-of-Search-Agents(MoSA)パラダイムを提案する。 MoSAは、独立した探索とLCM間の反復的精錬を組み合わせることで、様々な推論経路を統合する。モンテカルロ木探索(MCTS)をバックボーンとして使用することにより、複数のエージェントが推論ステップを提案して集約することが可能となり、精度が向上する。
論文参考訳（メタデータ） (2025-02-26T06:31:04Z)
Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文参考訳（メタデータ） (2024-05-30T12:42:05Z)
Amplifying Exploration in Monte-Carlo Tree Search by Focusing on the Unknown [19.664506834858244]
モンテカルロ木探索(MCTS)は、探索木の有望なセグメントに焦点を合わせるために、戦略的に計算資源を割り当てる。提案手法はAmEx-MCTSと呼ばれ,新しいMCTSの定式化を導入することでこの問題を解決する。実験による評価は,AMEx-MCTSの優れた性能を示し,従来のMCTSと関連するアプローチを実質的なマージンで上回っている。
論文参考訳（メタデータ） (2024-02-13T15:05:54Z)
Evaluating tree-based imputation methods as an alternative to MICE PMM for drawing inference in empirical studies [0.5892638927736115]
欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
論文参考訳（メタデータ） (2024-01-17T21:28:00Z)
Exploration via Epistemic Value Estimation [22.54793586116019]
本稿では、逐次意思決定とニューラルネットワーク関数近似器との互換性のあるレシピを提案する。全てのパラメータに対して引き込み可能な後部エージェントを装備し、そこからてんかんの値の不確実性を効率的に計算することができる。実験により、EVEのレシピはハードな探査作業における効率的な探索を容易にすることが確認された。
論文参考訳（メタデータ） (2023-03-07T16:25:52Z)
Uncertainty Estimation by Fisher Information-based Evidential Deep Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文参考訳（メタデータ） (2023-03-03T16:12:59Z)
Uncertainty in Extreme Multi-label Classification [81.14232824864787]
eXtreme Multi-label Classification (XMC)は、Webスケールの機械学習アプリケーションにおいて、ビッグデータの時代において不可欠なタスクである。本稿では,確率的アンサンブルに基づく木系XMCモデルの一般的な不確実性定量化手法について検討する。特に,XMCにおけるラベルレベルおよびインスタンスレベルの不確実性を解析し,ビームサーチに基づく一般的な近似フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-18T20:54:33Z)
Learning Hidden Markov Models When the Locations of Missing Observations are Unknown [54.40592050737724]
本研究では、未知の観測位置を持つデータからHMMを学習する際の一般的な問題について考察する。我々は、下層の鎖の構造に関する仮定を一切必要としない再構成アルゴリズムを提供する。適切な仕様の下では、プロセスのダイナミクスを再構築でき、また、見当たらない観測位置が分かっていたとしても、その有効性を示す。
論文参考訳（メタデータ） (2022-03-12T22:40:43Z)
DeepPAMM: Deep Piecewise Exponential Additive Mixed Models for Complex Hazard Structures in Survival Analysis [0.7349727826230864]
サバイバル分析(英: Survival analysis、SA)は、時間と時間に関する研究の活発な分野である。その重要性にもかかわらず、SAは小規模なデータセットと複雑な結果分布のために依然として困難である。本稿では,複雑な危険構造をモデル化する上で十分な柔軟性を持ちながら,統計的観点から十分に構築された汎用的なディープラーニングフレームワークであるDeepPAMMを提案する。
論文参考訳（メタデータ） (2022-02-12T11:38:57Z)
Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文参考訳（メタデータ） (2020-06-22T17:58:54Z)
Unlucky Explorer: A Complete non-Overlapping Map Exploration [0.949996206597248]
エージェントがすべてのセルを訪問するハミルトニアンパスを見つけなければならない探索問題として,Maze Dashパズルを紹介した。提案したモンテカルロ木探索(MCTS)アルゴリズムに最適化を適用し,有望な結果を得た。比較の結果,MCTSをベースとしたアプローチは,テストケースの小型化と中型化を両立させる手法であることがわかった。
論文参考訳（メタデータ） (2020-05-28T17:19:24Z)
Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding Meta-Amortization Error [50.83356836818667]
循環型アニーリングスケジュールとMMD基準を用いた新しいメタレギュラー化目標を構築した。実験の結果,本手法は標準的なメタ学習アルゴリズムよりもかなり優れていることがわかった。
論文参考訳（メタデータ） (2020-03-04T04:43:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。