論文の概要: Epistemic Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2210.13455v4
- Date: Fri, 04 Oct 2024 13:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:46.363085
- Title: Epistemic Monte Carlo Tree Search
- Title(参考訳): てんかんのモンテカルロ木探索
- Authors: Yaniv Oren, Villiam Vadocz, Matthijs T. J. Spaan, Wendelin Böhmer,
- Abstract要約: 深層探査における探索の不確かさを考慮し, 深層探査に利用するために, EMCTS(Epistemic MCTS)を導入する。
アセンブリ言語 SUBLEQ でコードを記述するという難易度の高いタスクにおいて,本手法と組み合わせた AZ は,ベースライン AZ よりもはるかに高いサンプリング効率を実現する。
- 参考スコア(独自算出の注目度): 5.624791703748109
- License:
- Abstract: The AlphaZero/MuZero (A/MZ) family of algorithms has achieved remarkable success across various challenging domains by integrating Monte Carlo Tree Search (MCTS) with learned models. Learned models introduce epistemic uncertainty, which is caused by learning from limited data and is useful for exploration in sparse reward environments. MCTS does not account for the propagation of this uncertainty however. To address this, we introduce Epistemic MCTS (EMCTS): a theoretically motivated approach to account for the epistemic uncertainty in search and harness the search for deep exploration. In the challenging sparse-reward task of writing code in the Assembly language SUBLEQ, AZ paired with our method achieves significantly higher sample efficiency over baseline AZ. Search with EMCTS solves variations of the commonly used hard-exploration benchmark Deep Sea - which baseline A/MZ are practically unable to solve - much faster than an otherwise equivalent method that does not use search for uncertainty estimation, demonstrating significant benefits from search for epistemic uncertainty estimation.
- Abstract(参考訳): AlphaZero/MuZero (A/MZ) のアルゴリズムは、モンテカルロ木探索 (MCTS) と学習モデルを統合することで、様々な挑戦的な領域で大きな成功を収めた。
学習されたモデルは、限られたデータからの学習によって引き起こされるてんかんの不確実性を導入し、スパース報酬環境での探索に有用である。
MCTSはこの不確実性の伝播を考慮していない。
そこで我々は, 深層探査の探索・活用において, エピステミック・MCTS (EMCTS: Epistemic MCTS) を理論的に動機づけたアプローチとして紹介する。
アセンブリ言語 SUBLEQ でコードを記述するという難易度の高いタスクにおいて,本手法と組み合わせた AZ は,ベースライン AZ よりもはるかに高いサンプリング効率を実現する。
EMCTSによる探索は、ベースラインA/MZが事実上解決できない、よく使われるハード探索ベンチマークDeep Seaのバリエーションを解決している。
関連論文リスト
- Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Amplifying Exploration in Monte-Carlo Tree Search by Focusing on the
Unknown [19.664506834858244]
モンテカルロ木探索(MCTS)は、探索木の有望なセグメントに焦点を合わせるために、戦略的に計算資源を割り当てる。
提案手法はAmEx-MCTSと呼ばれ,新しいMCTSの定式化を導入することでこの問題を解決する。
実験による評価は,AMEx-MCTSの優れた性能を示し,従来のMCTSと関連するアプローチを実質的なマージンで上回っている。
論文 参考訳(メタデータ) (2024-02-13T15:05:54Z) - Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies [0.5892638927736115]
欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。
予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。
特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
論文 参考訳(メタデータ) (2024-01-17T21:28:00Z) - Exploration via Epistemic Value Estimation [22.54793586116019]
本稿では、逐次意思決定とニューラルネットワーク関数近似器との互換性のあるレシピを提案する。
全てのパラメータに対して引き込み可能な後部エージェントを装備し、そこからてんかんの値の不確実性を効率的に計算することができる。
実験により、EVEのレシピはハードな探査作業における効率的な探索を容易にすることが確認された。
論文 参考訳(メタデータ) (2023-03-07T16:25:52Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Uncertainty in Extreme Multi-label Classification [81.14232824864787]
eXtreme Multi-label Classification (XMC)は、Webスケールの機械学習アプリケーションにおいて、ビッグデータの時代において不可欠なタスクである。
本稿では,確率的アンサンブルに基づく木系XMCモデルの一般的な不確実性定量化手法について検討する。
特に,XMCにおけるラベルレベルおよびインスタンスレベルの不確実性を解析し,ビームサーチに基づく一般的な近似フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T20:54:33Z) - Learning Hidden Markov Models When the Locations of Missing Observations
are Unknown [54.40592050737724]
本研究では、未知の観測位置を持つデータからHMMを学習する際の一般的な問題について考察する。
我々は、下層の鎖の構造に関する仮定を一切必要としない再構成アルゴリズムを提供する。
適切な仕様の下では、プロセスのダイナミクスを再構築でき、また、見当たらない観測位置が分かっていたとしても、その有効性を示す。
論文 参考訳(メタデータ) (2022-03-12T22:40:43Z) - DeepPAMM: Deep Piecewise Exponential Additive Mixed Models for Complex
Hazard Structures in Survival Analysis [0.7349727826230864]
サバイバル分析(英: Survival analysis、SA)は、時間と時間に関する研究の活発な分野である。
その重要性にもかかわらず、SAは小規模なデータセットと複雑な結果分布のために依然として困難である。
本稿では,複雑な危険構造をモデル化する上で十分な柔軟性を持ちながら,統計的観点から十分に構築された汎用的なディープラーニングフレームワークであるDeepPAMMを提案する。
論文 参考訳(メタデータ) (2022-02-12T11:38:57Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z) - Unlucky Explorer: A Complete non-Overlapping Map Exploration [0.949996206597248]
エージェントがすべてのセルを訪問するハミルトニアンパスを見つけなければならない探索問題として,Maze Dashパズルを紹介した。
提案したモンテカルロ木探索(MCTS)アルゴリズムに最適化を適用し,有望な結果を得た。
比較の結果,MCTSをベースとしたアプローチは,テストケースの小型化と中型化を両立させる手法であることがわかった。
論文 参考訳(メタデータ) (2020-05-28T17:19:24Z) - Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding
Meta-Amortization Error [50.83356836818667]
循環型アニーリングスケジュールとMMD基準を用いた新しいメタレギュラー化目標を構築した。
実験の結果,本手法は標準的なメタ学習アルゴリズムよりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-04T04:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。