論文の概要: Planning with Uncertainty: Deep Exploration in Model-Based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.13455v1
- Date: Fri, 21 Oct 2022 09:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:38:28.576137
- Title: Planning with Uncertainty: Deep Exploration in Model-Based Reinforcement
Learning
- Title(参考訳): 不確実性を伴う計画--モデルベース強化学習における深い探索
- Authors: Yaniv Oren, Matthijs T. J. Spaan and Wendelin B\"ohmer
- Abstract要約: 本稿では,計画木に不確かさを取り入れたモデルベースRLの深層探査について述べる。
我々は、明示的な探索軌道からの学習を安定させるために、トレーニングプロセスを拡張した。
不確実性を考慮した計画実験では, 標準的な不確実性推定機構を用いた効率的な深層探査が可能である。
- 参考スコア(独自算出の注目度): 6.754994171490016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep model-based Reinforcement Learning (RL) has shown super-human
performance in many challenging domains. Low sample efficiency and limited
exploration remain as leading obstacles in the field, however. In this paper,
we demonstrate deep exploration in model-based RL by incorporating epistemic
uncertainty into planning trees, circumventing the standard approach of
propagating uncertainty through value learning. We evaluate this approach with
the state of the art model-based RL algorithm MuZero, and extend its training
process to stabilize learning from explicitly-exploratory trajectories. In our
experiments planning with uncertainty is able to demonstrate effective deep
exploration with standard uncertainty estimation mechanisms, and with it
significant gains in sample efficiency.
- Abstract(参考訳): 深層モデルに基づく強化学習(rl)は多くの課題領域において超人的性能を示している。
しかし、サンプル効率の低さと探査の制限は、この分野における主要な障害として残っている。
本稿では,計画木に認識的不確かさを取り入れ,価値学習による不確実性伝播の標準的なアプローチを回避し,モデルベースrlの深い探索を実証する。
我々は,この手法を,アートモデルに基づくRLアルゴリズム MuZero の状況で評価し,そのトレーニングプロセスを拡張して,明示的な探索軌道からの学習を安定化させる。
不確実性を考慮した計画実験では, 標準不確実性推定機構による効率的な深層探査が可能である。
関連論文リスト
- Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Amplifying Exploration in Monte-Carlo Tree Search by Focusing on the
Unknown [19.664506834858244]
モンテカルロ木探索(MCTS)は、探索木の有望なセグメントに焦点を合わせるために、戦略的に計算資源を割り当てる。
提案手法はAmEx-MCTSと呼ばれ,新しいMCTSの定式化を導入することでこの問題を解決する。
実験による評価は,AMEx-MCTSの優れた性能を示し,従来のMCTSと関連するアプローチを実質的なマージンで上回っている。
論文 参考訳(メタデータ) (2024-02-13T15:05:54Z) - Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies [0.5892638927736115]
欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。
予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。
特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
論文 参考訳(メタデータ) (2024-01-17T21:28:00Z) - Exploration via Epistemic Value Estimation [22.54793586116019]
本稿では、逐次意思決定とニューラルネットワーク関数近似器との互換性のあるレシピを提案する。
全てのパラメータに対して引き込み可能な後部エージェントを装備し、そこからてんかんの値の不確実性を効率的に計算することができる。
実験により、EVEのレシピはハードな探査作業における効率的な探索を容易にすることが確認された。
論文 参考訳(メタデータ) (2023-03-07T16:25:52Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Uncertainty in Extreme Multi-label Classification [81.14232824864787]
eXtreme Multi-label Classification (XMC)は、Webスケールの機械学習アプリケーションにおいて、ビッグデータの時代において不可欠なタスクである。
本稿では,確率的アンサンブルに基づく木系XMCモデルの一般的な不確実性定量化手法について検討する。
特に,XMCにおけるラベルレベルおよびインスタンスレベルの不確実性を解析し,ビームサーチに基づく一般的な近似フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T20:54:33Z) - Learning Hidden Markov Models When the Locations of Missing Observations
are Unknown [54.40592050737724]
本研究では、未知の観測位置を持つデータからHMMを学習する際の一般的な問題について考察する。
我々は、下層の鎖の構造に関する仮定を一切必要としない再構成アルゴリズムを提供する。
適切な仕様の下では、プロセスのダイナミクスを再構築でき、また、見当たらない観測位置が分かっていたとしても、その有効性を示す。
論文 参考訳(メタデータ) (2022-03-12T22:40:43Z) - DeepPAMM: Deep Piecewise Exponential Additive Mixed Models for Complex
Hazard Structures in Survival Analysis [0.7349727826230864]
サバイバル分析(英: Survival analysis、SA)は、時間と時間に関する研究の活発な分野である。
その重要性にもかかわらず、SAは小規模なデータセットと複雑な結果分布のために依然として困難である。
本稿では,複雑な危険構造をモデル化する上で十分な柔軟性を持ちながら,統計的観点から十分に構築された汎用的なディープラーニングフレームワークであるDeepPAMMを提案する。
論文 参考訳(メタデータ) (2022-02-12T11:38:57Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z) - Unlucky Explorer: A Complete non-Overlapping Map Exploration [0.949996206597248]
エージェントがすべてのセルを訪問するハミルトニアンパスを見つけなければならない探索問題として,Maze Dashパズルを紹介した。
提案したモンテカルロ木探索(MCTS)アルゴリズムに最適化を適用し,有望な結果を得た。
比較の結果,MCTSをベースとしたアプローチは,テストケースの小型化と中型化を両立させる手法であることがわかった。
論文 参考訳(メタデータ) (2020-05-28T17:19:24Z) - Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding
Meta-Amortization Error [50.83356836818667]
循環型アニーリングスケジュールとMMD基準を用いた新しいメタレギュラー化目標を構築した。
実験の結果,本手法は標準的なメタ学習アルゴリズムよりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-04T04:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。