論文の概要: Measurable Monte Carlo Search Error Bounds
- arxiv url: http://arxiv.org/abs/2106.04715v1
- Date: Tue, 8 Jun 2021 22:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 09:08:53.603685
- Title: Measurable Monte Carlo Search Error Bounds
- Title(参考訳): 測定可能なモンテカルロ探索誤差境界
- Authors: John Mern, Mykel J. Kochenderfer
- Abstract要約: 非定常バンディットおよびマルコフ決定過程に対するモンテカルロ推定の準最適性に関する有界性を証明する。
これらの境界は、探索の終了時に直接計算することができ、真のアクション値の知識を必要としない。
- 参考スコア(独自算出の注目度): 40.29552672672265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo planners can often return sub-optimal actions, even if they are
guaranteed to converge in the limit of infinite samples. Known asymptotic
regret bounds do not provide any way to measure confidence of a recommended
action at the conclusion of search. In this work, we prove bounds on the
sub-optimality of Monte Carlo estimates for non-stationary bandits and Markov
decision processes. These bounds can be directly computed at the conclusion of
the search and do not require knowledge of the true action-value. The presented
bound holds for general Monte Carlo solvers meeting mild convergence
conditions. We empirically test the tightness of the bounds through experiments
on a multi-armed bandit and a discrete Markov decision process for both a
simple solver and Monte Carlo tree search.
- Abstract(参考訳): モンテカルロプランナーは、無限サンプルの極限に収束することが保証されているとしても、しばしば準最適作用を返すことができる。
既知の漸近的後悔の境界は、探索の終了時に推奨される行動の信頼度を測定する手段を提供しない。
本研究では,非定常バンドイットとマルコフ決定過程に対するモンテカルロ推定の準最適性の境界を証明した。
これらの境界は探索の終了時に直接計算することができ、真の作用値の知識を必要としない。
表される境界は、軽収束条件を満たす一般モンテカルロ解法に対して成り立つ。
単純解法とモンテカルロ木探索の双方に対して,マルチアームバンディットの実験と離散マルコフ決定過程により,境界の密度を実証的に検証する。
関連論文リスト
- Combining Normalizing Flows and Quasi-Monte Carlo [0.0]
近年の機械学習の進歩はモンテカルロ法を改良するための新しい手法の開発に繋がった。
数値実験により,この組み合わせにより,従来のモンテカルロを用いて流れをサンプリングした場合よりも,分散度が著しく低い推定器が得られることを示した。
論文 参考訳(メタデータ) (2024-01-11T14:17:06Z) - Automatic Rao-Blackwellization for Sequential Monte Carlo with Belief
Propagation [4.956977275061968]
状態空間モデル(SSM)に関する具体的なベイズ予想は、一般には難解である。
本稿では,信念の伝播を用いた閉形式解を可能な限り計算する混合推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-15T15:05:25Z) - Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-04T05:21:36Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Annealed Flow Transport Monte Carlo [91.20263039913912]
Annealed Flow Transport (AFT) built on Annealed Importance Smpling (AIS) and Sequential Monte Carlo (SMC)
AFTは、連続したターゲットに向かって粒子をプッシュするために順次学習されるNFに依存します。
AFTの人口バージョンの連続時間スケーリング限界は、Feynman--Kac測度によって与えられることを示した。
論文 参考訳(メタデータ) (2021-02-15T12:05:56Z) - On the Convergence of Reinforcement Learning with Monte Carlo Exploring
Starts [5.137144629366217]
基本的なシミュレーションに基づく強化学習アルゴリズムはモンテカルロ探索州 (MCES) 法である。
最短経路問題としても知られる未計算コストの場合のこのアルゴリズムの収束性について検討する。
副作用として、近似によく用いられるスーパーマリンゲール収束定理のバージョンの証明も提供する。
論文 参考訳(メタデータ) (2020-07-21T16:19:09Z) - Free Energy Wells and Overlap Gap Property in Sparse PCA [81.64027805404483]
我々は「ハード」体制におけるスパースPCA問題(主成分分析)の変種について検討する。
問題に自然に関連付けられた様々なギブズ測度に対する自由エネルギー井戸の深さの有界性を示す。
我々は、オーバーラップギャップ特性(OGP)がハードレジームの重要な部分を占めていることを証明した。
論文 参考訳(メタデータ) (2020-06-18T17:18:02Z) - POLY-HOOT: Monte-Carlo Planning in Continuous Space MDPs with
Non-Asymptotic Analysis [24.373900721120286]
連続的な状態-作用空間を持つ環境でのモンテカルロ計画を考える。
我々は,モンテカルロ計画に連続的な武装バンディット戦略を付加するアルゴリズムであるPoly-HOOTを紹介する。
非定常バンディット問題において,HOOアルゴリズムが拡張されたことを初めて後悔する。
論文 参考訳(メタデータ) (2020-06-08T15:23:19Z) - Connecting the Dots: Numerical Randomized Hamiltonian Monte Carlo with
State-Dependent Event Rates [0.0]
連続目標分布に対するマルコフ連鎖モンテカルロ法に代わる,頑健で,使いやすく,計算的に高速な手法を提案する。
提案アルゴリズムは、関連するベンチマークと比較して大きなスピードアップと安定性の向上をもたらす可能性がある。
高品質なODEコードへのアクセスが保証され、提案手法は実装も使用も容易であり、高度に困難で高次元のターゲット分布に対しても有効である。
論文 参考訳(メタデータ) (2020-05-04T06:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。