論文の概要: Monte-Carlo tree search with uncertainty propagation via optimal
transport
- arxiv url: http://arxiv.org/abs/2309.10737v1
- Date: Tue, 19 Sep 2023 16:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:33:34.759409
- Title: Monte-Carlo tree search with uncertainty propagation via optimal
transport
- Title(参考訳): 最適輸送による不確実性伝播を伴うモンテカルロ木探索
- Authors: Tuan Dam, Pascal Stenger, Lukas Schneider, Joni Pajarinen, Carlo
D'Eramo, Odalric-Ambrym Maillard
- Abstract要約: 本稿ではモンテカルロ木探索(MCTS)のための新しいバックアップ戦略を紹介する。
我々は確率的アプローチを採用し、値ノードとアクション値ノードの両方をガウス分布としてモデル化する。
最適政策への収束の理論的保証と、いくつかの観測可能な環境における経験的評価を提供する。
- 参考スコア(独自算出の注目度): 27.931569422467835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel backup strategy for Monte-Carlo Tree Search
(MCTS) designed for highly stochastic and partially observable Markov decision
processes. We adopt a probabilistic approach, modeling both value and
action-value nodes as Gaussian distributions. We introduce a novel backup
operator that computes value nodes as the Wasserstein barycenter of their
action-value children nodes; thus, propagating the uncertainty of the estimate
across the tree to the root node. We study our novel backup operator when using
a novel combination of $L^1$-Wasserstein barycenter with $\alpha$-divergence,
by drawing a notable connection to the generalized mean backup operator. We
complement our probabilistic backup operator with two sampling strategies,
based on optimistic selection and Thompson sampling, obtaining our Wasserstein
MCTS algorithm. We provide theoretical guarantees of asymptotic convergence to
the optimal policy, and an empirical evaluation on several stochastic and
partially observable environments, where our approach outperforms well-known
related baselines.
- Abstract(参考訳): 本稿では,モンテカルロ木探索 (mcts) のための新しいバックアップ戦略を提案する。
我々は,ガウス分布としてバリューノードとアクション値ノードの両方をモデル化し,確率的アプローチを採用する。
そこで我々は,アクション値の子ノードのワッサースタインバリセンタとして値ノードを演算する新しいバックアップ演算子を導入し,その推定値の不確かさをルートノードに伝達する。
L^1$-Wasserstein barycenterと$\alpha$-divergenceを組み合わせた新しいバックアップ演算子について,一般化平均バックアップ演算子との顕著な接続を描画することによって検討した。
我々は,楽観的選択とトンプソンサンプリングに基づく2つのサンプリング戦略で確率的バックアップ演算子を補完し,ワッサーシュタインMCTSアルゴリズムを得る。
本稿では, 最適政策に対する漸近収束の理論的保証と, 確率的かつ部分的に観測可能な環境における経験的評価について述べる。
関連論文リスト
- Power Mean Estimation in Stochastic Monte-Carlo Tree_Search [25.058008522872747]
Monte-Carlo Tree Search (MCTS)は、Monte-Carloサンプリングとフォワードツリー検索を組み合わせたオンラインプランニングのための広く使われている戦略である。
UCTの理論的基礎は対数的ボーナス項の誤りにより不完全である。
本稿では,MDPに適したパワー平均推定器を用いたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:56:37Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。
我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。
P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文 参考訳(メタデータ) (2023-05-16T17:58:05Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Learning Representations using Spectral-Biased Random Walks on Graphs [18.369974607582584]
このプロセスにおける確率バイアスが、プロセスによって選択されたノードの品質にどの程度影響するかを調査する。
我々は、この近傍を正規化ラプラス行列として表されるノードの近傍部分グラフのスペクトルに基づく確率測度として簡潔に捉えた。
我々は,様々な実世界のデータセット上で,最先端ノード埋め込み技術に対する我々のアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2020-05-19T20:42:43Z) - Bayesian optimization for backpropagation in Monte-Carlo tree search [1.52292571922932]
バックプロパゲーション戦略を改善するための従来の試みを一般化した,Softmax MCTS と Monotone MCTS の2つの手法を提案する。
提案手法が従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-25T14:33:38Z) - Bayesian Quantile and Expectile Optimisation [3.3878745408530833]
本研究では,非定常雑音設定に適したベイズ量子と予測回帰の新しい変分モデルを提案する。
我々の戦略は、観測の複製やノイズのパラメトリック形式を仮定することなく、量子と予測を直接最適化することができる。
実験セクションで示されるように、提案手法は異端性非ガウス的ケースにおいて、明らかに芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-01-12T20:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。