論文の概要: Monte Carlo Tree Search in the Presence of Transition Uncertainty
- arxiv url: http://arxiv.org/abs/2312.11348v1
- Date: Mon, 18 Dec 2023 17:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:19:17.897770
- Title: Monte Carlo Tree Search in the Presence of Transition Uncertainty
- Title(参考訳): 遷移不確かさの存在下でのモンテカルロ木探索
- Authors: Farnaz Kohankhaki, Kiarash Aghakasiri, Hongming Zhang, Ting-Han Wei,
Chao Gao, Martin M\"uller
- Abstract要約: 本稿では,モデルと実際の環境の相違が,標準MCTSによる性能劣化を引き起こすことを示す。
我々は、MCTSフレームワーク内でより堅牢なアルゴリズムである不確実性適応MCTS(UA-MCTS)を開発した。
UCBを適応させるために不確実性情報を加えると、通常の UCB よりも後悔の束縛が強くなることを示す。
- 参考スコア(独自算出の注目度): 33.40823938089618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte Carlo Tree Search (MCTS) is an immensely popular search-based framework
used for decision making. It is traditionally applied to domains where a
perfect simulation model of the environment is available. We study and improve
MCTS in the context where the environment model is given but imperfect. We show
that the discrepancy between the model and the actual environment can lead to
significant performance degradation with standard MCTS. We therefore develop
Uncertainty Adapted MCTS (UA-MCTS), a more robust algorithm within the MCTS
framework. We estimate the transition uncertainty in the given model, and
direct the search towards more certain transitions in the state space. We
modify all four MCTS phases to improve the search behavior by considering these
estimates. We prove, in the corrupted bandit case, that adding uncertainty
information to adapt UCB leads to tighter regret bound than standard UCB.
Empirically, we evaluate UA-MCTS and its individual components on the
deterministic domains from the MinAtar test suite. Our results demonstrate that
UA-MCTS strongly improves MCTS in the presence of model transition errors.
- Abstract(参考訳): Monte Carlo Tree Search (MCTS)は、意思決定に使用される非常に人気のある検索ベースのフレームワークである。
伝統的に、環境の完全なシミュレーションモデルが利用可能である領域に適用される。
環境モデルが与えられたが不完全な状況下でMCTSを研究・改善する。
本稿では,モデルと実際の環境の相違が,標準MCTSによる性能劣化を引き起こすことを示す。
そこで我々は, MCTSフレームワーク内でより堅牢なアルゴリズムである不確実性適応MCTS (UA-MCTS) を開発した。
与えられたモデルにおける遷移の不確かさを推定し、状態空間内のより特定の遷移への探索を指示する。
これらの推定を考慮し, 探索行動を改善するため, 4つのMCTS位相を全て修正する。
UCBを適応させるために不確実性情報を加えると、通常の UCB よりも後悔の束縛が強くなることを示す。
実験的に,MinAtarテストスイートからUA-MCTSとその個々のコンポーネントを決定論的ドメイン上で評価する。
その結果,UA-MCTSはモデル遷移誤差の存在下でMCTSを強く改善することが示された。
関連論文リスト
- Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal
Approach [51.012396632595554]
不変表現学習(IRL)は、不変因果的特徴から環境から切り離されたラベルへの予測を促進する。
最近の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、訓練環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。
本研究では,RS-SCMに関する条件付き相互情報に基づく手法を開発し,その効果を巧みに補正する。
論文 参考訳(メタデータ) (2023-12-15T12:58:05Z) - Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis [70.78170766633039]
我々は、MTS予測提案を確実かつ公平に評価する手段の必要性に対処する。
BasicTS+は、MTS予測ソリューションの公平で包括的で再現可能な比較を可能にするために設計されたベンチマークである。
リッチデータセットとともにBasicTS+を適用し,45 MTS以上の予測ソリューションの性能を評価する。
論文 参考訳(メタデータ) (2023-10-09T19:52:22Z) - Towards Real-World Test-Time Adaptation: Tri-Net Self-Training with
Balanced Normalization [52.03927261909813]
既存の研究は、非I.d.データストリームと連続的なドメインシフトの下での実際のテスト時間適応を主に検討している。
我々は、最先端手法の失敗は、まず不均衡なテストデータに正規化層を無差別に適応させることによって生じると論じる。
TRIBEと呼ばれる最後のTTAモデルは、バランスの取れたバッチノーム層を持つトリネットアーキテクチャ上に構築されている。
論文 参考訳(メタデータ) (2023-09-26T14:06:26Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Evolving the MCTS Upper Confidence Bounds for Trees Using a
Semantic-inspired Evolutionary Algorithm in the Game of Carcassonne [0.0]
我々はモンテカルロ木探索(MCTS)におけるセマンティック・インスパイアされた進化的アルゴリズムを提案する。
我々は進化的アルゴリズム(EA)を用いて、木式に上信頼境界を置き換えることを目的として数学的表現を進化させる。
SIEA-MCTSは、これらの進化した表現をチューニングすることなく、UTTよりも優れた、あるいは競争的な結果をもたらす数学的表現をうまく進化させることができるかを示す。
論文 参考訳(メタデータ) (2022-08-29T13:31:06Z) - Decision Making in Non-Stationary Environments with Policy-Augmented
Monte Carlo Tree Search [2.20439695290991]
不確実性のある意思決定(DMU)は多くの重要な問題に存在している。
オープンな課題は、時間とともに環境のダイナミクスが変化する非定常環境におけるDMUである。
本稿では,RLの強みと計画の両立を両立させ,弱点を緩和するハイブリッド意思決定手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T22:31:37Z) - MCTSteg: A Monte Carlo Tree Search-based Reinforcement Learning
Framework for Universal Non-additive Steganography [40.622844703837046]
MCTStegと呼ばれる自動非付加ステガノグラフィー歪み学習フレームワークを提案する。
自己学習特性とドメインに依存しない報酬機能により、MCTStegは初めて報告された普遍的な非付加性ステガノグラフィーフレームワークとなった。
論文 参考訳(メタデータ) (2021-03-25T09:12:08Z) - Pairwise Covariates-adjusted Block Model for Community Detection [9.423321226644891]
コミュニティ検出はネットワーク研究における最も基本的な問題の1つである。
ペアワイズ共調整一般化ブロックモデル(PCABM)を導入する。
適切な空間条件下でPCABMは一定であることを示す。
論文 参考訳(メタデータ) (2018-07-10T03:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。