論文の概要: Polynomial Regret Concentration of UCB for Non-Deterministic State Transitions
- arxiv url: http://arxiv.org/abs/2502.06900v1
- Date: Sun, 09 Feb 2025 15:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:06:08.787723
- Title: Polynomial Regret Concentration of UCB for Non-Deterministic State Transitions
- Title(参考訳): 非決定論的状態遷移に対するUTBのポリノミアルレグレト濃度
- Authors: Can Cömer, Jannis Blüml, Cedric Derstroff, Kristian Kersting,
- Abstract要約: 本稿ではモンテカルロ木探索(MCTS)の理論的枠組みを非決定論的状態遷移に拡張する。
私たちの主な貢献は、これらの境界が非決定論的環境にも適用され、設定における堅牢なパフォーマンスが保証されることを示すことです。
これにより、自律システムや金融意思決定など、現実的な意思決定問題に対するMCTSの適用性が拡大する。
- 参考スコア(独自算出の注目度): 18.347534843178355
- License:
- Abstract: Monte Carlo Tree Search (MCTS) has proven effective in solving decision-making problems in perfect information settings. However, its application to stochastic and imperfect information domains remains limited. This paper extends the theoretical framework of MCTS to stochastic domains by addressing non-deterministic state transitions, where actions lead to probabilistic outcomes. Specifically, building on the work of Shah et al. (2020), we derive polynomial regret concentration bounds for the Upper Confidence Bound algorithm in multi-armed bandit problems with stochastic transitions, offering improved theoretical guarantees. Our primary contribution is proving that these bounds also apply to non-deterministic environments, ensuring robust performance in stochastic settings. This broadens the applicability of MCTS to real-world decision-making problems with probabilistic outcomes, such as in autonomous systems and financial decision-making.
- Abstract(参考訳): Monte Carlo Tree Search (MCTS) は、完全な情報設定で意思決定問題を解決するのに有効であることが証明されている。
しかし、確率的かつ不完全な情報領域への応用は依然として限られている。
本稿では、MCTSの理論的枠組みを確率的領域に拡張し、非決定論的状態遷移に対処する。
具体的には、Shah et al (2020) の業績に基づいて、確率遷移を伴う多重武装バンディット問題において、上信頼境界アルゴリズムの多項式後悔濃度境界を導出し、理論的保証を改善した。
我々の主な貢献は、これらの境界が非決定論的環境にも適用され、確率的環境における堅牢な性能を保証することを証明することである。
これにより、自律システムや金融意思決定など、確率的な結果を伴う現実的な意思決定問題へのMCTSの適用性が拡大する。
関連論文リスト
- Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。
モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Q-Learning for Stochastic Control under General Information Structures
and Non-Markovian Environments [1.90365714903665]
反復に対する収束定理を提示し、特に一般の、おそらくは非マルコフ的環境下でのQ学習を反復する。
非マルコフ環境における様々な制御問題に対するこの定理の意義と応用について論じる。
論文 参考訳(メタデータ) (2023-10-31T19:53:16Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Robustness Guarantees for Credal Bayesian Networks via Constraint
Relaxation over Probabilistic Circuits [16.997060715857987]
本研究では,決定関数のロバスト性を,断続ベイズ的ネットワークに対して定量化する手法を開発した。
回路サイズにおいて線形時間で MARmax 上の保証上限を得る方法を示す。
論文 参考訳(メタデータ) (2022-05-11T22:37:07Z) - Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian
Noise [59.47042225257565]
雑音分布の明示的な表現に依存しない新しい計画法を提案する。
まず、連続系を離散状態モデルに抽象化し、状態間の確率的遷移によってノイズを捕捉する。
いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。
論文 参考訳(メタデータ) (2021-10-25T06:18:55Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Optimal Inspection and Maintenance Planning for Deteriorating Structural
Components through Dynamic Bayesian Networks and Markov Decision Processes [0.0]
部分的に観測可能なマルコフ決定過程(POMDPs)は、不確実な行動結果と観測下での最適制御のための数学的方法論を提供する。
本稿では, 有限地平線POMDPを構造的信頼性の文脈で開発するための定式化について述べる。
その結果,従来の問題設定においても,POMDPのコストは従来に比べて大幅に低減した。
論文 参考訳(メタデータ) (2020-09-09T20:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。