論文の概要: Tail-Risk-Safe Monte Carlo Tree Search under PAC-Level Guarantees
- arxiv url: http://arxiv.org/abs/2508.05441v1
- Date: Thu, 07 Aug 2025 14:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.909988
- Title: Tail-Risk-Safe Monte Carlo Tree Search under PAC-Level Guarantees
- Title(参考訳): PACレベル保証下でのタイルリスクセーフモンテカルロ木探索
- Authors: Zuyuan Zhang, Arnob Ghosh, Tian Lan,
- Abstract要約: モンテカルロ・ツリー・サーチで期待されるリターンのみに関する意思決定は、意思決定に関連するリスクの高い、有害な結果の潜在的な範囲を考慮できない。
これらのアプローチは、極端な結果やリスクの高い結果に関して厳格なテールセーフティ保証を提供することができない。
本稿では,この問題を2つの新しい解法によって解決する。
- 参考スコア(独自算出の注目度): 22.591358065741357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Making decisions with respect to just the expected returns in Monte Carlo Tree Search (MCTS) cannot account for the potential range of high-risk, adverse outcomes associated with a decision. To this end, safety-aware MCTS often consider some constrained variants -- by introducing some form of mean risk measures or hard cost thresholds. These approaches fail to provide rigorous tail-safety guarantees with respect to extreme or high-risk outcomes (denoted as tail-risk), potentially resulting in serious consequence in high-stake scenarios. This paper addresses the problem by developing two novel solutions. We first propose CVaR-MCTS, which embeds a coherent tail risk measure, Conditional Value-at-Risk (CVaR), into MCTS. Our CVaR-MCTS with parameter $\alpha$ achieves explicit tail-risk control over the expected loss in the "worst $(1-\alpha)\%$ scenarios." Second, we further address the estimation bias of tail-risk due to limited samples. We propose Wasserstein-MCTS (or W-MCTS) by introducing a first-order Wasserstein ambiguity set $\mathcal{P}_{\varepsilon_{s}}(s,a)$ with radius $\varepsilon_{s}$ to characterize the uncertainty in tail-risk estimates. We prove PAC tail-safety guarantees for both CVaR-MCTS and W-MCTS and establish their regret. Evaluations on diverse simulated environments demonstrate that our proposed methods outperform existing baselines, effectively achieving robust tail-risk guarantees with improved rewards and stability.
- Abstract(参考訳): モンテカルロ・ツリー・サーチ(MCTS)で期待されるリターンのみに関する意思決定は、意思決定に関連するリスクの高い、有害な結果の潜在的な範囲を考慮できない。
この目的のために、安全を意識したMCTSは、平均リスク対策やハードコストしきい値を導入することで、制約のあるバリエーションをよく検討する。
これらのアプローチは、極端または高リスクの結果(テールリスクと表記される)に関して厳格なテールセーフティ保証を提供することができず、高いリスクシナリオで深刻な結果をもたらす可能性がある。
本稿では,この問題を2つの新しい解法によって解決する。
まず,コヒーレントなテールリスク尺度である条件付きバリュー・アット・リスク(CVaR)をMCTSに組み込むCVaR-MCTSを提案する。
パラメータ $\alpha$ の CVaR-MCTS は "Worst $(1-\alpha)\%$" シナリオにおける期待損失に対して,明確なテールリスク制御を実現する。
第二に、限られたサンプルによる尾リスクの推定バイアスについて、さらに対処する。
We propose Wasserstein-MCTS ( or W-MCTS) by introduced a first-order Wasserstein ambiguity set $\mathcal{P}_{\varepsilon_{s}}(s,a)$ with radius $\varepsilon_{s}$。
我々は,CVaR-MCTSとW-MCTSの双方に対してPACのテールセーフティ保証を証明し,その後悔を裏付ける。
各種シミュレーション環境の評価は,提案手法が既存の基準よりも優れており,報奨と安定性を向上したロバストなテールリスク保証を効果的に達成できることを示す。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Risk Estimation in a Markov Cost Process: Lower and Upper Bounds [3.1484174280822845]
我々はマルコフコストプロセスにおいて、無限水平割引コストのリスク対策を推定する問題に取り組む。
私たちが調査するリスク尺度には、分散、バリュー・アット・リスク(VaR)、条件付きバリュー・アット・リスク(CVaR)がある。
論文 参考訳(メタデータ) (2023-10-17T16:35:39Z) - Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk
Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。
予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。
本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文 参考訳(メタデータ) (2023-01-14T21:43:18Z) - A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits [27.058087400790555]
マルチアームバンディット問題について検討し,期待された後悔に対する最悪のケース最適性と,後悔の分布に対する軽微なリスクの両方を享受する新しいポリシーを設計する。
経営的な観点から、我々の新しい政策設計は、より良い尾の分布をもたらし、祝福された政策よりも好まれることがわかった。
論文 参考訳(メタデータ) (2022-06-07T02:10:30Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Averse Stochastic Shortest Path Planning [25.987787625028204]
最適、定常、マルコフの方針が存在することを示し、特別なベルマン方程式を用いて見出すことができる。
ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。
論文 参考訳(メタデータ) (2021-03-26T20:49:14Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Optimal Best-Arm Identification Methods for Tail-Risk Measures [9.128264779870538]
条件付きバリュー・アット・リスク(CVaR)とバリュー・アット・リスク(VaR)は金融や保険業界で人気のあるテール・アット・リスク対策である。
CVaR, VaR, CVaRの最小値の平均は, CVaR, VaR, CVaRの最小値の平均である。
論文 参考訳(メタデータ) (2020-08-17T20:23:24Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。