論文の概要: Entropic Risk-Aware Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2601.17667v1
- Date: Sun, 25 Jan 2026 03:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.123358
- Title: Entropic Risk-Aware Monte Carlo Tree Search
- Title(参考訳): エントロピックリスクを考慮したモンテカルロ木探索
- Authors: Pedro P. Santos, Jacopo Silvestrin, Alberto Sardinha, Francisco S. Melo,
- Abstract要約: そこで本稿では,MDP(textitrisk-aware Markov decision process)をERM( textitentropic risk measure)の目的で解くためのMCTSアルゴリズムを提案する。
i)ルートノードで得られた経験的ERMが最適なERMに収束するという意味では、そのアルゴリズムはテクスタイト正則であり、(ii)テクスタイトポリノミアルな後悔の集中を享受していることを示す。
- 参考スコア(独自算出の注目度): 4.234843176066355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a provably correct Monte Carlo tree search (MCTS) algorithm for solving \textit{risk-aware} Markov decision processes (MDPs) with \textit{entropic risk measure} (ERM) objectives. We provide a \textit{non-asymptotic} analysis of our proposed algorithm, showing that the algorithm: (i) is \textit{correct} in the sense that the empirical ERM obtained at the root node converges to the optimal ERM; and (ii) enjoys \textit{polynomial regret concentration}. Our algorithm successfully exploits the dynamic programming formulations for solving risk-aware MDPs with ERM objectives introduced by previous works in the context of an upper confidence bound-based tree search algorithm. Finally, we provide a set of illustrative experiments comparing our risk-aware MCTS method against relevant baselines.
- Abstract(参考訳): 本稿では, MCTSアルゴリズムを用いて, マークフ決定過程 (MDPs) を, ERM(textit{entropic risk measure}) の目的で解くことを提案する。
提案したアルゴリズムの「textit{non-asymptotic}」解析を行い,そのアルゴリズムについて述べる。
i) 根ノードで得られた経験的 ERM が最適 ERM に収束するという意味では \textit{correct} である。
(ii) <textit{polynomial regret concentration} を楽しむ。
提案アルゴリズムは,高信頼度木探索アルゴリズムの文脈において,従来の研究で導入したERM目標を用いたリスク認識型MDPの解法として,動的プログラミングの定式化に成功している。
最後に,リスクを意識したMCTS法と関連するベースラインを比較検討する。
関連論文リスト
- Risk-Averse Total-Reward Reinforcement Learning [12.396474483677117]
リスク逆トータルリワードマルコフ決定プロセス(MDP)は、未公表の無限水平目標をモデル化し解決するための有望なフレームワークを提供する。
エントロピーリスク測度(ERM)やエントロピーバリュー・アット・リスク(EVaR)のような既存のリスク測度のためのモデルベースのアルゴリズムは、小さな問題に対して有効であるが、遷移確率への完全なアクセスが必要である。
本稿では,完全逆ERMとEVaRの目標に対して,コンバージェンスと性能保証を両立させるためのQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-26T18:10:51Z) - Planning and Learning in Average Risk-aware MDPs [5.271072635937926]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。
弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文 参考訳(メタデータ) (2025-03-22T03:18:09Z) - Deep Unrolling for Nonconvex Robust Principal Component Analysis [75.32013242448151]
我々はロバスト成分分析のためのアルゴリズムを設計する(A)
行列を低主行列とスパース主行列の和に分解する。
論文 参考訳(メタデータ) (2023-07-12T03:48:26Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - CITS: Coherent Ising Tree Search Algorithm Towards Solving Combinatorial
Optimization Problems [0.0]
本稿では、マルコフ連鎖からSAに基づく奥行き制限木への探索空間の拡大による探索アルゴリズムを提案する。
それぞれのイテレーションにおいて、このアルゴリズムは、先を見据えて、木に沿って探索することで、実現可能な探索空間内で最高の準最適解を選択する」。
以上の結果から,IsingのNP最適化問題に対する高次木探索戦略は,より少ないエポックの範囲で解決可能であることが示唆された。
論文 参考訳(メタデータ) (2022-03-09T10:07:26Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。