論文の概要: Threshold UCT: Cost-Constrained Monte Carlo Tree Search with Pareto Curves
- arxiv url: http://arxiv.org/abs/2412.13962v1
- Date: Wed, 18 Dec 2024 15:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:33.312353
- Title: Threshold UCT: Cost-Constrained Monte Carlo Tree Search with Pareto Curves
- Title(参考訳): Threshold UCT:Pareto曲線を用いたコスト制約モンテカルロ木探索
- Authors: Martin Kurečka, Václav Nevyhoštěný, Petr Novotný, Vít Unčovský,
- Abstract要約: 制約付きマルコフ決定プロセス(CMDP)は、不確実性の下で安全なシーケンシャルな意思決定のための主要なフレームワークである。
CMDP計画のためのオンラインMCTSベースのアルゴリズムであるThreshold UCTを紹介する。
実験の結果,本手法は文献の最先端手法を著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 1.799933345199395
- License:
- Abstract: Constrained Markov decision processes (CMDPs), in which the agent optimizes expected payoffs while keeping the expected cost below a given threshold, are the leading framework for safe sequential decision making under stochastic uncertainty. Among algorithms for planning and learning in CMDPs, methods based on Monte Carlo tree search (MCTS) have particular importance due to their efficiency and extendibility to more complex frameworks (such as partially observable settings and games). However, current MCTS-based methods for CMDPs either struggle with finding safe (i.e., constraint-satisfying) policies, or are too conservative and do not find valuable policies. We introduce Threshold UCT (T-UCT), an online MCTS-based algorithm for CMDP planning. Unlike previous MCTS-based CMDP planners, T-UCT explicitly estimates Pareto curves of cost-utility trade-offs throughout the search tree, using these together with a novel action selection and threshold update rules to seek safe and valuable policies. Our experiments demonstrate that our approach significantly outperforms state-of-the-art methods from the literature.
- Abstract(参考訳): 制約付きマルコフ決定プロセス(CMDP)は、エージェントが所定の閾値以下で期待されるコストを維持しながら、期待される支払いを最適化し、確率的不確実性の下で安全なシーケンシャルな意思決定を行うための主要なフレームワークである。
CMDPにおける計画と学習のためのアルゴリズムの中で、モンテカルロ木探索(MCTS)に基づく手法は、より複雑なフレームワーク(部分的に観察可能な設定やゲームなど)への効率性と拡張性から特に重要である。
しかし、現在のMCTSベースのCMDPの手法は、安全(すなわち制約を満足させる)政策を見つけるのに苦労するか、保守的であり、貴重な政策を見つからないかのいずれかである。
CMDP計画のためのオンラインMCTSベースのアルゴリズムであるThreshold UCT(T-UCT)を紹介する。
従来のMCTSベースのCMDPプランナとは異なり、T-UCTは、新しいアクション選択としきい値更新ルールを使って、検索ツリー全体にわたるコストユーティリティトレードオフのPareto曲線を明示的に見積もっている。
実験の結果,本手法は文献の最先端手法を著しく上回っていることがわかった。
関連論文リスト
- Simulation-Based Optimistic Policy Iteration For Multi-Agent MDPs with Kullback-Leibler Control Cost [3.9052860539161918]
本稿では,マルコフ決定過程(MDP)における定常最適ポリシー学習のためのエージェントベース楽観的ポリシー(OPI)手法を提案する。
提案手法は, 強欲政策改善段階とm段階時間差(TD)政策評価段階から構成される。
我々は,OPIスキームの同期(入出力状態空間の評価)と非同期(一様にサンプリングされたサブステートの集合)の両バージョンが,最適値関数と最適共同ポリシーのロールアウトに収束することを示した。
論文 参考訳(メタデータ) (2024-10-19T17:00:23Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。
モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - A safe exploration approach to constrained Markov decision processes [7.036452261968767]
無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、モデルフリーでシミュレータフリーなアルゴリズムの開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - C-MCTS: Safe Planning with Monte Carlo Tree Search [2.8445375187526154]
CMDP(Constrained Markov Decision Process)の定式化は、制約を受ける安全クリティカルな意思決定タスクの解決を可能にする。
エージェント展開前のオフラインフェーズで時間差学習を訓練した安全評論家を用いてコストを見積もるConstrained MCTS(C-MCTS)を提案する。
C-MCTSはコスト制約を満たすが、制約境界に近づき、以前の作業よりも高い報酬を達成する。
論文 参考訳(メタデータ) (2023-05-25T16:08:30Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。