論文の概要: C-MCTS: Safe Planning with Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2305.16209v3
- Date: Wed, 5 Jun 2024 19:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 01:09:36.896570
- Title: C-MCTS: Safe Planning with Monte Carlo Tree Search
- Title(参考訳): C-MCTS:Monte Carlo Tree Searchによる安全な計画
- Authors: Dinesh Parthasarathy, Georgios Kontes, Axel Plinge, Christopher Mutschler,
- Abstract要約: CMDP(Constrained Markov Decision Process)の定式化は、制約を受ける安全クリティカルな意思決定タスクの解決を可能にする。
エージェント展開前のオフラインフェーズで時間差学習を訓練した安全評論家を用いてコストを見積もるConstrained MCTS(C-MCTS)を提案する。
C-MCTSはコスト制約を満たすが、制約境界に近づき、以前の作業よりも高い報酬を達成する。
- 参考スコア(独自算出の注目度): 2.8445375187526154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Constrained Markov Decision Process (CMDP) formulation allows to solve safety-critical decision making tasks that are subject to constraints. While CMDPs have been extensively studied in the Reinforcement Learning literature, little attention has been given to sampling-based planning algorithms such as MCTS for solving them. Previous approaches perform conservatively with respect to costs as they avoid constraint violations by using Monte Carlo cost estimates that suffer from high variance. We propose Constrained MCTS (C-MCTS), which estimates cost using a safety critic that is trained with Temporal Difference learning in an offline phase prior to agent deployment. The critic limits exploration by pruning unsafe trajectories within MCTS during deployment. C-MCTS satisfies cost constraints but operates closer to the constraint boundary, achieving higher rewards than previous work. As a nice byproduct, the planner is more efficient w.r.t. planning steps. Most importantly, under model mismatch between the planner and the real world, C-MCTS is less susceptible to cost violations than previous work.
- Abstract(参考訳): CMDP(Constrained Markov Decision Process)の定式化は、制約を受ける安全クリティカルな意思決定タスクの解決を可能にする。
CMDPはReinforcement Learningの文献で広く研究されているが、MCTSのようなサンプリングベースの計画アルゴリズムにはほとんど注目されていない。
従来のアプローチは、モンテカルロのコスト見積を用いて、高い分散に苦しむ制約違反を避けるため、コストに関して保守的に機能する。
エージェント展開前のオフラインフェーズで時間差学習を訓練した安全評論家を用いてコストを見積もるConstrained MCTS(C-MCTS)を提案する。
批評家は、展開中にMCTS内の安全でない軌道をプルーニングすることで探索を制限する。
C-MCTSはコスト制約を満たすが、制約境界に近づき、以前の作業よりも高い報酬を達成する。
良い副産物として、プランナーはより効率的なw.r.t.プランニングステップである。
最も重要なことは、プランナーと現実世界のモデルミスマッチの下では、C-MCTSは以前の作業よりもコスト違反の影響を受けにくいことである。
関連論文リスト
- MCTS Based Dispatch of Autonomous Vehicles under Operational Constraints for Continuous Transportation [3.7550827441501844]
本稿では、MCTSベースのディスパッチプランナFlow-Achieving Scheduling Tree(FAST)を活用して、ディスパッチ計画に運用上の制約満足度を組み込む。
MCTSジェネレータモデルを利用することで、コストの明示的な定式化を回避し、機会コストを導出する。
4種類の運用制約による実験的研究は、制約満足度に対する機会コストの活用の成功を実証している。
論文 参考訳(メタデータ) (2024-07-23T06:06:16Z) - Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。
モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - Anytime-Competitive Reinforcement Learning with Policy Prior [41.45104303955067]
A-CMDPは、期待される報酬を最適化し、前回のポリシーに対して各ラウンドのバウンドコストを保証します。
我々はACRL(Anytime-Competitive Reinforcement Learning)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-02T19:44:59Z) - Constrained Hierarchical Monte Carlo Belief-State Planning [35.606121916832144]
オンライン検索ベースのCPOMDPプランニングを大規模ロボット問題に拡張するために,Constrained Options Belief Tree Search (COBeTS)を導入した。
プリミティブオプションコントローラが割り当てられた制約予算を満たすように定義された場合、COBeTSはいつでも制約を満たす。
我々はCOBeTSをいくつかの安全クリティカルで制約のある部分的に観測可能なロボットドメインで実証する。
論文 参考訳(メタデータ) (2023-10-30T22:16:53Z) - Bayes risk CTC: Controllable CTC alignment in Sequence-to-Sequence tasks [63.189632935619535]
予測アライメントの望ましい特性を強制するためにベイズリスクCTC(BRCTC)を提案する。
BRCTCを他の早期排出の選好と組み合わせることで、オンラインモデルの性能・遅延トレードオフが改善される。
論文 参考訳(メタデータ) (2022-10-14T03:55:36Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。