Fugu-MT 論文翻訳(概要): C-MCTS: Safe Planning with Monte Carlo Tree Search

論文の概要: C-MCTS: Safe Planning with Monte Carlo Tree Search

arxiv url: http://arxiv.org/abs/2305.16209v1
Date: Thu, 25 May 2023 16:08:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 14:00:47.310820
Title: C-MCTS: Safe Planning with Monte Carlo Tree Search
Title（参考訳）: C-MCTS:Monte Carlo Tree Searchによる安全な計画
Authors: Dinesh Parthasarathy, Georgios Kontes, Axel Plinge, Christopher Mutschler
Abstract要約: 安全評論家を用いてコストを見積もるアルゴリズムであるConstrained MCTSを提案する。 C-MCTSはコスト制約を満たすが、制約境界に近づき、以前の作業よりも高い報酬を達成する。プランナーと現実世界のモデルミスマッチでは、我々のアプローチは以前の作業よりもコスト違反の影響を受けにくいことが示されます。
参考スコア（独自算出の注目度）: 1.6344851071810074
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many real-world decision-making tasks, such as safety-critical scenarios, cannot be fully described in a single-objective setting using the Markov Decision Process (MDP) framework, as they include hard constraints. These can instead be modeled with additional cost functions within the Constrained Markov Decision Process (CMDP) framework. Even though CMDPs have been extensively studied in the Reinforcement Learning literature, little attention has been given to sampling-based planning algorithms such as MCTS for solving them. Previous approaches use Monte Carlo cost estimates to avoid constraint violations. However, these suffer from high variance which results in conservative performance with respect to costs. We propose Constrained MCTS (C-MCTS), an algorithm that estimates cost using a safety critic. The safety critic training is based on Temporal Difference learning in an offline phase prior to agent deployment. This critic limits the exploration of the search tree and removes unsafe trajectories within MCTS during deployment. C-MCTS satisfies cost constraints but operates closer to the constraint boundary, achieving higher rewards compared to previous work. As a nice byproduct, the planner is more efficient requiring fewer planning steps. Most importantly, we show that under model mismatch between the planner and the real world, our approach is less susceptible to cost violations than previous work.
Abstract（参考訳）: 安全クリティカルなシナリオのような現実世界の意思決定タスクの多くは、厳密な制約を含むため、Markov Decision Process (MDP)フレームワークを使用した単一目的の設定では完全に説明できない。代わりに、CMDP(Constrained Markov Decision Process)フレームワーク内で追加のコスト関数でモデル化することができる。 CMDPはReinforcement Learningの文献で広く研究されているが、MCTSのようなサンプリングベースの計画アルゴリズムにはほとんど注目されていない。以前のアプローチでは、制約違反を避けるためにモンテカルロコスト見積を使用する。しかし、これらはコストに関して保守的なパフォーマンスをもたらす高い分散に悩まされる。安全評論家を用いてコストを見積もるアルゴリズムであるConstrained MCTS(C-MCTS)を提案する。安全批判訓練は、エージェント展開前のオフラインフェーズにおける時間的差異学習に基づいている。この批評家は探索ツリーの探索を制限し、デプロイ中にmcts内の安全でない軌道を削除する。 C-MCTSはコスト制約を満たすが、制約境界に近づき、以前の作業よりも高い報酬を達成する。よい副産物として、プランナーはより効率的な計画手順を必要とする。最も重要なことは、プランナーと現実世界のモデルミスマッチの下では、我々のアプローチは以前の作業よりもコスト違反の影響を受けにくいということです。

関連論文リスト

Cost-aware Stopping for Bayesian Optimization [53.34052774820105]
本稿では,様々な評価コストに適応し,チューニングが不要なベイズ最適化のためのコスト対応停止則を提案する。我々は,最先端の取得関数と組み合わせた場合,停止規則によって得られる期待累積評価コストを拘束する理論的な保証を証明した。
論文参考訳（メタデータ） (2025-07-16T17:54:14Z)
Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文参考訳（メタデータ） (2025-03-14T17:59:41Z)
Threshold UCT: Cost-Constrained Monte Carlo Tree Search with Pareto Curves [1.799933345199395]
制約付きマルコフ決定プロセス(CMDP)は、不確実性の下で安全なシーケンシャルな意思決定のための主要なフレームワークである。 CMDP計画のためのオンラインMCTSベースのアルゴリズムであるThreshold UCTを紹介する。実験の結果,本手法は文献の最先端手法を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-12-18T15:41:47Z)
MCTS Based Dispatch of Autonomous Vehicles under Operational Constraints for Continuous Transportation [3.7550827441501844]
本稿では、MCTSベースのディスパッチプランナFlow-Achieving Scheduling Tree(FAST)を活用して、ディスパッチ計画に運用上の制約満足度を組み込む。 MCTSジェネレータモデルを利用することで、コストの明示的な定式化を回避し、機会コストを導出する。 4種類の運用制約による実験的研究は、制約満足度に対する機会コストの活用の成功を実証している。
論文参考訳（メタデータ） (2024-07-23T06:06:16Z)
Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文参考訳（メタデータ） (2024-06-23T16:22:40Z)
ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文参考訳（メタデータ） (2024-05-01T17:17:22Z)
Anytime-Competitive Reinforcement Learning with Policy Prior [41.45104303955067]
A-CMDPは、期待される報酬を最適化し、前回のポリシーに対して各ラウンドのバウンドコストを保証します。我々はACRL(Anytime-Competitive Reinforcement Learning)と呼ばれる新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-11-02T19:44:59Z)
Constrained Hierarchical Monte Carlo Belief-State Planning [35.606121916832144]
オンライン検索ベースのCPOMDPプランニングを大規模ロボット問題に拡張するために,Constrained Options Belief Tree Search (COBeTS)を導入した。プリミティブオプションコントローラが割り当てられた制約予算を満たすように定義された場合、COBeTSはいつでも制約を満たす。我々はCOBeTSをいくつかの安全クリティカルで制約のある部分的に観測可能なロボットドメインで実証する。
論文参考訳（メタデータ） (2023-10-30T22:16:53Z)
Bayes risk CTC: Controllable CTC alignment in Sequence-to-Sequence tasks [63.189632935619535]
予測アライメントの望ましい特性を強制するためにベイズリスクCTC(BRCTC)を提案する。 BRCTCを他の早期排出の選好と組み合わせることで、オンラインモデルの性能・遅延トレードオフが改善される。
論文参考訳（メタデータ） (2022-10-14T03:55:36Z)
Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。 CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文参考訳（メタデータ） (2022-10-04T07:34:06Z)
A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文参考訳（メタデータ） (2022-09-15T16:59:19Z)
Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文参考訳（メタデータ） (2020-03-04T17:03:56Z)
Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文参考訳（メタデータ） (2020-03-02T05:02:23Z)
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-01T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。