論文の概要: Constrained and Robust Policy Synthesis with Satisfiability-Modulo-Probabilistic-Model-Checking
- arxiv url: http://arxiv.org/abs/2511.08078v1
- Date: Wed, 12 Nov 2025 01:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.630975
- Title: Constrained and Robust Policy Synthesis with Satisfiability-Modulo-Probabilistic-Model-Checking
- Title(参考訳): 満足度-モジュラー-確率-モデル-チェッキングによる制約的・ロバストな政策合成
- Authors: Linus Heck, Filip Macák, Milan Češka, Sebastian Junges,
- Abstract要約: 本稿では,任意の構造制約を受けるロバストポリシを効果的に計算するための最初のアプローチを提案する。
数百のベンチマークの実験は、制約付きかつ堅牢なポリシー合成の実現可能性を示している。
- 参考スコア(独自算出の注目度): 4.064849471241967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to compute reward-optimal policies for given and known finite Markov decision processes (MDPs) underpins a variety of applications across planning, controller synthesis, and verification. However, we often want policies (1) to be robust, i.e., they perform well on perturbations of the MDP and (2) to satisfy additional structural constraints regarding, e.g., their representation or implementation cost. Computing such robust and constrained policies is indeed computationally more challenging. This paper contributes the first approach to effectively compute robust policies subject to arbitrary structural constraints using a flexible and efficient framework. We achieve flexibility by allowing to express our constraints in a first-order theory over a set of MDPs, while the root for our efficiency lies in the tight integration of satisfiability solvers to handle the combinatorial nature of the problem and probabilistic model checking algorithms to handle the analysis of MDPs. Experiments on a few hundred benchmarks demonstrate the feasibility for constrained and robust policy synthesis and the competitiveness with state-of-the-art methods for various fragments of the problem.
- Abstract(参考訳): 与えられた有限マルコフ決定プロセス(MDP)に対する報酬-最適ポリシーを計算する能力は、計画、コントローラ合成、検証にまたがる様々なアプリケーションを支える。
しかし、我々は政策(1)が堅牢であること、すなわちMDPの摂動にうまく対応し、(2)表現や実装コストなどの構造的な制約を満たすことを望んでいます。
このような堅牢で制約のあるポリシーを計算することは、確かにより困難である。
本稿では, フレキシブルかつ効率的なフレームワークを用いて, 任意の構造制約を考慮したロバストポリシを効果的に計算するための最初のアプローチを提案する。
我々は,一組のMDPに対して一階述語理論で制約を表現できるようにすることで柔軟性を達成し,その効率の根源は,問題の組合せ性を扱うための満足度解決器と,MDPの分析を扱う確率論的モデル検査アルゴリズムの密接な統合にある。
数百のベンチマークでの実験は、制約付きかつ堅牢なポリシー合成の実現可能性と、問題の様々な断片に対する最先端の手法との競合性を実証した。
関連論文リスト
- Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。
本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文 参考訳(メタデータ) (2025-08-01T15:23:15Z) - Efficient Strategy Synthesis for MDPs via Hierarchical Block Decomposition [47.123254940289726]
ソフトウェア製品ラインとロボティクスはマルコフ決定プロセス(MDP)を利用して不確実性を捉え、シーケンシャルな意思決定問題を解析する。
従来の政策合成法の有用性にもかかわらず、それらは大きな状態空間にスケールできない。
提案手法は, MDPを動的に精製し, 最も脆弱な MDP 領域を反復的に選択することにより, 大規模な MDP における政策合成を高速化する。
論文 参考訳(メタデータ) (2025-06-21T19:03:03Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Recursively-Constrained Partially Observable Markov Decision Processes [13.8724466775267]
C-POMDPは連続的な決定ステップに対して最適なサブ構造特性に反することを示す。
C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。
本稿では,C-POMDPに履歴に依存したコスト制約を課す再帰的制約付きPOMDPを提案する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization
under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。
この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。
まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-10-10T01:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。