Fugu-MT 論文翻訳(概要): Controller Synthesis for Omega-Regular and Steady-State Specifications

論文の概要: Controller Synthesis for Omega-Regular and Steady-State Specifications

arxiv url: http://arxiv.org/abs/2106.02951v1
Date: Sat, 5 Jun 2021 19:34:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-08 17:39:48.774324
Title: Controller Synthesis for Omega-Regular and Steady-State Specifications
Title（参考訳）: Omega-RegularおよびStady-State仕様のためのコントローラ合成
Authors: Alvaro Velasquez, Ashutosh Trivedi, Ismail Alkhouri, Andre Beckus, and George Atia
Abstract要約: 本稿では,$omega$-regularかつ定常制約を満たす決定論的ポリシーを求めるアルゴリズムを提案する。我々は我々のアプローチを実験的に評価した。
参考スコア（独自算出の注目度）: 9.901800502055929
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given a Markov decision process (MDP) and a linear-time ($\omega$-regular or LTL) specification, the controller synthesis problem aims to compute the optimal policy that satisfies the specification. More recently, problems that reason over the asymptotic behavior of systems have been proposed through the lens of steady-state planning. This entails finding a control policy for an MDP such that the Markov chain induced by the solution policy satisfies a given set of constraints on its steady-state distribution. This paper studies a generalization of the controller synthesis problem for a linear-time specification under steady-state constraints on the asymptotic behavior. We present an algorithm to find a deterministic policy satisfying $\omega$-regular and steady-state constraints by characterizing the solutions as an integer linear program, and experimentally evaluate our approach.
Abstract（参考訳）: マルコフ決定プロセス (MDP) と線形時間 ($\omega$-regular or LTL) の仕様が与えられたとき、コントローラ合成問題は仕様を満たす最適なポリシーを計算することを目的としている。近年,定常計画のレンズを通して,システムの漸近的挙動を理由とする問題が提案されている。このことは、解法によって引き起こされるマルコフ連鎖がその定常分布に対する与えられた制約を満たすようなMDPの制御ポリシーを見つけることを必要とする。本稿では, 漸近挙動の定常制約下での線形時間仕様に対する制御器合成問題の一般化について検討する。整数線形プログラムとして解を特徴付けることにより,$\omega$-regular および定常制約を満たす決定論的ポリシを求めるアルゴリズムを提案し,本手法を実験的に評価する。

関連論文リスト

Policy Testing in Markov Decision Processes [48.642181362172906]
本研究では,不確実性条件下での割引決定プロセス(MDP)におけるポリシーテスト問題について検討する。目的は、与えられたポリシーの値が数値しきい値を超えるかどうかを決定することである。
論文参考訳（メタデータ） (2025-05-21T10:13:54Z)
A Non-Asymptotic Theory of Seminorm Lyapunov Stability: From Deterministic to Stochastic Iterative Algorithms [15.764613607477887]
半ノルム制約作用素に対する不動点方程式の解法について検討する。決定論的および基礎的設定の両方において反復アルゴリズムの漸近的動作を確立する。
論文参考訳（メタデータ） (2025-02-20T02:39:37Z)
A learning-based approach to stochastic optimal control under reach-avoid constraint [7.036452261968767]
我々は,リーチアビド制約を受けるマルコフ系を最適に制御するためのモデルフリーアプローチを開発する。適切な仮定の下では、政策パラメータが最適パラメータに収束し、システム軌道が到達不能な制約を高い確率で満たすことが保証される。
論文参考訳（メタデータ） (2024-12-21T10:07:40Z)
Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文参考訳（メタデータ） (2024-09-25T17:56:02Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文参考訳（メタデータ） (2023-10-07T15:07:10Z)
High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文参考訳（メタデータ） (2023-05-30T12:58:39Z)
Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear Systems via Sums-of-Squares Optimization [28.627377507894003]
本稿では,非線形システムの制御観測のためのノイズフィードバック,低次出力-制御-パーセプションポリシを提案する。画像からのこれらのシステムが確実に安定できない場合、我々のアプローチは安定性の保証を提供する。
論文参考訳（メタデータ） (2023-04-24T19:34:09Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Learning Stochastic Parametric Differentiable Predictive Control Policies [2.042924346801313]
本稿では、ニューラルネットワークポリシーの教師なし学習のための、パラメトリック微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案する。 SP-DPCはパラメトリック制約最適制御問題に対する決定論的近似として定式化される。閉ループ制約と確率満足度に関するSP-DPC法を用いて学習したポリシーに関する理論的確率的保証を提供する。
論文参考訳（メタデータ） (2022-03-02T22:46:32Z)
Model-Free Reinforcement Learning for Optimal Control of MarkovDecision Processes Under Signal Temporal Logic Specifications [7.842869080999489]
有限水平マルコフ決定過程に対する最適ポリシーを求めるためのモデルフリー強化学習アルゴリズムを提案する。本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画の文脈におけるアプローチの有効性について述べる。
論文参考訳（メタデータ） (2021-09-27T22:44:55Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Stochastic Finite State Control of POMDPs with LTL Specifications [14.163899014007647]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下での自律的な意思決定のためのモデリングフレームワークを提供する。本稿では,POMDPに対する準最適有限状態制御器(sFSC)の合成に関する定量的問題について考察する。本稿では,sFSC サイズが制御される有界ポリシアルゴリズムと,連続的な繰り返しにより制御器の性能が向上する任意の時間アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-01-21T18:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。