論文の概要: Interval Markov Decision Processes with Continuous Action-Spaces
- arxiv url: http://arxiv.org/abs/2211.01231v2
- Date: Fri, 7 Apr 2023 09:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 15:02:04.228551
- Title: Interval Markov Decision Processes with Continuous Action-Spaces
- Title(参考訳): 連続作用空間をもつ区間マルコフ決定過程
- Authors: Giannis Delimpaltadakis, Morteza Lahijanian, Manuel Mazo Jr., Luca
Laurenti
- Abstract要約: 連続動作型IMDP (caIMDP) を導入し, 遷移確率のバウンダリを動作変数の関数とする。
そこで我々は,caIMDP 上の値が効率的に解ける場合を同定するために,単純な最大問題の形式を利用する。
数値的な例でその結果を実演する。
- 参考スコア(独自算出の注目度): 6.088695984060244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interval Markov Decision Processes (IMDPs) are finite-state uncertain Markov
models, where the transition probabilities belong to intervals. Recently, there
has been a surge of research on employing IMDPs as abstractions of stochastic
systems for control synthesis. However, due to the absence of algorithms for
synthesis over IMDPs with continuous action-spaces, the action-space is assumed
discrete a-priori, which is a restrictive assumption for many applications.
Motivated by this, we introduce continuous-action IMDPs (caIMDPs), where the
bounds on transition probabilities are functions of the action variables, and
study value iteration for maximizing expected cumulative rewards. Specifically,
we decompose the max-min problem associated to value iteration to
$|\mathcal{Q}|$ max problems, where $|\mathcal{Q}|$ is the number of states of
the caIMDP. Then, exploiting the simple form of these max problems, we identify
cases where value iteration over caIMDPs can be solved efficiently (e.g., with
linear or convex programming). We also gain other interesting insights: e.g.,
in certain cases where the action set $\mathcal{A}$ is a polytope, synthesis
over a discrete-action IMDP, where the actions are the vertices of
$\mathcal{A}$, is sufficient for optimality. We demonstrate our results on a
numerical example. Finally, we include a short discussion on employing caIMDPs
as abstractions for control synthesis.
- Abstract(参考訳): インターバルマルコフ決定過程(Interval Markov Decision Processs、IMDP)は、遷移確率が区間に属する有限状態不確実マルコフモデルである。
近年,imdpを制御合成のための確率システムの抽象化として用いる研究が急増している。
しかし、連続的な作用空間を持つIMDP上の合成アルゴリズムが存在しないため、アクション空間は離散a-プリオリと仮定され、これは多くのアプリケーションにとって制限的な仮定である。
そこで我々は,遷移確率の限界が作用変数の関数である連続作用imdps(caimdps)を導入し,期待累積報酬を最大化するための学習値反復を提案する。
具体的には、値反復に関連する最大ミン問題を$|\mathcal{Q}|$max問題に分解し、$|\mathcal{Q}|$はcaIMDPの状態の数である。
次に、これらの最大問題の単純な形式を利用して、caIMDP 上の値反復を効率的に解ける場合(例えば、線形あるいは凸プログラミング)を特定する。
例えば、作用集合 $\mathcal{A}$ がポリトープである場合、離散作用 IMDP 上の合成において、作用が $\mathcal{A}$ の頂点である場合、最適性には十分である。
その結果を数値的な例で示す。
最後に、制御合成の抽象化としてcaIMDPを用いることについての簡単な議論を含む。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Prospective Side Information for Latent MDPs [80.00842638151558]
本報告では,各エピソードの開始時に,エージェントが付加的,弱く露呈する情報を受信した場合に,予測側情報を用いたLMDPのクラスについて検討する。
驚くべきことに、この問題は、部分的に観察された環境のために設計された現代の設定やアルゴリズムによって捉えられていない。
すると、サンプル効率の良いアルゴリズムは、標準の$Omega(K2/3)$-regretとは対照的に、少なくとも$Omega(K2/3)$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-10-11T15:37:31Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Numerical Methods for Convex Multistage Stochastic Optimization [86.45244607927732]
最適化プログラミング(SP)、最適制御(SOC)、決定プロセス(MDP)に焦点を当てる。
凸多段マルコフ問題の解決の最近の進歩は、動的プログラミング方程式のコスト対ゴー関数の切断面近似に基づいている。
切削平面型法は多段階問題を多段階的に扱えるが、状態(決定)変数は比較的少ない。
論文 参考訳(メタデータ) (2023-03-28T01:30:40Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Convex Optimization for Parameter Synthesis in MDPs [19.808494349302784]
確率論的モデル検査は、マルコフ決定プロセスが時間論理の仕様を満たすかどうかを証明することを目的としている。
我々は、局所最適実行時ソリューションを反復的に得る2つのアプローチを開発する。
数十万のパラメータを持つ衛星パラメータ合成問題に対するアプローチと,その拡張性を,広く使用されているベンチマーク上で実証する。
論文 参考訳(メタデータ) (2021-06-30T21:23:56Z) - A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。
我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。
この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-24T13:46:09Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Weak SINDy For Partial Differential Equations [0.0]
我々はWeak SINDy(WSINDy)フレームワークを偏微分方程式(PDE)の設定にまで拡張する。
弱い形状による点微分近似の除去は、ノイズフリーデータからモデル係数の効率的な機械的精度回復を可能にする。
我々は、いくつかの挑戦的なPDEに対して、WSINDyの堅牢性、速度、精度を実証する。
論文 参考訳(メタデータ) (2020-07-06T16:03:51Z) - Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints [38.2783003051101]
本稿では,有限地平線における全報酬の最大化と,各エポックにおける制約を確率1で満たすため,エージェントがポリシーを選択する,制約付きマルコフ決定プロセス(PCMDP)について考察する。
そこで本研究では,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
論文 参考訳(メタデータ) (2020-03-11T23:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。