論文の概要: Quantum Markov Decision Processes: Dynamic and Semi-Definite Programs for Optimal Solutions
- arxiv url: http://arxiv.org/abs/2402.14651v2
- Date: Fri, 21 Feb 2025 10:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:41:46.901315
- Title: Quantum Markov Decision Processes: Dynamic and Semi-Definite Programs for Optimal Solutions
- Title(参考訳): 量子マルコフ決定過程:最適解のための動的および半定値プログラム
- Authors: Naci Saldi, Sina Sanjari, Serdar Yuksel,
- Abstract要約: オープンループおよび古典的状態保存型クローズループポリシーの最適ポリシと値関数に対する半定値プログラミング手法を開発した。
線形プログラムとして,ほぼ最適な値関数と最適定常開ループポリシーの定式化を求める方法を確立する。
- 参考スコア(独自算出の注目度): 1.8775413720750924
- License:
- Abstract: In this paper, building on the formulation of quantum Markov decision processes (q-MDPs) presented in our previous work [{\sc N.~Saldi, S.~Sanjari, and S.~Y\"{u}ksel}, {\em Quantum Markov Decision Processes: General Theory, Approximations, and Classes of Policies}, SIAM Journal on Control and Optimization, 2024], our focus shifts to the development of semi-definite programming approaches for optimal policies and value functions of both open-loop and classical-state-preserving closed-loop policies. First, by using the duality between the dynamic programming and the semi-definite programming formulations of any q-MDP with open-loop policies, we establish that the optimal value function is linear and there exists a stationary optimal policy among open-loop policies. Then, using these results, we establish a method for computing an approximately optimal value function and formulate computation of optimal stationary open-loop policy as a bi-linear program. Next, we turn our attention to classical-state-preserving closed-loop policies. Dynamic programming and semi-definite programming formulations for classical-state-preserving closed-loop policies are established, where duality of these two formulations similarly enables us to prove that the optimal policy is linear and there exists an optimal stationary classical-state-preserving closed-loop policy. Then, similar to the open-loop case, we establish a method for computing the optimal value function and pose computation of optimal stationary classical-state-preserving closed-loop policies as a bi-linear program.
- Abstract(参考訳): 本稿では,量子マルコフ決定過程 (q-MDPs) の定式化に基づく。
サルディ、S。
~サンジャリ、S。
――Y\"{u}ksel}, {\displaystyle {\em Quantum Markov Decision Processes: General Theory, Approximations, and Classes of Policies}, SIAM Journal on Control and Optimization, 2024], 我々の焦点は、オープンループおよび古典状態保存クローズドループポリシーの両方の最適ポリシーと値関数のための半定型プログラミングアプローチの開発へのシフトである。
まず、動的プログラミングと開ループポリシを持つ任意のq-MDPの半定値プログラミング式との双対性を用いて、最適値関数が線形であり、開ループポリシーの間に定常的最適ポリシーが存在することを確かめる。
そして,これらの結果を用いて,ほぼ最適値関数を計算し,二線形プログラムとして最適定常開ループポリシーを定式化する方法を確立する。
次に、古典的な状態を保存する閉ループポリシーに注目します。
古典的状態保存閉ループポリシーに対する動的プログラミングと半定値プログラミングの定式化が確立され、これらの2つの定式化の双対性により、最適方針が線形であること、そして、最適定常的古典的状態保存閉ループポリシーが存在することを証明できる。
そこで, オープンループの場合と同様, 最適値関数を計算し, 最適定常古典状態保存閉ループポリシーの計算をバイ線形プログラムとして行う方法を確立した。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Quantum Markov Decision Processes: General Theory, Approximations, and Classes of Policies [1.8775413720750924]
本稿では,新しいフレームワーク,アルゴリズム,今後の研究手法を導入することを目的とした,新しい量子MDPモデルを提案する。
われわれのアプローチは、離散時間量子制御における新しい研究方向の道を開くことを願っている。
論文 参考訳(メタデータ) (2024-02-22T15:59:09Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。