論文の概要: Quantum Markov Decision Processes: Dynamic and Semi-Definite Programs for Optimal Solutions
- arxiv url: http://arxiv.org/abs/2402.14651v2
- Date: Fri, 21 Feb 2025 10:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 21:37:38.77854
- Title: Quantum Markov Decision Processes: Dynamic and Semi-Definite Programs for Optimal Solutions
- Title(参考訳): 量子マルコフ決定過程:最適解のための動的および半定値プログラム
- Authors: Naci Saldi, Sina Sanjari, Serdar Yuksel,
- Abstract要約: オープンループおよび古典的状態保存型クローズループポリシーの最適ポリシと値関数に対する半定値プログラミング手法を開発した。
線形プログラムとして,ほぼ最適な値関数と最適定常開ループポリシーの定式化を求める方法を確立する。
- 参考スコア(独自算出の注目度): 1.8775413720750924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, building on the formulation of quantum Markov decision processes (q-MDPs) presented in our previous work [{\sc N.~Saldi, S.~Sanjari, and S.~Y\"{u}ksel}, {\em Quantum Markov Decision Processes: General Theory, Approximations, and Classes of Policies}, SIAM Journal on Control and Optimization, 2024], our focus shifts to the development of semi-definite programming approaches for optimal policies and value functions of both open-loop and classical-state-preserving closed-loop policies. First, by using the duality between the dynamic programming and the semi-definite programming formulations of any q-MDP with open-loop policies, we establish that the optimal value function is linear and there exists a stationary optimal policy among open-loop policies. Then, using these results, we establish a method for computing an approximately optimal value function and formulate computation of optimal stationary open-loop policy as a bi-linear program. Next, we turn our attention to classical-state-preserving closed-loop policies. Dynamic programming and semi-definite programming formulations for classical-state-preserving closed-loop policies are established, where duality of these two formulations similarly enables us to prove that the optimal policy is linear and there exists an optimal stationary classical-state-preserving closed-loop policy. Then, similar to the open-loop case, we establish a method for computing the optimal value function and pose computation of optimal stationary classical-state-preserving closed-loop policies as a bi-linear program.
- Abstract(参考訳): 本稿では,量子マルコフ決定過程 (q-MDPs) の定式化に基づく。
サルディ、S。
~サンジャリ、S。
――Y\"{u}ksel}, {\displaystyle {\em Quantum Markov Decision Processes: General Theory, Approximations, and Classes of Policies}, SIAM Journal on Control and Optimization, 2024], 我々の焦点は、オープンループおよび古典状態保存クローズドループポリシーの両方の最適ポリシーと値関数のための半定型プログラミングアプローチの開発へのシフトである。
まず、動的プログラミングと開ループポリシを持つ任意のq-MDPの半定値プログラミング式との双対性を用いて、最適値関数が線形であり、開ループポリシーの間に定常的最適ポリシーが存在することを確かめる。
そして,これらの結果を用いて,ほぼ最適値関数を計算し,二線形プログラムとして最適定常開ループポリシーを定式化する方法を確立する。
次に、古典的な状態を保存する閉ループポリシーに注目します。
古典的状態保存閉ループポリシーに対する動的プログラミングと半定値プログラミングの定式化が確立され、これらの2つの定式化の双対性により、最適方針が線形であること、そして、最適定常的古典的状態保存閉ループポリシーが存在することを証明できる。
そこで, オープンループの場合と同様, 最適値関数を計算し, 最適定常古典状態保存閉ループポリシーの計算をバイ線形プログラムとして行う方法を確立した。
関連論文リスト
- Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Quantum Markov Decision Processes: General Theory, Approximations, and Classes of Policies [1.8775413720750924]
本稿では,新しいフレームワーク,アルゴリズム,今後の研究手法を導入することを目的とした,新しい量子MDPモデルを提案する。
われわれのアプローチは、離散時間量子制御における新しい研究方向の道を開くことを願っている。
論文 参考訳(メタデータ) (2024-02-22T15:59:09Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z) - Kernel Taylor-Based Value Function Approximation for Continuous-State
Markov Decision Processes [5.894659354028797]
我々は,カーネルベースのポリシー反復アルゴリズムを提案し,連続状態マルコフ決定過程(MDP)を解く。
提案手法は, 簡易計画シナリオと現実計画シナリオの両方において, 広範囲なシミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-06-03T01:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。