論文の概要: Quantum Markov Decision Processes Part II: Optimal Solutions and
Algorithms
- arxiv url: http://arxiv.org/abs/2402.14651v1
- Date: Thu, 22 Feb 2024 16:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:45:56.617337
- Title: Quantum Markov Decision Processes Part II: Optimal Solutions and
Algorithms
- Title(参考訳): 量子マルコフ決定過程 その2:最適解とアルゴリズム
- Authors: Naci Saldi, Sina Sanjari, and Serdar Yuksel
- Abstract要約: 本論文は、古典マルコフ決定過程(MDP)に量子アナログを導入することを目的としている。
パートIIでは,オープンループポリシとクローズループポリシの両方の値関数を最適化するアルゴリズムの開発に重点を置いている。
- 参考スコア(独自算出の注目度): 1.8775413720750924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This two-part article aims to introduce a quantum analogue to classical
Markov decision processes (MDPs). In Part II, building on the formulation of
q-MDPs presented in Part I, our focus shifts to the development of algorithms
for computing optimal policies and value functions of both open-loop and
closed-loop policies. First, by using the duality between the dynamic
programming and the semi-definite programming formulations of any q-MDP with
open-loop policies, we establish an algorithm that enables us to efficiently
compute optimal open-loop quantum policies and value functions. Then, dynamic
programming and semi-definite programming formulations for closed-loop policies
is established, where duality of these two formulations similarly enables the
efficient computation of optimal closed-loop policies and value functions.
Finally, given that any q-MDP can be approximated by q-MDPs with classical
policies--potentially with higher-dimensional underlying Hilbert spaces than
the original model--and since any classical policy is an element of the set of
closed-loop policies, we conclude that any q-MDP can be approximated by q-MDPs
with closed-loop policies having higher-dimensional Hilbert spaces.
- Abstract(参考訳): 本稿では、古典マルコフ決定過程(MDP)に量子アナログを導入することを目的とする。
第2部では,q-MDPの定式化を基礎として,オープンループとクローズループの両ポリシの最適ポリシと値関数の計算アルゴリズムの開発に重点を移す。
まず、任意のq-mdpの動的プログラミングと半定義型プログラミングの双対性とオープンループポリシーを組み合わせることで、最適なオープンループ量子政策と値関数を効率的に計算できるアルゴリズムを確立する。
次に、閉ループポリシーに対する動的プログラミングと半定値プログラミングの定式化が確立され、この2つの定式化の双対性も同様に最適な閉ループポリシーと値関数の効率的な計算を可能にする。
最後に、任意の q-MDP が古典的ポリシーを持つ q-MDP によって近似できることを考えれば(潜在的には、原モデルよりも高次元のヒルベルト空間を持つ)、また任意の古典的ポリシーは閉ループポリシーの集合の要素であるため、任意の q-MDP は高次元ヒルベルト空間を持つ閉ループポリシーを持つ q-MDP によって近似できる。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Quantum Markov Decision Processes: General Theory, Approximations, and Classes of Policies [1.8775413720750924]
本稿では,新しいフレームワーク,アルゴリズム,今後の研究手法を導入することを目的とした,新しい量子MDPモデルを提案する。
われわれのアプローチは、離散時間量子制御における新しい研究方向の道を開くことを願っている。
論文 参考訳(メタデータ) (2024-02-22T15:59:09Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。