論文の概要: Quantum Policy Iteration via Amplitude Estimation and Grover Search --
Towards Quantum Advantage for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.04741v2
- Date: Wed, 10 May 2023 08:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 17:45:38.349650
- Title: Quantum Policy Iteration via Amplitude Estimation and Grover Search --
Towards Quantum Advantage for Reinforcement Learning
- Title(参考訳): 振幅推定とグローバー探索による量子政策反復 -強化学習への量子優位に向けて-
- Authors: Simon Wiedemann, Daniel Hein, Steffen Udluft, Christian Mendl
- Abstract要約: 本稿では,振幅推定とGrover検索を組み合わせた政策評価・改善手法を提案する。
最適値に到達するまで、Grover検索を用いて初期ポリシーを繰り返し改善する量子ポリシー反復法を導出する。
- 参考スコア(独自算出の注目度): 7.122914046030916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a full implementation and simulation of a novel quantum
reinforcement learning method. Our work is a detailed and formal proof of
concept for how quantum algorithms can be used to solve reinforcement learning
problems and shows that, given access to error-free, efficient quantum
realizations of the agent and environment, quantum methods can yield provable
improvements over classical Monte-Carlo based methods in terms of sample
complexity. Our approach shows in detail how to combine amplitude estimation
and Grover search into a policy evaluation and improvement scheme. We first
develop quantum policy evaluation (QPE) which is quadratically more efficient
compared to an analogous classical Monte Carlo estimation and is based on a
quantum mechanical realization of a finite Markov decision process (MDP).
Building on QPE, we derive a quantum policy iteration that repeatedly improves
an initial policy using Grover search until the optimum is reached. Finally, we
present an implementation of our algorithm for a two-armed bandit MDP which we
then simulate.
- Abstract(参考訳): 本稿では,新しい量子強化学習手法の完全な実装とシミュレーションを行う。
私たちの研究は、強化学習問題を解決するために量子アルゴリズムをどのように利用するかに関する詳細かつ形式的な概念実証であり、エージェントと環境のエラーのない効率的な量子実現にアクセスすれば、量子メソッドは、サンプル複雑性の観点から、古典的なモンテカルロベースの方法よりも証明可能な改善をもたらすことができることを示します。
提案手法では, 振幅推定とGrover検索を併用して, 政策評価と改善手法を提案する。
まず,量子政策評価法(qpe)を開発し,従来のモンテカルロ推定法に比べて2次的に効率的であり,有限マルコフ決定過程(mdp)の量子力学的実現に基づいている。
QPE上に構築された量子ポリシーは,最適化に到達するまでGrover検索を用いて初期ポリシーを繰り返し改善する。
最後に,2本腕のバンディットMDPに対するアルゴリズムの実装を提案し,シミュレーションを行った。
関連論文リスト
- Robustness and Generalization in Quantum Reinforcement Learning via Lipschitz Regularization [2.8445375187526154]
本稿では、RegQPGアルゴリズムと呼ばれる量子ポリシー勾配アプローチの正規化バージョンを提案する。
本稿では、RegQPGによるトレーニングにより、その結果のロバスト性や一般化が向上することを示す。
論文 参考訳(メタデータ) (2024-10-28T15:20:35Z) - Optimal Quantum Purity Amplification [2.05170973574812]
量子純度増幅(QPA)は、量子状態の劣化に対処する新しいアプローチを提供する。
本稿では,大域的偏極雑音に対する一般量子システムに対する最適QPAプロトコルを提案する。
この結果から,QPAは量子情報処理タスクの性能を向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-26T17:46:00Z) - Efficient Learning for Linear Properties of Bounded-Gate Quantum Circuits [63.733312560668274]
d可変RZゲートとG-dクリフォードゲートを含む量子回路を与えられた場合、学習者は純粋に古典的な推論を行い、その線形特性を効率的に予測できるだろうか?
我々は、d で線形にスケーリングするサンプルの複雑さが、小さな予測誤差を達成するのに十分であり、対応する計算の複雑さは d で指数関数的にスケールすることを証明する。
我々は,予測誤差と計算複雑性をトレードオフできるカーネルベースの学習モデルを考案し,多くの実践的な環境で指数関数からスケーリングへ移行した。
論文 参考訳(メタデータ) (2024-08-22T08:21:28Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Improved iterative quantum algorithm for ground-state preparation [4.921552273745794]
ハミルトン系の基底状態を作成するために,改良された反復量子アルゴリズムを提案する。
提案手法には,各イテレーションにおける成功確率の向上,測定精度に依存しないサンプリングの複雑さ,ゲートの複雑さの低減,およびアシラリー状態が十分に準備された場合の量子資源のみを必要とするという利点がある。
論文 参考訳(メタデータ) (2022-10-16T05:57:43Z) - Reducing the cost of energy estimation in the variational quantum
eigensolver algorithm with robust amplitude estimation [50.591267188664666]
量子化学と材料は、量子コンピューティングの最も有望な応用の1つである。
これらの領域における産業関連問題とそれを解決する量子アルゴリズムとの整合性については、まだ多くの研究が続けられている。
論文 参考訳(メタデータ) (2022-03-14T16:51:36Z) - Quantum Reinforcement Learning via Policy Iteration [6.961253535504979]
政策反復による量子強化学習を行うための一般的なフレームワークを提供する。
無限の地平線割引問題に対するEmphquantum Policy Evaluation法の設計と分析により、我々の枠組みを検証する。
本稿では,OpenAI の Gym を用いた2つの環境における量子アルゴリズムの理論的および実験的性能について検討する。
論文 参考訳(メタデータ) (2022-03-03T18:08:17Z) - Quantum algorithm for stochastic optimal stopping problems with
applications in finance [60.54699116238087]
有名な最小二乗モンテカルロ (LSM) アルゴリズムは、線形最小二乗回帰とモンテカルロシミュレーションを組み合わせることで、最適停止理論の問題を解決する。
プロセスへの量子アクセス、最適な停止時間を計算するための量子回路、モンテカルロの量子技術に基づく量子LSMを提案する。
論文 参考訳(メタデータ) (2021-11-30T12:21:41Z) - Quantum algorithms for quantum dynamics: A performance study on the
spin-boson model [68.8204255655161]
量子力学シミュレーションのための量子アルゴリズムは、伝統的に時間進化作用素のトロッター近似の実装に基づいている。
変分量子アルゴリズムは欠かせない代替手段となり、現在のハードウェア上での小規模なシミュレーションを可能にしている。
量子ゲートコストが明らかに削減されているにもかかわらず、現在の実装における変分法は量子的優位性をもたらすことはありそうにない。
論文 参考訳(メタデータ) (2021-08-09T18:00:05Z) - Error mitigation and quantum-assisted simulation in the error corrected
regime [77.34726150561087]
量子コンピューティングの標準的なアプローチは、古典的にシミュレート可能なフォールトトレラントな演算セットを促進するという考え方に基づいている。
量子回路の古典的準確率シミュレーションをどのように促進するかを示す。
論文 参考訳(メタデータ) (2021-03-12T20:58:41Z) - Hybrid quantum variational algorithm for simulating open quantum systems
with near-term devices [0.0]
ハイブリッド量子古典(HQC)アルゴリズムは、古典的な計算資源によってサポートされている短期量子デバイスを使用できる。
オープンシステムのダイナミクスをシミュレートするために,効率的な変分最適化手法を用いたHQCアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-08-12T13:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。