論文の概要: Q-Policy: Quantum-Enhanced Policy Evaluation for Scalable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.11862v2
- Date: Sat, 07 Jun 2025 04:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.080405
- Title: Q-Policy: Quantum-Enhanced Policy Evaluation for Scalable Reinforcement Learning
- Title(参考訳): Q-Policy: スケーラブル強化学習のための量子化政策評価
- Authors: Kalyan Cherukuri, Aarav Lala, Yash Yardi,
- Abstract要約: 本稿では,政策評価と最適化を数学的に高速化するハイブリッド量子古典的強化学習フレームワークを提案する。
Q-Policyは量子重ね合わせで値関数を符号化し、複数の状態-作用対の同時評価を可能にする。
今後の量子デバイス上でのスケーラブルなRLの理論的基盤としてQ-Policyの可能性を支持する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Q-Policy, a hybrid quantum-classical reinforcement learning (RL) framework that mathematically accelerates policy evaluation and optimization by exploiting quantum computing primitives. Q-Policy encodes value functions in quantum superposition, enabling simultaneous evaluation of multiple state-action pairs via amplitude encoding and quantum parallelism. We introduce a quantum-enhanced policy iteration algorithm with provable polynomial reductions in sample complexity for the evaluation step, under standard assumptions. To demonstrate the technical feasibility and theoretical soundness of our approach, we validate Q-Policy on classical emulations of small discrete control tasks. Due to current hardware and simulation limitations, our experiments focus on showcasing proof-of-concept behavior rather than large-scale empirical evaluation. Our results support the potential of Q-Policy as a theoretical foundation for scalable RL on future quantum devices, addressing RL scalability challenges beyond classical approaches.
- Abstract(参考訳): 本稿では,量子コンピューティングプリミティブを活用することで,政策評価と最適化を数学的に高速化するハイブリッド量子古典強化学習(RL)フレームワークであるQ-Policyを提案する。
Q-Policyは量子重ね合わせで値関数をエンコードし、振幅符号化と量子並列性によって複数の状態-作用対を同時に評価できる。
提案手法では, 標準仮定の下で, 評価ステップにおいて, 提案可能な多項式を減らした, 量子化ポリシ反復アルゴリズムを導入する。
本手法の技術的実現可能性と理論的健全性を示すため,小さな離散制御タスクの古典的エミュレーションにおけるQ-Policyの有効性を検証した。
現在のハードウェアとシミュレーションの限界のため、我々の実験は大規模な経験的評価よりも概念実証に重点を置いている。
我々の研究結果は、将来の量子デバイスにおけるスケーラブルなRLの理論的基盤としてのQ-Policyの可能性を支持し、古典的なアプローチを超えたRLスケーラビリティの課題に対処する。
関連論文リスト
- Leveraging Pre-Trained Neural Networks to Enhance Machine Learning with Variational Quantum Circuits [48.33631905972908]
我々は、事前学習されたニューラルネットワークを用いて変分量子回路(VQC)を強化する革新的なアプローチを導入する。
この手法は近似誤差をキュービット数から効果的に分離し、制約条件の必要性を除去する。
我々の結果はヒトゲノム解析などの応用にまで拡張され、我々のアプローチの幅広い適用性を示している。
論文 参考訳(メタデータ) (2024-11-13T12:03:39Z) - Efficient Learning for Linear Properties of Bounded-Gate Quantum Circuits [63.733312560668274]
d可変RZゲートとG-dクリフォードゲートを含む量子回路を与えられた場合、学習者は純粋に古典的な推論を行い、その線形特性を効率的に予測できるだろうか?
我々は、d で線形にスケーリングするサンプルの複雑さが、小さな予測誤差を達成するのに十分であり、対応する計算の複雑さは d で指数関数的にスケールすることを証明する。
我々は,予測誤差と計算複雑性をトレードオフできるカーネルベースの学習モデルを考案し,多くの実践的な環境で指数関数からスケーリングへ移行した。
論文 参考訳(メタデータ) (2024-08-22T08:21:28Z) - A quantum information theoretic analysis of reinforcement learning-assisted quantum architecture search [0.0]
本研究では,変分量子状態対角化問題に適したアンサッツ製造のためのRL-QASについて検討した。
我々はこれらの知見を活用して、最適な資源を用いてランダムな量子状態と対角化するために、QASの絡み合った許容アンサッツを考案する。
論文 参考訳(メタデータ) (2024-04-09T09:54:59Z) - A Quantum-Classical Collaborative Training Architecture Based on Quantum
State Fidelity [50.387179833629254]
我々は,コ・テンク (co-TenQu) と呼ばれる古典量子アーキテクチャを導入する。
Co-TenQuは古典的なディープニューラルネットワークを41.72%まで向上させる。
他の量子ベースの手法よりも1.9倍も優れており、70.59%少ない量子ビットを使用しながら、同様の精度を達成している。
論文 参考訳(メタデータ) (2024-02-23T14:09:41Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Synergy Between Quantum Circuits and Tensor Networks: Short-cutting the
Race to Practical Quantum Advantage [43.3054117987806]
本稿では,量子回路の初期化を最適化するために,古典計算資源を利用するスケーラブルな手法を提案する。
本手法は, PQCのトレーニング性, 性能を, 様々な問題において著しく向上させることを示す。
古典的コンピュータを用いて限られた量子資源を増強する手法を実証することにより、量子コンピューティングにおける量子と量子に着想を得たモデル間の相乗効果を実証する。
論文 参考訳(メタデータ) (2022-08-29T15:24:03Z) - Quantum Policy Iteration via Amplitude Estimation and Grover Search --
Towards Quantum Advantage for Reinforcement Learning [7.122914046030916]
本稿では,振幅推定とGrover検索を組み合わせた政策評価・改善手法を提案する。
最適値に到達するまで、Grover検索を用いて初期ポリシーを繰り返し改善する量子ポリシー反復法を導出する。
論文 参考訳(メタデータ) (2022-06-09T19:23:10Z) - Quantum Reinforcement Learning via Policy Iteration [6.961253535504979]
政策反復による量子強化学習を行うための一般的なフレームワークを提供する。
無限の地平線割引問題に対するEmphquantum Policy Evaluation法の設計と分析により、我々の枠組みを検証する。
本稿では,OpenAI の Gym を用いた2つの環境における量子アルゴリズムの理論的および実験的性能について検討する。
論文 参考訳(メタデータ) (2022-03-03T18:08:17Z) - Uncovering Instabilities in Variational-Quantum Deep Q-Networks [0.0]
変動量子深度Q-networks (VQ-DQN) は、学習ポリシーが分岐する不安定な状態にあることを示す。
我々は、実量子処理ユニット(IBM量子デバイス)上でRLアルゴリズムを実行し、シミュレーションされた量子システムと物理量子システムの振る舞いの違いを調査する。
論文 参考訳(メタデータ) (2022-02-10T17:52:44Z) - Error mitigation and quantum-assisted simulation in the error corrected
regime [77.34726150561087]
量子コンピューティングの標準的なアプローチは、古典的にシミュレート可能なフォールトトレラントな演算セットを促進するという考え方に基づいている。
量子回路の古典的準確率シミュレーションをどのように促進するかを示す。
論文 参考訳(メタデータ) (2021-03-12T20:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。