論文の概要: Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret
- arxiv url: http://arxiv.org/abs/2302.10796v2
- Date: Thu, 13 Jun 2024 17:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-15 02:38:50.663215
- Title: Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret
- Title(参考訳): 対数的ワーストケースレグレットを用いた量子強化学習における潜在的に効率的な探索
- Authors: Han Zhong, Jiachen Hu, Yecheng Xue, Tongyang Li, Liwei Wang,
- Abstract要約: 量子強化学習(RL)のための新しいUCRL型アルゴリズムを提案する。
我々は$mathcalO(mathrmpoly(S, A, H, log T))$ the worst-case regret for it, where $T$ is the number of episodes。
具体的には、$d$次元線形表現を持つ線形混合MDPに対する値目標回帰(VTR)に基づく量子アルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 23.418957451727255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While quantum reinforcement learning (RL) has attracted a surge of attention recently, its theoretical understanding is limited. In particular, it remains elusive how to design provably efficient quantum RL algorithms that can address the exploration-exploitation trade-off. To this end, we propose a novel UCRL-style algorithm that takes advantage of quantum computing for tabular Markov decision processes (MDPs) with $S$ states, $A$ actions, and horizon $H$, and establish an $\mathcal{O}(\mathrm{poly}(S, A, H, \log T))$ worst-case regret for it, where $T$ is the number of episodes. Furthermore, we extend our results to quantum RL with linear function approximation, which is capable of handling problems with large state spaces. Specifically, we develop a quantum algorithm based on value target regression (VTR) for linear mixture MDPs with $d$-dimensional linear representation and prove that it enjoys $\mathcal{O}(\mathrm{poly}(d, H, \log T))$ regret. Our algorithms are variants of UCRL/UCRL-VTR algorithms in classical RL, which also leverage a novel combination of lazy updating mechanisms and quantum estimation subroutines. This is the key to breaking the $\Omega(\sqrt{T})$-regret barrier in classical RL. To the best of our knowledge, this is the first work studying the online exploration in quantum RL with provable logarithmic worst-case regret.
- Abstract(参考訳): 量子強化学習(RL)は近年注目を集めているが、理論的な理解は限られている。
特に、探索と探索のトレードオフに対処できる証明可能な量子RLアルゴリズムを設計する方法は、いまだ解明されていない。
この目的のために我々は,テーブル型マルコフ決定プロセス(MDP)の量子コンピューティングを$S$状態,$A$アクション,地平線$H$で利用し,$\mathcal{O}(\mathrm{poly}(S, A, H, \log T))$ $\mathcal{O}(\mathrm{poly}(S, A, H, \log T))を成立させる新しいUCRLスタイルのアルゴリズムを提案する。
さらに, 線形関数近似を用いた量子RLに拡張することで, 大規模状態空間の問題を処理できる。
具体的には、$d$次元線形表現を持つ線形混合MDPに対する値目標回帰(VTR)に基づく量子アルゴリズムを開発し、$\mathcal{O}(\mathrm{poly}(d, H, \log T))$ regretを満足していることを証明する。
我々のアルゴリズムは古典的RLにおけるUCRL/UCRL-VTRアルゴリズムの変種であり、遅延更新機構と量子推定サブルーチンの新たな組み合わせも活用している。
これは古典的RLにおける$\Omega(\sqrt{T})$-regret障壁を破る鍵である。
我々の知る限りでは、これは量子RLにおけるオンライン探索を研究する最初の研究であり、対数最悪の最悪の後悔を証明できる。
関連論文リスト
- Hybrid Quantum-Classical Scheduling for Accelerating Neural Network Training with Newton's Gradient Descent [37.59299233291882]
本稿では,ニュートンのGDを用いたニューラルネットワークトレーニングの高速化を目的とした,ハイブリッド量子古典スケジューラQ-Newtonを提案する。
Q-Newtonは量子と古典的な線形解法を協調する合理化スケジューリングモジュールを使用している。
評価の結果,Q-Newtonは一般的な量子機械と比較してトレーニング時間を大幅に短縮できる可能性が示された。
論文 参考訳(メタデータ) (2024-04-30T23:55:03Z) - Towards large-scale quantum optimization solvers with few qubits [59.63282173947468]
我々は、$m=mathcalO(nk)$バイナリ変数を$n$ qubitsだけを使って最適化するために、$k>1$で可変量子ソルバを導入する。
我々は,特定の量子ビット効率の符号化が,バレン高原の超ポリノミウム緩和を内蔵特徴としてもたらすことを解析的に証明した。
論文 参考訳(メタデータ) (2024-01-17T18:59:38Z) - Online Learning Quantum States with the Logarithmic Loss via VB-FTRL [1.8856444568755568]
対数損失を伴う量子状態のオンライン学習(LL-OLQS)は、30年以上にわたってオンライン学習において古典的なオープンな問題である。
本稿では,LL-OLQS に対する VB-FTRL を適度な計算量で一般化する。
それぞれのアルゴリズムは半定値プログラムで構成されており、例えば、切断平面法によって時間内に実装することができる。
論文 参考訳(メタデータ) (2023-11-06T15:45:33Z) - Graph Neural Network Autoencoders for Efficient Quantum Circuit
Optimisation [69.43216268165402]
我々は、量子回路の最適化にグラフニューラルネットワーク(GNN)オートエンコーダの使い方を初めて提示する。
我々は、量子回路から有向非巡回グラフを構築し、そのグラフを符号化し、その符号化を用いてRL状態を表現する。
我々の手法は、非常に大規模なRL量子回路最適化に向けた最初の現実的な第一歩である。
論文 参考訳(メタデータ) (2023-03-06T16:51:30Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Quantum Computing Provides Exponential Regret Improvement in Episodic
Reinforcement Learning [35.11103784048256]
有限水平MDPの学習を容易にするために,textitUpper Confidence Bound (UCB) ベースの量子アルゴリズムフレームワークを提案する。
我々の量子アルゴリズムは、古典的なアルゴリズムと比較して、後悔の指数的な改善を実現している。
論文 参考訳(メタデータ) (2023-02-16T23:01:27Z) - Learning to predict arbitrary quantum processes [7.69390398476646]
我々は、未知の量子過程を$n$ qubitsで予測するための効率的な機械学習(ML)アルゴリズムを提案する。
本結果は,複雑な量子力学の出力を,プロセス自体の実行時間よりもはるかに高速に予測するMLモデルの可能性を強調した。
論文 参考訳(メタデータ) (2022-10-26T17:52:59Z) - A single $T$-gate makes distribution learning hard [56.045224655472865]
この研究は、局所量子回路の出力分布の学習可能性に関する広範な評価を提供する。
ハイブリッド量子古典アルゴリズムを含む多種多様な学習アルゴリズムにおいて、深度$d=omega(log(n))$ Clifford回路に関連する生成的モデリング問題さえも困難であることを示す。
論文 参考訳(メタデータ) (2022-07-07T08:04:15Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Deterministic and Entanglement-Efficient Preparation of
Amplitude-Encoded Quantum Registers [0.533024001730262]
古典ベクトル $mathbfb$ は量子状態の振幅で符号化される。
任意の状態の$Q$ qubitsは通常、約2Q$のエンタングゲートを必要とする。
状態準備に必要な量子資源を柔軟に削減できる決定論的(非変分法)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-26T07:37:54Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。