論文の概要: QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.16429v1
- Date: Thu, 14 May 2026 18:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.320031
- Title: QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning
- Title(参考訳): QuantFPFlow:Fokkerの量子振幅推定--継続的強化学習におけるプランクポリシー最適化
- Authors: Abraham Itzhak Weinberg,
- Abstract要約: 我々は,Fokker-Planck(FP)の定式化に量子振幅推定を統合する強化学習フレームワークであるtextbfFPFlowを紹介する。
古典的な連続空間エージェントは FP 分割関数 $Z = int e-V(mathbfx)/D,dmathbfx$ at cost $calO (1/varepsilon2)$; QuantFlow を Grover 増幅振幅推定器で置き換えて $calO (1/varepsilon)$ -- a とする。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce \textbf{QuantFPFlow}, a reinforcement learning framework that integrates quantum amplitude estimation into the Fokker--Planck~(FP) formulation of stochastic policy optimisation. Classical continuous-space RL agents must estimate the FP partition function $Z = \int e^{-V(\mathbf{x})/D}\,d\mathbf{x}$ at cost $\calO(1/\varepsilon^{2})$; QuantFPFlow replaces this with a Grover-amplified amplitude estimator achieving $\calO(1/\varepsilon)$ -- a provable quadratic speedup. While the full quantum acceleration requires fault-tolerant hardware, the quantum-inspired classical simulation demonstrated here already exhibits the $\calO(1/\varepsilon)$ algorithmic structure. The estimated stationary distribution $\rhostar$ drives a theoretically grounded exploration bonus $\Raug = \Renv + α\log(1/\rhostar(s))$. This bonus steers the agent toward globally optimal regions of multimodal reward landscapes while simultaneously constraining policy variance through FP diffusion matching. On a continuous-control task specifically designed to expose local-optima failure, QuantFPFlow achieves mean reward $1{,}295.7 \pm 423.2$ versus $1{,}284.0 \pm 474.0$ for Soft Actor-Critic~(SAC), while discovering the global optimum \textbf{10.4\,\% more frequently} (33.9\,\% vs.\ 30.7\,\%). Policy entropy remains near $H(π)\approx 6.5$\,nats throughout training, whereas SAC collapses to $1.5$\,nats, confirming that FP diffusion matching actively prevents premature convergence. Dimensionality experiments further show computational scaling of $\calO(d^{0.35})$ for QuantFPFlow versus $\calO(d^{0.76})$ for classical FP estimation.
- Abstract(参考訳): 本稿では,量子振幅推定をFokker--Planck~(FP)の確率的ポリシ最適化の定式化に統合する強化学習フレームワークである「textbf{QuantFPFlow}」を紹介する。
古典的連続空間 RL エージェントは FP 分割関数 $Z = \int e^{-V(\mathbf{x})/D}\,d\mathbf{x}$ at cost $\calO(1/\varepsilon^{2})$; QuantFPFlow を Grover 増幅振幅推定器で置き換え、$\calO(1/\varepsilon)$ -- 証明可能な二次的スピードアップを達成する。
完全な量子加速はフォールトトレラントなハードウェアを必要とするが、量子にインスパイアされた古典的なシミュレーションは、既に$\calO(1/\varepsilon)$アルゴリズム構造を示している。
推定定常分布$\rhostar$は理論的に根拠付けられた探索ボーナス$\Raug = \Renv + α\log(1/\rhostar(s))$を駆動する。
このボーナスは、FP拡散マッチングによる政策分散を同時に制限しながら、マルチモーダル報酬ランドスケープのグローバルな最適領域に向けてエージェントを操縦する。
局所オプティマ障害を露呈するように特別に設計された連続制御タスクにおいて、QuantFPFlowは平均的な報酬1{,}295.7 \pm 423.2$対1{,}284.0 \pm 474.0$ for Soft Actor-Critic~(SAC)を達成し、グローバルな最適化である「textbf{10.4\,\% more often}」(33.9\,\% vs.33.9\,\%)を発見した。
30.7\,\%)。
政策エントロピーは訓練を通してH(π)\approx 6.5$\,natsに近づき、SACは1.5$\,natsに崩壊し、FP拡散マッチングが早期収束を積極的に妨げていることを確認する。
次元実験はさらに、古典的なFP推定のために$\calO(d^{0.35})$ for QuantFPFlow vs $\calO(d^{0.76})$の計算スケーリングを示す。
関連論文リスト
- OAM-Induced Lattice Rotation Reveals a Fractional Optimum in Fault-Tolerant GKP Quantum Sensing [0.0]
軌道角モメンタム符号化とGottesman-Kitaev-Preskill(GKP)格子幾何学が構造的に結合していることを確立する。
終端から終端までの微分可能なStrawberry Fields--TensorFlow回路を用いて、$ell$、格子アスペクト比$r$、および有限エネルギーエンベロープ$$を共に最適化し、量子フィッシャー情報を最大化する。
論文 参考訳(メタデータ) (2026-05-13T09:49:16Z) - Wavelet Variance Equipartition as a Threshold for World-Model Quality and Quantum Kernel TN-Simulability [0.0]
我々はウェーブレットスケーリング指数$$を臨界診断として同定する。
振幅符号化された量子カーネルの古典的シミュラビリティのシャープな遷移境界として$=1/2$を確立する。
この分散は、厳密には$Var[X] = (d-2)$としてスケールする。
論文 参考訳(メタデータ) (2026-05-12T05:41:12Z) - Sublinear Time Quantum Sensitivity Sampling [57.356528942341534]
本稿では、量子感応サンプリングのための統一的なフレームワークを提案し、量子コンピューティングの利点を古典近似問題の幅広いクラスに拡張する。
我々のフレームワークは、コアセットを構築するための合理化されたアプローチを提供し、クラスタリング、回帰、低ランク近似などのアプリケーションにおいて、大幅なランタイム改善を提供します。
論文 参考訳(メタデータ) (2025-09-20T20:18:49Z) - Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - Robust learning of halfspaces under log-concave marginals [6.852292115526837]
線形しきい値関数を学習し、境界体積$O(r+varepsilon)$の分類子を半径摂動$r$で返すアルゴリズムを与える。
dtildeO(1/varepsilon2)$の時間とサンプルの複雑さはブール回帰の複雑さと一致する。
論文 参考訳(メタデータ) (2025-05-19T20:12:16Z) - ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。
我々はSCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-01T18:51:29Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。