論文の概要: Adaptive Policies for Resource Generation in a Quantum Network
- arxiv url: http://arxiv.org/abs/2509.17576v1
- Date: Mon, 22 Sep 2025 11:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.326278
- Title: Adaptive Policies for Resource Generation in a Quantum Network
- Title(参考訳): 量子ネットワークにおける資源生成のための適応的政策
- Authors: Aksel Tacettin, Tianchen Qu, Bethany Davies, Boris Goranov, Ioana-Lisandra Draganescu, Gayane Vardoyan,
- Abstract要約: 分散量子システムのためのプロトコルは、通常、$n$の絡み合った状態の同時可用性を必要とする。
我々は、$n$の絡み合った状態が$F_mathrmapp$以上の忠実さで利用可能になるまでの期待時間を最小化する最適なポリシーを導出する。
- 参考スコア(独自算出の注目度): 0.5332865877117923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protocols for distributed quantum systems commonly require the simultaneous availability of $n$ entangled states, each with a fidelity above some fixed minimum $F_{\mathrm{app}}$ relative to the target maximally-entangled state. However, the fidelity of entangled states degrades over time while in memory. Entangled states are therefore rendered useless when their fidelity falls below $F_{\mathrm{app}}$. This is problematic when entanglement generation is probabilistic and attempted in a sequential manner, because the expected completion time until $n$ entangled states are available can be large. Motivated by existing entanglement generation schemes, we consider a system where the entanglement generation parameters (the success probability $p$ and fidelity $F$ of the generated entangled state) may be adjusted at each time step. We model the system as a Markov decision process, where the policy dictates which generation parameters $(p,F)$ to use for each attempt. We use dynamic programming to derive optimal policies that minimise the expected time until $n$ entangled states are available with fidelity greater than $F_{\mathrm{app}}$. We observe that the advantage of our optimal policies over the selected baselines increases significantly with $n$. In the parameter regimes explored, which are based closely on current experiments, we find that the optimal policy can provide a speed-up of as much as a factor of twenty over a constant-action policy. In addition, we propose a computationally inexpensive heuristic method to compute policies that perform either optimally or near-optimally in the parameter regimes explored. Our heuristic method can be used to find high-performing policies in parameter regimes where finding an optimal policy is intractable.
- Abstract(参考訳): 分散量子系のためのプロトコルは一般に$n$の絡み合った状態の同時可用性を必要とし、それぞれがターゲットの最大絡み合った状態に対して、一定の最小の$F_{\mathrm{app}}$以上の忠実度を持つ。
しかし、絡み合った状態の忠実度は記憶中の時間とともに低下する。
したがって、絡み合った状態は、その忠実度が$F_{\mathrm{app}}$以下になると役に立たない。
これは、絡み合い生成が確率的であり、連続的に試みられる場合に問題となる。
既存の絡み付き生成方式により、各時間ステップで絡み付き生成パラメータ(成功確率$p$とフィデリティ$F$)を調整できるシステムを考える。
我々は,このシステムをマルコフ決定プロセスとしてモデル化し,各試行に使用する生成パラメータを$(p,F)$に規定する。
動的プログラミングは、$n$の絡み合った状態が$F_{\mathrm{app}}$以上の忠実さで利用可能になるまで、期待される時間を最小化する最適なポリシーを導出する。
選択されたベースラインに対する最適ポリシーの利点は、$n$で著しく増加する。
現在の実験に密接に基づいたパラメータ規則では、最適ポリシは定数アクションポリシーよりも最大20倍のスピードアップを提供できることが判明した。
さらに,探索されたパラメータ規則において最適あるいはほぼ最適に実行されるポリシーを計算するための,計算コストの低いヒューリスティック手法を提案する。
我々のヒューリスティックな手法は、最適なポリシーを見つけるのが難しくなるパラメーターレシスタンスにおいて、高い性能のポリシーを見つけるのに利用できる。
関連論文リスト
- Best-Effort Policies for Robust Markov Decision Processes [69.60742680559788]
我々は、ロバスト MDP (RMDPs) として知られる遷移確率の組によるマルコフ決定過程(MDPs)の共通一般化について研究する。
このような政策を最適な堅牢なベストプラクティス(ORBE)政策と呼ぶ。
我々はORBEポリシーが常に存在することを証明し、その構造を特徴付け、標準的なロバストな値反復よりも小さなオーバヘッドで計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-11T09:18:34Z) - Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。