論文の概要: Fast and reliable entanglement distribution with quantum repeaters:
principles for improving protocols using reinforcement learning
- arxiv url: http://arxiv.org/abs/2303.00777v3
- Date: Wed, 15 Nov 2023 00:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:50:02.181515
- Title: Fast and reliable entanglement distribution with quantum repeaters:
principles for improving protocols using reinforcement learning
- Title(参考訳): 量子リピータを用いた高速かつ信頼性の高い絡み合い分布:強化学習を用いたプロトコル改善のための原理
- Authors: Stav Haldar, Pratik J. Barge, Sumeet Khatri, Hwang Lee
- Abstract要約: 将来の量子技術は、空間的に分離されたノード間の共有絡み合いのネットワークに依存する。
ノードの線形連鎖に沿った絡み合い分布のための改良されたプロトコル/ポリティシを提供する。
- 参考スコア(独自算出の注目度): 0.6827423171182154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Future quantum technologies such as quantum communication, quantum sensing,
and distributed quantum computation, will rely on networks of shared
entanglement between spatially separated nodes. In this work, we provide
improved protocols/policies for entanglement distribution along a linear chain
of nodes, both homogeneous and inhomogeneous, that take practical limitations
such as photon losses, non-ideal measurements, and quantum memories with short
coherence times into account. For a wide range of parameters, our policies
improve upon previously known policies, such as the "swap-as-soon-as-possible"
policy, with respect to both the waiting time and the fidelity of the
end-to-end entanglement. This improvement is greatest for the most practically
relevant cases, namely, for short coherence times, high link losses, and highly
asymmetric links. To obtain our results, we model entanglement distribution
using a Markov decision process, and then we use the Q-learning reinforcement
learning (RL) algorithm to discover new policies. These new policies are
characterized by dynamic, state-dependent memory cutoffs and collaboration
between the nodes. In particular, we quantify this collaboration between the
nodes. Our quantifiers tell us how much "global" knowledge of the network every
node has. Finally, our understanding of the performance of large quantum
networks is currently limited by the computational inefficiency of simulating
them using RL or other optimization methods. Thus, in this work, we present a
method for nesting policies in order to obtain policies for large repeater
chains. By nesting our RL-based policies for small repeater chains, we obtain
policies for large repeater chains that improve upon the
swap-as-soon-as-possible policy, and thus we pave the way for a scalable method
for obtaining policies for long-distance entanglement distribution.
- Abstract(参考訳): 将来の量子通信、量子センシング、分散量子計算といった量子技術は、空間的に分離されたノード間の共有絡み合いのネットワークに依存する。
本研究では,光子損失,非理想的測定,コヒーレンスタイムの短い量子記憶といった実用上の限界を考慮し,均質かつ不均質なノードの線形鎖に沿った絡み合い分布のプロトコル/ポリティクスの改善を提案する。
幅広いパラメータにおいて、我々の政策は、待ち時間とエンドツーエンドの絡み合いの忠実性の両方に関して、"swap-as-soon-as-as-possible"ポリシーのような、これまで知られていた政策を改善している。
この改善は、短いコヒーレンス時間、高いリンク損失、高度に非対称なリンクなど、最も実践的なケースで最大である。
この結果を得るために,マルコフ決定プロセスを用いて絡み合い分布をモデル化し,Q-learning reinforcement learning (RL)アルゴリズムを用いて新しいポリシーを探索する。
これらの新しいポリシーは、動的で状態依存のメモリカットオフとノード間の協調によって特徴づけられる。
特に、ノード間のこのコラボレーションを定量化します。
量子化器は、各ノードが持つネットワークの“グローバル”な知識を教えてくれる。
最後に、大規模量子ネットワークの性能に対する我々の理解は、rlや他の最適化手法を用いてそれらをシミュレートする計算効率の非効率によって制限されている。
そこで本研究では,大規模なリピータチェーンのポリシーを得るために,ポリシーをネストする手法を提案する。
小さなリピータチェーンのためのrlベースのポリシーをネストすることで、swap-as-soon-as-possibleポリシーを改善する大きなリピータチェーンのポリシーを得ることができ、長距離の絡み合い分散のためのポリシーを得るためのスケーラブルな方法の道を開くことができます。
関連論文リスト
- Analysis of Asynchronous Protocols for Entanglement Distribution in Quantum Networks [9.971549076128268]
量子ネットワークにおける絡み合いに対する2つの最小限の非同期プロトコルについて検討する。
リンクレベルで独立に絡み合いを発生させる並列スキームと、一方から他方への絡み合いを反復的に延長するシーケンシャルスキームとを具備する。
並列方式と並列方式を比較検討した結果, 逐次方式の優位性が示唆された。
論文 参考訳(メタデータ) (2024-05-03T18:04:11Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
REBELは、生成モデルの時代における最小限のRLアルゴリズムである。
政策最適化の問題を、直接的な政策パラメータ化による相対報酬の回帰に還元する。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Policies for multiplexed quantum repeaters: theory and practical
performance analysis [5.637988606670931]
我々は、よく知られたスワップ・アズ・ア・スワップ・アズ・アズ・ア・サブル(swap-asap)ポリシーを多重化量子リピータ・チェーンに適用する2つのポリシーを導入する。
通常、完全に局所的なスワップ・アサップ・ポリシーとは異なり、これらのポリシーは準局所的であり、連鎖に沿ったリピータの状態を効果的に活用する。
論文 参考訳(メタデータ) (2024-01-24T01:13:55Z) - Asynchronous Entanglement Routing for the Quantum Internet [0.42855555838080833]
本稿では,量子ネットワークのための新しい非同期ルーティングプロトコルを提案する。
プロトコルは、絡み合いリンク非同期トポロジを更新し、最適な絡み合いスワッピングパスを特定し、未使用の直接絡み合いを保存する。
以上の結果から,非同期プロトコルは,既存の同期手法よりも,適切な設定で大きな上限を達成でき,また絡み合い率も著しく高いことが示唆された。
論文 参考訳(メタデータ) (2023-12-21T21:14:21Z) - Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Multi-User Entanglement Distribution in Quantum Networks Using Multipath
Routing [55.2480439325792]
マルチパスルーティングを活用することで,マルチユーザアプリケーションの絡み合い率を高める3つのプロトコルを提案する。
これらのプロトコルは、制限された量子メモリや確率的絡み合い生成を含む、NISQ制約のある量子ネットワーク上で評価される。
論文 参考訳(メタデータ) (2023-03-06T18:06:00Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Optimal entanglement distribution policies in homogeneous repeater
chains with cutoffs [1.9021200954913475]
本稿では,量子メモリを用いた量子リピータの連鎖を用いた二部構造エンタングルメント分布の限界について検討する。
エンド・ツー・エンドの絡み合いを生み出すための期待時間を最小限に抑えるグローバルな知識ポリシーを見つけます。
論文 参考訳(メタデータ) (2022-07-13T22:25:21Z) - Policies for elementary links in a quantum network [0.0]
特に短期量子ネットワークにおいて重要な問題は、最適な絡み合い分布プロトコルを開発することである。
決定過程の理論を用いて、絡み合い分布のための量子ネットワークプロトコルの研究を開始することで、この問題に対処する。
我々は,これまで研究されてきたメモリカットプロトコルを,意思決定プロセスフレームワーク内のポリシとして表現できることを示す。
論文 参考訳(メタデータ) (2020-07-07T04:10:41Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。