論文の概要: Optimal entanglement distribution policies in homogeneous repeater
chains with cutoffs
- arxiv url: http://arxiv.org/abs/2207.06533v2
- Date: Tue, 9 Aug 2022 11:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-05 06:40:23.431825
- Title: Optimal entanglement distribution policies in homogeneous repeater
chains with cutoffs
- Title(参考訳): カットオフをもつ等質リピータ鎖の最適絡み合い分布ポリシ
- Authors: \'Alvaro G. I\~nesta, Gayane Vardoyan, Lara Scavuzzo, Stephanie Wehner
- Abstract要約: 量子メモリを用いた量子リピータの連鎖による絡み合い分布の限界について検討する。
エンド・ツー・エンドの絡み合いを生み出すための期待時間を最小限に抑えるグローバルな知識ポリシーを見つけます。
我々の研究は、カットオフを伴う中間リピータの連鎖を用いて、大きな量子ネットワークで絡み合ったペアを分配する方法に光を当てています。
- 参考スコア(独自算出の注目度): 1.9021200954913475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantum repeater chains can be used to distribute bipartite entanglement
among two end nodes. We study the limits of entanglement distribution using a
chain of quantum repeaters that have quantum memories. A maximum storage time,
known as cutoff, is enforced on these memories to ensure high-quality
end-to-end entanglement. To generate end-to-end entanglement, the nodes can
perform the following operations: wait, attempt the generation of an elementary
entangled link with its neighbor(s), or perform an entanglement swapping
measurement. Nodes follow a policy that determines what operation they must
perform in each time step. Global-knowledge policies take into account all the
information about the entanglement already produced. Here, we find
global-knowledge policies that minimize the expected time to produce end-to-end
entanglement. We model the evolution of this system as a Markov decision
process, and find optimal policies using value and policy iteration. We compare
optimal global-knowledge policies to a policy in which nodes only use local
information. The advantage in expected delivery time provided by an optimal
global-knowledge policy increases with increasing number of nodes and
decreasing probability of successful entanglement swap. The advantage displays
a non-trivial behavior with respect to the cutoff time and the probability of
successful entanglement generation at the elementary link level. Our work sheds
light on how to distribute entangled pairs in large quantum networks using a
chain of intermediate repeaters with cutoffs.
- Abstract(参考訳): 量子リピータチェーンは、2つの終端ノード間で二部交絡を分配するのに使うことができる。
量子メモリを持つ量子リピータの連鎖を用いた絡み合い分布の限界について検討する。
最大記憶時間はカットオフと呼ばれ、高品質なエンドツーエンドの絡み合いを確保するためにこれらの記憶に強制される。
エンド・ツー・エンドの絡み合いを生成するために、ノードは次の操作を実行することができる:待ち、隣人との絡み合いリンクの生成を試みる、または絡み合い交換測定を行う。
ノードは、各タイムステップで実行しなければならない操作を決定するポリシーに従う。
グローバル知識政策は、既に生み出された絡み合いに関する情報をすべて考慮に入れている。
ここでは、エンドツーエンドの絡み合いを生み出すのに期待できる時間を最小化するグローバル知識ポリシーを見つける。
我々は,このシステムの進化をマルコフ決定プロセスとしてモデル化し,価値と政策の反復を用いた最適方針を求める。
最適なグローバル知識ポリシーを,ノードがローカル情報のみを使用するポリシと比較する。
最適グローバルナレッジポリシーによって提供される期待配送時間の利点は、ノード数の増加と絡み合いスワップの成功確率の低下によって増加する。
この利点は、切断時間および初等リンクレベルでの絡み合い発生を成功させる確率に関して、非自明な挙動を示す。
我々の研究は、カットオフを伴う中間リピータの連鎖を用いて、大きな量子ネットワークで絡み合ったペアを分配する方法に光を当てています。
関連論文リスト
- Multi-Objective Recommendation via Multivariate Policy Learning [10.494676556696213]
現実世界のレコメンデーションシステムは、ユーザに提示するレコメンデーションを決定する際に、複数の目的のバランスを取る必要があることが多い。
これには行動信号(クリック、共有、居住時間など)や、より広い目的(多様性、公平性など)が含まれる。
論文 参考訳(メタデータ) (2024-05-03T14:44:04Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Reducing classical communication costs in multiplexed quantum repeaters using hardware-aware quasi-local policies [5.405186125924916]
多重量子リピータチェインに対するテクスティクアシ局所ポリシーを導入する。
準局所的なポリシーでは、ノードはリピータ連鎖の状態に関する知識を増大させてきたが、必ずしも完全なグローバルな知識ではない。
我々の政策はまた、ネストされた浄化と2倍のスワップ政策を良く知られ、広く研究されている。
論文 参考訳(メタデータ) (2024-01-24T01:13:55Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Fast and reliable entanglement distribution with quantum repeaters: principles for improving protocols using reinforcement learning [0.6249768559720122]
将来の量子技術は、空間的に分離されたノード間の共有絡み合いのネットワークに依存する。
ノードの線形連鎖に沿った絡み合い分布のための改良されたプロトコル/ポリティシを提供する。
論文 参考訳(メタデータ) (2023-03-01T19:05:32Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Cooperative Multi-Agent Reinforcement Learning with Partial Observations [16.895704973433382]
マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。
エージェントは、グローバルに蓄積された報酬の局所的な見積もりを使用して、ローカルポリシー機能を更新するために必要なローカルポリシー勾配を計算することができる。
本研究では, 一定段差の分散ゼロ階次ポリシ最適化手法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
論文 参考訳(メタデータ) (2020-06-18T19:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。