論文の概要: Optimal entanglement distribution policies in homogeneous repeater
chains with cutoffs
- arxiv url: http://arxiv.org/abs/2207.06533v3
- Date: Fri, 21 Apr 2023 17:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 18:19:44.283256
- Title: Optimal entanglement distribution policies in homogeneous repeater
chains with cutoffs
- Title(参考訳): カットオフをもつ等質リピータ鎖の最適絡み合い分布ポリシ
- Authors: \'Alvaro G. I\~nesta, Gayane Vardoyan, Lara Scavuzzo, Stephanie Wehner
- Abstract要約: 本稿では,量子メモリを用いた量子リピータの連鎖を用いた二部構造エンタングルメント分布の限界について検討する。
エンド・ツー・エンドの絡み合いを生み出すための期待時間を最小限に抑えるグローバルな知識ポリシーを見つけます。
- 参考スコア(独自算出の注目度): 1.9021200954913475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the limits of bipartite entanglement distribution using a chain of
quantum repeaters that have quantum memories. To generate end-to-end
entanglement, each node can attempt the generation of an entangled link with a
neighbor, or perform an entanglement swapping measurement. A maximum storage
time, known as cutoff, is enforced on the memories to ensure high-quality
entanglement. Nodes follow a policy that determines when to perform each
operation. Global-knowledge policies take into account all the information
about the entanglement already produced. Here, we find global-knowledge
policies that minimize the expected time to produce end-to-end entanglement.
Our methods are based on Markov decision processes and value and policy
iteration. We compare optimal policies to a policy in which nodes only use
local information. We find that the advantage in expected delivery time
provided by an optimal global-knowledge policy increases with increasing number
of nodes and decreasing probability of successful swapping. Our work sheds
light on how to distribute entangled pairs in large quantum networks using a
chain of intermediate repeaters with cutoffs.
- Abstract(参考訳): 量子記憶を持つ量子リピータの連鎖を用いて, 2成分の絡み合い分布の限界について検討する。
エンドツーエンドの絡み合いを生成するために、各ノードは隣り合う絡み合いリンクの生成を試みたり、絡み合い交換測定を行うことができる。
最大記憶時間はカットオフと呼ばれ、メモリに強制され、高品質な絡み合いが保証される。
ノードは、各操作の実行時期を決定するポリシーに従う。
グローバル知識政策は、既に生み出された絡み合いに関する情報をすべて考慮に入れている。
ここでは、エンドツーエンドの絡み合いを生み出すのに期待できる時間を最小化するグローバル知識ポリシーを見つける。
我々の手法はマルコフ決定プロセスと価値と政策の反復に基づいている。
最適なポリシを,ノードがローカル情報のみを使用するポリシと比較する。
ノード数の増加とスワップ成功の確率の低下に伴い,最適グローバルナレッジポリシによる期待デリバリ時間のアドバンテージが増加することが判明した。
我々の研究は、カットオフを伴う中間リピータの連鎖を用いて、大きな量子ネットワークで絡み合ったペアを分配する方法に光を当てています。
関連論文リスト
- Multi-Objective Recommendation via Multivariate Policy Learning [10.494676556696213]
現実世界のレコメンデーションシステムは、ユーザに提示するレコメンデーションを決定する際に、複数の目的のバランスを取る必要があることが多い。
これには行動信号(クリック、共有、居住時間など)や、より広い目的(多様性、公平性など)が含まれる。
論文 参考訳(メタデータ) (2024-05-03T14:44:04Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Reducing classical communication costs in multiplexed quantum repeaters using hardware-aware quasi-local policies [5.405186125924916]
多重量子リピータチェインに対するテクスティクアシ局所ポリシーを導入する。
準局所的なポリシーでは、ノードはリピータ連鎖の状態に関する知識を増大させてきたが、必ずしも完全なグローバルな知識ではない。
我々の政策はまた、ネストされた浄化と2倍のスワップ政策を良く知られ、広く研究されている。
論文 参考訳(メタデータ) (2024-01-24T01:13:55Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Fast and reliable entanglement distribution with quantum repeaters: principles for improving protocols using reinforcement learning [0.6249768559720122]
将来の量子技術は、空間的に分離されたノード間の共有絡み合いのネットワークに依存する。
ノードの線形連鎖に沿った絡み合い分布のための改良されたプロトコル/ポリティシを提供する。
論文 参考訳(メタデータ) (2023-03-01T19:05:32Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Cooperative Multi-Agent Reinforcement Learning with Partial Observations [16.895704973433382]
マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。
エージェントは、グローバルに蓄積された報酬の局所的な見積もりを使用して、ローカルポリシー機能を更新するために必要なローカルポリシー勾配を計算することができる。
本研究では, 一定段差の分散ゼロ階次ポリシ最適化手法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
論文 参考訳(メタデータ) (2020-06-18T19:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。