論文の概要: Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.08965v2
- Date: Wed, 11 Feb 2026 13:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.114839
- Title: Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における量子絡み合いによる協調学習
- Authors: John Gardiner, Orlando Romero, Brendan Tivnan, Nicolò Dal Fabbro, George J. Pappas,
- Abstract要約: この研究は、共有量子絡み合いを協調資源として活用するMARLエージェントを訓練するための最初のフレームワークを紹介する。
我々の機械は、実証的なマルチエージェントシーケンシャルな意思決定問題において、量子的優位性でポリシーを学習できることを示します。
- 参考スコア(独自算出の注目度): 18.2643909564315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The inability to communicate poses a major challenge to coordination in multi-agent reinforcement learning (MARL). Prior work has explored correlating local policies via shared randomness, sometimes in the form of a correlation device, as a mechanism to assist in decentralized decision-making. In contrast, this work introduces the first framework for training MARL agents to exploit shared quantum entanglement as a coordination resource, which permits a larger class of communication-free correlated policies than shared randomness alone. This is motivated by well-known results in quantum physics which posit that, for certain single-round cooperative games with no communication, shared quantum entanglement enables strategies that outperform those that only use shared randomness. In such cases, we say that there is quantum advantage. Our framework is based on a novel differentiable policy parameterization that enables optimization over quantum measurements, together with a novel policy architecture that decomposes joint policies into a quantum coordinator and decentralized local actors. To illustrate the effectiveness of our proposed method, we first show that we can learn, purely from experience, strategies that attain quantum advantage in single-round games that are treated as black box oracles. We then demonstrate how our machinery can learn policies with quantum advantage in an illustrative multi-agent sequential decision-making problem formulated as a decentralized partially observable Markov decision process (Dec-POMDP).
- Abstract(参考訳): コミュニケーションができないことは、マルチエージェント強化学習(MARL)における協調に大きな課題をもたらす。
従来の研究は、分散化された意思決定を支援するメカニズムとして、しばしば相関装置の形で、共有ランダム性による局所的な政策の関連について検討してきた。
対照的に、この研究は、共有量子絡み合いを協調資源として活用するMARLエージェントを訓練するための最初のフレームワークを導入し、共有ランダム性のみよりも、より大規模な通信自由相関ポリシーを可能にした。
これは、コミュニケーションのない特定の単一ラウンドの協調ゲームにおいて、共有量子絡み合いは共有ランダム性のみを使用するゲームよりも優れた戦略を可能にすると仮定する量子物理学のよく知られた結果に動機づけられている。
そのような場合、量子的優位性があると言う。
我々のフレームワークは、量子測定よりも最適化可能な、新しい微分可能なポリシーパラメータ化と、結合ポリシーを量子コーディネータと分散化されたローカルアクターに分解する新しいポリシーアーキテクチャに基づいている。
提案手法の有効性を説明するために,我々は,ブラックボックスオラクルとして扱われる単一ラウンドゲームにおいて,純粋に量子優位性が得られる戦略を学習できることを最初に示す。
次に、我々の機械は、分散化された部分的に観測可能なマルコフ決定プロセス(Dec-POMDP)として定式化された、実証的なマルチエージェントシーケンシャル意思決定問題において、量子的に有利なポリシーを学習することができるかを示す。
関連論文リスト
- Reinforcement Learning for Quantum Network Control with Application-Driven Objectives [53.03367590211247]
動的プログラミングと強化学習は、制御戦略を最適化するための有望なツールを提供する。
非線形で微分可能な目的関数を直接最適化する新しいRLフレームワークを提案する。
我々の研究は、RLを持つ量子ネットワークにおける非線形目的関数最適化への第一歩であり、より高度なユースケースへの道を開く。
論文 参考訳(メタデータ) (2025-09-12T18:41:10Z) - eQMARL: Entangled Quantum Multi-Agent Reinforcement Learning for Distributed Cooperation over Quantum Channels [98.314893665023]
量子コンピューティングは、マルチエージェント環境における量子絡み合いと協調の潜在的なシナジーを引き起こした。
現在の最先端量子MARL(QMARL)の実装は、古典的な情報共有に依存している。
eQMARL(eQMARL)は、量子チャネル上での協調を容易にする分散型アクター批判フレームワークである。
論文 参考訳(メタデータ) (2024-05-24T18:43:05Z) - Separable Power of Classical and Quantum Learning Protocols Through the Lens of No-Free-Lunch Theorem [70.42372213666553]
No-Free-Lunch(NFL)定理は、最適化プロセスに関係なく問題とデータ非依存の一般化誤差を定量化する。
我々は、様々な量子学習アルゴリズムを、特定の観測可能条件下で量子力学を学習するために設計された3つの学習プロトコルに分類する。
得られたNFL定理は, CLC-LP, ReQu-LP, Qu-LPにまたがるサンプルの複雑性を2次的に低減することを示した。
この性能差は、非直交量子状態のグローバル位相に関する情報を間接的に活用するために、量子関連学習プロトコルのユニークな能力に起因している。
論文 参考訳(メタデータ) (2024-05-12T09:05:13Z) - The Quantum Advantage in Binary Teams and the Coordination Dilemma: Part
I [10.312968200748116]
絡み合い支援戦略は、共通ランダム性を通じてアクセス可能な古典的相関度以上の戦略措置にアクセスできることを示す。
ここでは、量子戦略の恩恵を受ける唯一の問題クラスを特定する。
「これらのコスト構造は、特別な決定論的特徴、調整ジレンマを許容している。」
論文 参考訳(メタデータ) (2023-07-04T15:05:07Z) - Classical Verification of Quantum Learning [42.362388367152256]
量子学習の古典的検証のための枠組みを開発する。
そこで我々は,新しい量子データアクセスモデルを提案し,これを"mixture-of-superpositions"量子例と呼ぶ。
この結果から,学習課題における量子データの潜在能力は無限ではないものの,古典的エージェントが活用できることが示唆された。
論文 参考訳(メタデータ) (2023-06-08T00:31:27Z) - Quantum communication complexity beyond Bell nonlocality [87.70068711362255]
効率的な分散コンピューティングは、リソース要求タスクを解決するためのスケーラブルな戦略を提供する。
量子リソースはこのタスクに適しており、古典的手法よりも優れた明確な戦略を提供する。
我々は,ベルのような不等式に,新たなコミュニケーション複雑性タスクのクラスを関連付けることができることを証明した。
論文 参考訳(メタデータ) (2021-06-11T18:00:09Z) - Converting coherence based on positive-operator-valued measures into
entanglement [2.624902795082451]
量子コヒーレンス(quantum coherence)は、多くの量子情報処理における基本的な要素である。
ブロックのコヒーレンスをブロック非コヒーレント操作により絡み合いに変換することができることを示す。
論文 参考訳(メタデータ) (2020-10-31T09:16:26Z) - Policies for elementary links in a quantum network [0.0]
特に短期量子ネットワークにおいて重要な問題は、最適な絡み合い分布プロトコルを開発することである。
決定過程の理論を用いて、絡み合い分布のための量子ネットワークプロトコルの研究を開始することで、この問題に対処する。
我々は,これまで研究されてきたメモリカットプロトコルを,意思決定プロセスフレームワーク内のポリシとして表現できることを示す。
論文 参考訳(メタデータ) (2020-07-07T04:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。