Fugu-MT 論文翻訳(概要): Game, Set, Quantum: Parameterized Quantum Circuit for Correlated Equilibrium in Bayesian Games

論文の概要: Game, Set, Quantum: Parameterized Quantum Circuit for Correlated Equilibrium in Bayesian Games

arxiv url: http://arxiv.org/abs/2606.03109v1
Date: Tue, 02 Jun 2026 03:52:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:04.739198
Title: Game, Set, Quantum: Parameterized Quantum Circuit for Correlated Equilibrium in Bayesian Games
Title（参考訳）: ゲーム, セット, 量子: ベイズゲームにおける関連平衡のパラメータ化量子回路
Authors: Param Pathak, Vidhi Oad, Nouhaila Innan, Adarsh Ganesan, Muhammad Shafique,
Abstract要約: バイナリタイプのバイナリアクションベイズゲームでは、型アクションプロファイルに対する明示的な表現は、O(22n)エントリを必要とする。パラメタライズド量子回路を用いてベイズ相関平衡を近似するハイブリッド量子古典フレームワークを提案する。
参考スコア（独自算出の注目度）: 2.063079740825497
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Strategic decision-making among many agents under incomplete information is central to economics, security, and multi-agent artificial intelligence (AI). Computing equilibria in such settings is challenging because the joint type-action space grows exponentially with the number of players. In binary-type, binary-action Bayesian games, an explicit representation over type-action profiles requires O(22n) entries, making direct linear-programming (LP) formulations memory intensive at moderate player counts. We propose a hybrid quantum-classical framework for approximating Bayes correlated equilibrium using a parameterized quantum circuit (PQC). The PQC represents the conditional strategy distribution with O(nL) trainable parameters, where n is the number of players and L is the circuit depth; for the largest setting studied here, n = 10 and L = 2, this corresponds to 60 trainable angles. The circuit is trained by gradient-based regret minimization with a negative entropy regularizer and a curriculum schedule over player counts. On a poker-style Bayesian game with two to ten players, the proposed solver achieves lower mean clipped regret than MCCFR across all tested player counts and lower regret than DCFR up to eight players, while DCFR performs best at ten players. These results show that compact PQC parameterizations can provide a viable variational representation for approximate equilibrium computation, while highlighting the roles of ansatz expressivity, optimization strategy, and classical simulation cost.
Abstract（参考訳）: 不完全な情報の下での多くのエージェントの戦略的意思決定は、経済学、セキュリティ、マルチエージェント人工知能(AI)の中心である。このような環境での計算平衡は、プレイヤーの数とともに、共同型のアクション空間が指数関数的に増加するため、困難である。バイナリタイプのバイナリアクションベイズゲームでは、型アクションプロファイルに対する明示的な表現は、O(22n)エントリを必要とし、直接線形プログラミング(LP)の定式化は、適度なプレイヤー数でメモリを集中的に行う。パラメタライズド量子回路(PQC)を用いてベイズ相関平衡を近似するハイブリッド量子古典フレームワークを提案する。 PQC は O(nL) のトレーニング可能なパラメータで条件付き戦略分布を表し、n はプレイヤー数、L は回路深度であり、ここで調べられた最大の設定は n = 10 と L = 2 であり、これは60 のトレーニング可能な角度に対応する。この回路は、負のエントロピー正規化器とプレイヤー数に関するカリキュラムスケジュールを備えた勾配に基づく後悔最小化によって訓練される。ポーカー方式のベイズゲームにおいて,提案した解法は,DCFRの回数を最大8人まで減らし,MCCFRの回数を最大10人まで減らし,MCCFRの回数を減らし,またDCFRの回数を最大10人まで減らした。これらの結果から,コンパクトなPQCパラメタライゼーションは近似平衡計算において,アンザッツ表現性,最適化戦略,古典的シミュレーションコストといった役割を強調しつつ,実現可能な変分表現を提供することを示した。

関連論文リスト

Global Optimization for Parametrized Quantum Circuits [3.558201566667322]
トレーニング可能なパラメータを一定数有する量子回路の実践的なクラスのトレーニングについて検討する。我々の主な成果は、完全にランダム化された近似スキーム (FPRAS) である。変分アルゴリズムにおける標準的なハイブリッド量子古典的トレーニングとは異なり、我々の手法は計算を2つの異なる段階に分けている。
論文参考訳（メタデータ） (2026-03-23T09:49:40Z)
Reinforcement Learning for Parameterized Quantum State Preparation: A Comparative Study [2.4542351340244264]
我々は、純離散ゲート選択からパラメータ化量子状態準備への強化学習により、指向性量子回路合成(DQCS)を拡張した。ゲートタイプと影響を受けるキュービット(s)と回転角を協調的に選択する一段エージェントとを比較した。本稿では,2から10キュービットのシステム上でのPPO(Proximal Policy Optimization)とAdvantage Actor--Critic(Advantage Actor--Critic)を評価する。
論文参考訳（メタデータ） (2026-02-18T15:10:43Z)
A Game-Theoretic Quantum Algorithm for Solving Magic Squares [2.09260520196733]
完全量子優位性を持つ2プレイヤー非ローカルゲームであるマジックスクエアゲーム(MSG)の変分フレームワークを提案する。我々は、ゲームのパリティと一貫性の制約を符号化する値ハミルトニアンを構築し、パラメータ化された量子回路を最適化し、このコストを最小化する。
論文参考訳（メタデータ） (2025-05-19T17:12:53Z)
Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文参考訳（メタデータ） (2024-01-10T12:56:24Z)
Finding mixed-strategy equilibria of continuous-action games without gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文参考訳（メタデータ） (2022-11-29T05:16:41Z)
Pareto Actor-Critic for Equilibrium Selection in Multi-Agent Reinforcement Learning [18.20664209675016]
この研究は、競合しないマルチエージェントゲームにおける平衡選択に焦点を当てている。 Pareto Actor-Critic (Pareto-AC)は、すべてのエージェントのリターンを最大化するアクター批判アルゴリズムである。
論文参考訳（メタデータ） (2022-09-28T18:14:34Z)
Near-Optimal No-Regret Learning for Correlated Equilibria in Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。外部の後悔から内部の後悔へと結果を拡張し、後悔を交換することで、近似した平衡に収束する非結合学習ダイナミクスを確立する。
論文参考訳（メタデータ） (2021-11-11T01:19:53Z)
Better Regularization for Sequential Decision Spaces: Fast Convergence Rates for Nash, Correlated, and Team Equilibria [121.36609493711292]
大規模2プレーヤワイドフォームゲームの計算平衡問題に対する反復的な一階法の適用について検討する。正則化器を用いて一階法をインスタンス化することにより、相関平衡と元アンティー座標のチーム平衡を計算するための最初の加速一階法を開発する。
論文参考訳（メタデータ） (2021-05-27T06:10:24Z)
FLIP: A flexible initializer for arbitrarily-sized parametrized quantum circuits [105.54048699217668]
任意サイズのパラメタライズド量子回路のためのFLexible Initializerを提案する。 FLIPは任意の種類のPQCに適用することができ、初期パラメータの一般的なセットに頼る代わりに、成功したパラメータの構造を学ぶように調整されている。本稿では, 3つのシナリオにおいてFLIPを用いることの利点を述べる。不毛な高原における問題ファミリ, 最大カット問題インスタンスを解くPQCトレーニング, 1次元フェルミ-ハッバードモデルの基底状態エネルギーを求めるPQCトレーニングである。
論文参考訳（メタデータ） (2021-03-15T17:38:33Z)
Model-Free Online Learning in Unknown Sequential Decision Making Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文参考訳（メタデータ） (2021-03-08T04:03:24Z)
Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文参考訳（メタデータ） (2020-12-10T18:30:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。