論文の概要: Exploration-Exploitation in Multi-Agent Competition: Convergence with
Bounded Rationality
- arxiv url: http://arxiv.org/abs/2106.12928v1
- Date: Thu, 24 Jun 2021 11:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-26 00:46:41.059350
- Title: Exploration-Exploitation in Multi-Agent Competition: Convergence with
Bounded Rationality
- Title(参考訳): マルチエージェント競争における探索・探索:有界合理性を伴う収束
- Authors: Stefanos Leonardos, Georgios Piliouras, Kelly Spendlove,
- Abstract要約: 本研究では,ゲーム報酬と探索費用のバランスを捉えたプロトタイプ学習モデルであるスムーズQ-ラーニングについて検討する。
Q-ラーニングは常に、有界な有理性の下でのゲームに対する標準的な解概念である一意の量子-応答平衡(QRE)に収束することを示す。
- 参考スコア(独自算出の注目度): 21.94743452608215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The interplay between exploration and exploitation in competitive multi-agent
learning is still far from being well understood. Motivated by this, we study
smooth Q-learning, a prototypical learning model that explicitly captures the
balance between game rewards and exploration costs. We show that Q-learning
always converges to the unique quantal-response equilibrium (QRE), the standard
solution concept for games under bounded rationality, in weighted zero-sum
polymatrix games with heterogeneous learning agents using positive exploration
rates. Complementing recent results about convergence in weighted potential
games, we show that fast convergence of Q-learning in competitive settings is
obtained regardless of the number of agents and without any need for parameter
fine-tuning. As showcased by our experiments in network zero-sum games, these
theoretical results provide the necessary guarantees for an algorithmic
approach to the currently open problem of equilibrium selection in competitive
multi-agent settings.
- Abstract(参考訳): 競争力のあるマルチエージェント学習における探索と搾取の相互作用は、まだよく理解されていない。
そこで本研究では,ゲーム報酬と探索コストのバランスを明示的に把握した,スムースなq-learningについて検討した。
Q- Learning is always converges to the unique Quantal-Response equilibrium (QRE), the standard solution concept under bounded rationality, in weighted zero-sum polymatrix games with heterogeneous learning agent using positive exploration rate。
重み付きポテンシャルゲームにおけるコンバージェンスに関する最近の結果を補完することにより,エージェント数によらず,パラメータの微調整を必要とせずに,競争環境におけるq-learningの高速コンバージェンスが得られることを示した。
ネットワークゼロサムゲームの実験で示されたように、これらの理論的結果は、競合するマルチエージェント設定における平衡選択の現在オープンな問題に対するアルゴリズム的アプローチに必要な保証を提供する。
関連論文リスト
- Tractable Equilibrium Computation in Markov Games through Risk Aversion [12.980882140751895]
リスク-逆量子応答平衡(RQE)は,すべての$n$プレーヤ行列と有限ホリゾンマルコフゲームで計算可能であることを示す。
RQEは下層のゲーム構造とは独立であり、エージェントのリスク回避度と有界有理性にのみ依存する。
論文 参考訳(メタデータ) (2024-06-20T09:53:56Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Stability of Multi-Agent Learning in Competitive Networks: Delaying the
Onset of Chaos [9.220952628571812]
競争的ネットワークゲームにおけるマルチエージェント学習の振る舞いは、ゼロサムゲームの文脈内でしばしば研究される。
マルチエージェント学習における探索と活用の一般的なモデルであるQ-Learning dynamicsについて検討する。
また,Q-Learningの安定性はエージェントの総数ではなくネットワーク接続にのみ依存していることが判明した。
論文 参考訳(メタデータ) (2023-12-19T08:41:06Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Learning Rationalizable Equilibria in Multiplayer Games [38.922957434291554]
既存のアルゴリズムでは、帯域幅フィードバックの下で合理化可能な平衡を学習するために、プレイヤー数で指数関数的に多くのサンプルを必要とする。
本稿では、合理化可能な粗相関平衡(CCE)と相関平衡(CE)を学習するための効率的なアルゴリズムの第一線を開発する。
本アルゴリズムは,合理化可能性を保証するための新しい手法と,相関探索スキームと適応学習率を含む(スワップ-)レグレットを同時に備えている。
論文 参考訳(メタデータ) (2022-10-20T16:49:00Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。