論文の概要: Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics
- arxiv url: http://arxiv.org/abs/2301.09619v1
- Date: Mon, 23 Jan 2023 18:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 12:50:35.861366
- Title: Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics
- Title(参考訳): マルチエージェントQラーニングダイナミクスの漸近収束と性能
- Authors: Aamal Abbas Hussain and Francesco Belardinelli and Georgios Piliouras
- Abstract要約: 一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
- 参考スコア(独自算出の注目度): 38.5932141555258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving convergence of multiple learning agents in general $N$-player games
is imperative for the development of safe and reliable machine learning (ML)
algorithms and their application to autonomous systems. Yet it is known that,
outside the bounds of simple two-player games, convergence cannot be taken for
granted.
To make progress in resolving this problem, we study the dynamics of smooth
Q-Learning, a popular reinforcement learning algorithm which quantifies the
tendency for learning agents to explore their state space or exploit their
payoffs. We show a sufficient condition on the rate of exploration such that
the Q-Learning dynamics is guaranteed to converge to a unique equilibrium in
any game. We connect this result to games for which Q-Learning is known to
converge with arbitrary exploration rates, including weighted Potential games
and weighted zero sum polymatrix games.
Finally, we examine the performance of the Q-Learning dynamic as measured by
the Time Averaged Social Welfare, and comparing this with the Social Welfare
achieved by the equilibrium. We provide a sufficient condition whereby the
Q-Learning dynamic will outperform the equilibrium even if the dynamics do not
converge.
- Abstract(参考訳): 一般の$N$-playerゲームにおける複数の学習エージェントの収束は、安全で信頼性の高い機械学習(ML)アルゴリズムの開発と自律システムへの応用に不可欠である。
しかし、単純な2プレーヤゲームの境界外においては、収束は当然考慮できないことが知られている。
そこで本研究では, 学習エージェントが状態空間を探索したり, 報酬を活用したりする傾向を定量化する, 人気のある強化学習アルゴリズムである smooth q-learning のダイナミクスについて検討する。
我々は,Qラーニング力学が任意のゲームにおいて一意平衡に収束することが保証されるような探索速度の十分条件を示す。
この結果を,重み付きポテンシャルゲームや重み付きゼロサム多行列ゲームなど,任意の探索率でq-learningが収束するゲームと結びつける。
最後に, 平均社会福祉のQ-Learningダイナミックスの性能について検討し, 均衡によって達成された社会福祉との比較を行った。
q-ラーニングのダイナミクスが、ダイナミクスが収束しない場合でも平衡を上回ってしまうような十分な条件を提供する。
関連論文リスト
- Stability of Multi-Agent Learning in Competitive Networks: Delaying the
Onset of Chaos [9.220952628571812]
競争的ネットワークゲームにおけるマルチエージェント学習の振る舞いは、ゼロサムゲームの文脈内でしばしば研究される。
マルチエージェント学習における探索と活用の一般的なモデルであるQ-Learning dynamicsについて検討する。
また,Q-Learningの安定性はエージェントの総数ではなくネットワーク接続にのみ依存していることが判明した。
論文 参考訳(メタデータ) (2023-12-19T08:41:06Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - Logit-Q Dynamics for Efficient Learning in Stochastic Teams [1.3927943269211591]
ゲームにおける効率的な学習のための新しいロジット-Qダイナミクスのファミリーを提示する。
未知のダイナミックスを持つチームでは,ロジット-Qのダイナミクスが(ほぼ)効率のよい平衡に到達できることが示される。
論文 参考訳(メタデータ) (2023-02-20T07:07:25Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。
学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Exploration-Exploitation in Multi-Agent Competition: Convergence with
Bounded Rationality [21.94743452608215]
本研究では,ゲーム報酬と探索費用のバランスを捉えたプロトタイプ学習モデルであるスムーズQ-ラーニングについて検討する。
Q-ラーニングは常に、有界な有理性の下でのゲームに対する標準的な解概念である一意の量子-応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2021-06-24T11:43:38Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Multi-Agent Reinforcement Learning in Cournot Games [6.282068591820945]
情報フィードバックを限定した連続アクションCournotゲームにおける戦略エージェントの相互作用について検討する。
本稿では,制御強化学習アルゴリズムとして広く採用されているポリシ勾配アルゴリズムのダイナミクスについて考察する。
論文 参考訳(メタデータ) (2020-09-14T06:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。