論文の概要: Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics
- arxiv url: http://arxiv.org/abs/2301.09619v1
- Date: Mon, 23 Jan 2023 18:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 12:50:35.861366
- Title: Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics
- Title(参考訳): マルチエージェントQラーニングダイナミクスの漸近収束と性能
- Authors: Aamal Abbas Hussain and Francesco Belardinelli and Georgios Piliouras
- Abstract要約: 一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
- 参考スコア(独自算出の注目度): 38.5932141555258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving convergence of multiple learning agents in general $N$-player games
is imperative for the development of safe and reliable machine learning (ML)
algorithms and their application to autonomous systems. Yet it is known that,
outside the bounds of simple two-player games, convergence cannot be taken for
granted.
To make progress in resolving this problem, we study the dynamics of smooth
Q-Learning, a popular reinforcement learning algorithm which quantifies the
tendency for learning agents to explore their state space or exploit their
payoffs. We show a sufficient condition on the rate of exploration such that
the Q-Learning dynamics is guaranteed to converge to a unique equilibrium in
any game. We connect this result to games for which Q-Learning is known to
converge with arbitrary exploration rates, including weighted Potential games
and weighted zero sum polymatrix games.
Finally, we examine the performance of the Q-Learning dynamic as measured by
the Time Averaged Social Welfare, and comparing this with the Social Welfare
achieved by the equilibrium. We provide a sufficient condition whereby the
Q-Learning dynamic will outperform the equilibrium even if the dynamics do not
converge.
- Abstract(参考訳): 一般の$N$-playerゲームにおける複数の学習エージェントの収束は、安全で信頼性の高い機械学習(ML)アルゴリズムの開発と自律システムへの応用に不可欠である。
しかし、単純な2プレーヤゲームの境界外においては、収束は当然考慮できないことが知られている。
そこで本研究では, 学習エージェントが状態空間を探索したり, 報酬を活用したりする傾向を定量化する, 人気のある強化学習アルゴリズムである smooth q-learning のダイナミクスについて検討する。
我々は,Qラーニング力学が任意のゲームにおいて一意平衡に収束することが保証されるような探索速度の十分条件を示す。
この結果を,重み付きポテンシャルゲームや重み付きゼロサム多行列ゲームなど,任意の探索率でq-learningが収束するゲームと結びつける。
最後に, 平均社会福祉のQ-Learningダイナミックスの性能について検討し, 均衡によって達成された社会福祉との比較を行った。
q-ラーニングのダイナミクスが、ダイナミクスが収束しない場合でも平衡を上回ってしまうような十分な条件を提供する。
関連論文リスト
- Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-09-17T04:54:32Z) - Independent and Decentralized Learning in Markov Potential Games [1.577134752543077]
マルチエージェント強化学習ダイナミクスを提案し、マルコフポテンシャルゲームにおける収束特性を解析する。
我々は、プレイヤーが現実の状態とそれぞれの報酬を各ステージでのみ観察できる、独立的で分散化された設定に焦点を当てる。
学習力学によって引き起こされるポリシーは確率1のマルコフポテンシャルゲームにおいて定常ナッシュ平衡に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文 参考訳(メタデータ) (2021-11-23T09:27:20Z) - Exploration-Exploitation in Multi-Agent Competition: Convergence with
Bounded Rationality [21.94743452608215]
本研究では,ゲーム報酬と探索費用のバランスを捉えたプロトタイプ学習モデルであるスムーズQ-ラーニングについて検討する。
Q-ラーニングは常に、有界な有理性の下でのゲームに対する標準的な解概念である一意の量子-応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2021-06-24T11:43:38Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Decentralized Q-Learning in Zero-sum Markov Games [33.81574774144886]
ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。
我々は、合理的かつ収束的な、根本的に非結合なQ-ラーニングダイナミクスを初めて開発する。
この分散環境における鍵となる課題は、エージェントの観点から学習環境の非定常性である。
論文 参考訳(メタデータ) (2021-06-04T22:42:56Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Multi-Agent Reinforcement Learning in Cournot Games [6.282068591820945]
情報フィードバックを限定した連続アクションCournotゲームにおける戦略エージェントの相互作用について検討する。
本稿では,制御強化学習アルゴリズムとして広く採用されているポリシ勾配アルゴリズムのダイナミクスについて考察する。
論文 参考訳(メタデータ) (2020-09-14T06:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。