論文の概要: Decentralized Q-Learning in Zero-sum Markov Games
- arxiv url: http://arxiv.org/abs/2106.02748v1
- Date: Fri, 4 Jun 2021 22:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:26:29.205097
- Title: Decentralized Q-Learning in Zero-sum Markov Games
- Title(参考訳): ゼロサムマルコフゲームにおける分散q-learning
- Authors: Muhammed O. Sayin, Kaiqing Zhang, David S. Leslie, Tamer Basar, Asuman
Ozdaglar
- Abstract要約: ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。
我々は、合理的かつ収束的な、根本的に非結合なQ-ラーニングダイナミクスを初めて開発する。
この分散環境における鍵となる課題は、エージェントの観点から学習環境の非定常性である。
- 参考スコア(独自算出の注目度): 33.81574774144886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study multi-agent reinforcement learning (MARL) in infinite-horizon
discounted zero-sum Markov games. We focus on the practical but challenging
setting of decentralized MARL, where agents make decisions without coordination
by a centralized controller, but only based on their own payoffs and local
actions executed. The agents need not observe the opponent's actions or
payoffs, possibly being even oblivious to the presence of the opponent, nor be
aware of the zero-sum structure of the underlying game, a setting also referred
to as radically uncoupled in the literature of learning in games. In this
paper, we develop for the first time a radically uncoupled Q-learning dynamics
that is both rational and convergent: the learning dynamics converges to the
best response to the opponent's strategy when the opponent follows an
asymptotically stationary strategy; the value function estimates converge to
the payoffs at a Nash equilibrium when both agents adopt the dynamics. The key
challenge in this decentralized setting is the non-stationarity of the learning
environment from an agent's perspective, since both her own payoffs and the
system evolution depend on the actions of other agents, and each agent adapts
their policies simultaneously and independently. To address this issue, we
develop a two-timescale learning dynamics where each agent updates her local
Q-function and value function estimates concurrently, with the latter happening
at a slower timescale.
- Abstract(参考訳): 無限水平割引ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。
我々は,集中型コントローラによる調整なしにエージェントが決定を行うが,自己の支払いと局所的な行動のみに基づいて決定を行う分散型marlの実用的かつ挑戦的な設定に焦点を当てる。
エージェントは、相手の行動や報酬を観察する必要はなく、おそらくは相手の存在を無視するものであり、また、基礎となるゲームのゼロサム構造を意識する必要はない。
本稿では, 学習のダイナミクスが, 相手が漸近的に定常的な戦略に従うと, 相手の戦略に最適な反応に収束する, 値関数推定値がnash平衡値に収束する, 合理的かつ収束的な, 急進的に無結合なq-ラーニングダイナミクスを初めて開発する。
この分散環境での鍵となる課題は、エージェントの観点から学習環境の非定常性である。なぜなら、彼女自身の支払いとシステムの進化は、他のエージェントの行動に依存し、各エージェントはそれぞれのポリシーを同時に、独立して適応するからである。
この問題に対処するため,各エージェントがローカルQ-関数と値関数を同時に更新し,後者がより遅い時間スケールで実行される2時間学習ダイナミクスを開発した。
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Uncoupled Learning of Differential Stackelberg Equilibria with Commitments [43.098826226730246]
ゼロ階勾配推定器に基づく非結合型学習ダイナミクスを提案する。
従来の結合手法と同じ条件で、微分スタックルバーグ平衡に収束することが証明される。
また、対称学習者がリーダー・フォロワーの役割を交渉できるオンラインメカニズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T12:46:54Z) - Decentralized model-free reinforcement learning in stochastic games with
average-reward objective [1.9852463786440127]
本アルゴリズムは,次数$T3/4$のサブ線形高確率後悔と次数$T2/3$のサブ線形高確率後悔を実現する。
本アルゴリズムは,従来の手法に比べて計算量が少なく,メモリスペースも少ない。
論文 参考訳(メタデータ) (2023-01-13T15:59:53Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。
学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。