論文の概要: Polymatrix Competitive Gradient Descent
- arxiv url: http://arxiv.org/abs/2111.08565v1
- Date: Tue, 16 Nov 2021 15:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 16:12:56.062356
- Title: Polymatrix Competitive Gradient Descent
- Title(参考訳): 多行列競合勾配降下
- Authors: Jeffrey Ma, Alistair Letcher, Florian Sch\"afer, Yuanyuan Shi, and
Anima Anandkumar
- Abstract要約: 任意のエージェント数を含む一般和競合最適化の解法として,ポリマトリクス競合勾配勾配(PCGD)を提案する。
我々はPCGDの局所収束性を$n$$-playerの一般サムゲームに対して安定な固定点に証明し、ステップサイズをプレイヤー・インタラクションの強みに適応させる必要がないことを示す。
我々はPCGDを用いてマルチエージェント強化学習のポリシーを最適化し、スネーク、マルコフサッカー、電気市場ゲームにおいてその利点を実証する。
- 参考スコア(独自算出の注目度): 37.23589298108463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many economic games and machine learning approaches can be cast as
competitive optimization problems where multiple agents are minimizing their
respective objective function, which depends on all agents' actions. While
gradient descent is a reliable basic workhorse for single-agent optimization,
it often leads to oscillation in competitive optimization. In this work we
propose polymatrix competitive gradient descent (PCGD) as a method for solving
general sum competitive optimization involving arbitrary numbers of agents. The
updates of our method are obtained as the Nash equilibria of a local polymatrix
approximation with a quadratic regularization, and can be computed efficiently
by solving a linear system of equations. We prove local convergence of PCGD to
stable fixed points for $n$-player general-sum games, and show that it does not
require adapting the step size to the strength of the player-interactions. We
use PCGD to optimize policies in multi-agent reinforcement learning and
demonstrate its advantages in Snake, Markov soccer and an electricity market
game. Agents trained by PCGD outperform agents trained with simultaneous
gradient descent, symplectic gradient adjustment, and extragradient in Snake
and Markov soccer games and on the electricity market game, PCGD trains faster
than both simultaneous gradient descent and the extragradient method.
- Abstract(参考訳): 多くの経済ゲームや機械学習のアプローチは、複数のエージェントがそれぞれの目的関数を最小化している競合最適化問題とみなすことができる。
勾配降下はシングルエージェント最適化の信頼性の高い基本的な作業法であるが、しばしば競合最適化の振動を引き起こす。
本研究では,任意のエージェント数を含む一般和競合最適化の解法として,PCGD(Polymatrix competitive gradient descent)を提案する。
本手法の更新は局所ポリマトリクス近似のナッシュ平衡として二次正則化を行い,方程式の線形系を解くことにより効率的に計算できる。
我々は,n$-player general-sumゲームにおける安定不動点へのpcgdの局所収束を証明し,ステップサイズをプレイヤー相互作用の強さに適応する必要はないことを示した。
我々はPCGDを用いてマルチエージェント強化学習のポリシーを最適化し、スネーク、マルコフサッカー、電気市場ゲームにおいてその利点を実証する。
pcgdがトレーニングしたエージェントは、同時勾配降下、シンプレクティック勾配調整、およびスネークおよびマルコフサッカーゲームおよび電気市場ゲームにおいて、同時勾配降下および超勾配法の両方よりも高速に訓練される。
関連論文リスト
- Federated Learning Using Variance Reduced Stochastic Gradient for
Probabilistically Activated Agents [0.0]
本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:49Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Training Generative Adversarial Networks with Adaptive Composite
Gradient [2.471982349512685]
本稿では,二線形ゲームにおいて線形収束する適応型コンポジットグラディエント法を提案する。
ACGは、各ステップの勾配を計算する必要がないため、半漸進的なアルゴリズムである。
結果は、ACGが以前のアルゴリズムと競合していることを示している。
論文 参考訳(メタデータ) (2021-11-10T03:13:53Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - GTAdam: Gradient Tracking with Adaptive Momentum for Distributed Online
Optimization [4.103281325880475]
本稿では、中央コーディネータを使わずに、局所的な計算と通信によって、オンライン最適化問題を分散的に解決することを目的とした、計算機エージェントのネットワークを扱う。
本稿では,適応運動量推定法(GTAdam)を用いた勾配追従法と,勾配の1次および2次運動量推定法を組み合わせた勾配追従法を提案する。
マルチエージェント学習によるこれらの数値実験では、GTAdamは最先端の分散最適化手法よりも優れている。
論文 参考訳(メタデータ) (2020-09-03T15:20:21Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - ClipUp: A Simple and Powerful Optimizer for Distribution-based Policy
Evolution [2.2731500742482305]
ClipUpは、その動作原理がシンプルで理解しやすいため、分散ベースのポリシー進化にとってより良い選択である、と私たちは主張する。
実験によると、ClipUpは単純さにもかかわらずAdamと競合しており、継続的な制御ベンチマークに挑戦する上で有効である。
論文 参考訳(メタデータ) (2020-08-05T22:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。