論文の概要: Population-size-Aware Policy Optimization for Mean-Field Games
- arxiv url: http://arxiv.org/abs/2302.03364v1
- Date: Tue, 7 Feb 2023 10:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:53:21.181015
- Title: Population-size-Aware Policy Optimization for Mean-Field Games
- Title(参考訳): 平均フィールドゲームにおける集団サイズ対応ポリシー最適化
- Authors: Pengdeng Li, Xinrun Wang, Shuxin Li, Hau Chan, Bo An
- Abstract要約: エージェントの最適なポリシーは,平均フィールドゲームにおけるエージェント数(人口規模)とともにどのように進化するかを検討する。
本稿では,2つの自然な選択肢(拡張とハイパーネットワーク)を統一し,性能を大幅に向上させる,人口規模対応政策最適化(PAPO)を提案する。
PAPOは3つの要素から構成される:i) 集団サイズの本来の値を等価な符号化に変換する集団サイズ符号化、i) トレーニング崩壊を避けるためのハイパーネットワーク、i) 集団サイズで条件付けられた各ゲームに対して異なるポリシーを生成するためのハイパーネットワーク、iii) 生成されたポリシーへの追加入力として人口サイズを生成する。
- 参考スコア(独自算出の注目度): 34.80183622480149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we attempt to bridge the two fields of finite-agent and
infinite-agent games, by studying how the optimal policies of agents evolve
with the number of agents (population size) in mean-field games, an
agent-centric perspective in contrast to the existing works focusing typically
on the convergence of the empirical distribution of the population. To this
end, the premise is to obtain the optimal policies of a set of finite-agent
games with different population sizes. However, either deriving the closed-form
solution for each game is theoretically intractable, training a distinct policy
for each game is computationally intensive, or directly applying the policy
trained in a game to other games is sub-optimal. We address these challenges
through the Population-size-Aware Policy Optimization (PAPO). Our contributions
are three-fold. First, to efficiently generate efficient policies for games
with different population sizes, we propose PAPO, which unifies two natural
options (augmentation and hypernetwork) and achieves significantly better
performance. PAPO consists of three components: i) the population-size encoding
which transforms the original value of population size to an equivalent
encoding to avoid training collapse, ii) a hypernetwork to generate a distinct
policy for each game conditioned on the population size, and iii) the
population size as an additional input to the generated policy. Next, we
construct a multi-task-based training procedure to efficiently train the neural
networks of PAPO by sampling data from multiple games with different population
sizes. Finally, extensive experiments on multiple environments show the
significant superiority of PAPO over baselines, and the analysis of the
evolution of the generated policies further deepens our understanding of the
two fields of finite-agent and infinite-agent games.
- Abstract(参考訳): 本研究では, エージェントの最適ポリシーが, 平均場ゲームにおけるエージェント数(集団サイズ)とともにどのように進化するかを研究することによって, 有限エージェントゲームと無限エージェントゲームの二分野を橋渡ししようとする。
この目的のために、人口の大きさの異なる有限エージェントゲームの集合の最適ポリシーを得ることが前提である。
しかし、各ゲームに対するクローズドフォームソリューションの導出は理論的に難解であり、各ゲームに対する個別のポリシーの訓練は計算集約的であり、ゲームで訓練されたポリシーを他のゲームに適用することは最適ではない。
本稿では,人口規模対応政策最適化(PAPO)を通じて,これらの課題に対処する。
私たちの貢献は3倍です。
まず,人口規模が異なるゲームに対する効率的なポリシーを効率的に作成するために,2つの自然なオプション(オーグメンテーションとハイパーネットワーク)を統一し,より優れたパフォーマンスを実現するpapoを提案する。
PAPOは3つのコンポーネントから構成される。
一 集団規模の本来の価値を、訓練の崩壊を避けるために等価なエンコーディングに変換する人口規模エンコーディング
二 人口規模を条件とした各ゲームごとに個別の方針を作成するためのハイパーネットワーク
三 発生した政策に対する追加の入力としての人口規模
次に,人口規模が異なる複数のゲームからデータをサンプリングすることにより,PAPOのニューラルネットワークを効率的にトレーニングするためのマルチタスクベースのトレーニング手順を構築する。
最後に、複数の環境における広範な実験により、PAPOがベースラインよりも優れていることが示され、生成されたポリシーの進化の分析により、有限エージェントゲームと無限エージェントゲームの2つの分野の理解がさらに深まる。
関連論文リスト
- Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games [14.979239870856535]
セルフプレイ(SP)は、競争ゲームを解くための一般的な強化学習フレームワークである。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
論文 参考訳(メタデータ) (2023-10-05T07:19:33Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Self-Play PSRO: Toward Optimal Populations in Two-Player Zero-Sum Games [69.5064797859053]
本稿では,各イテレーションの個体群に対して,ほぼ最適なポリシーを付加する手法であるemphSelf-Play PSRO(SP-PSRO)を紹介する。
SP-PSRO は経験的に APSRO よりもはるかに早く収束する傾向があり、多くのゲームではほんの数イテレーションで収束する。
論文 参考訳(メタデータ) (2022-07-13T22:55:51Z) - Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization [42.33734089361143]
複雑なマルチエージェントゲームにおいて多様な戦略方針を発見する手法を提案する。
我々は新しいアルゴリズム Reward-Randomized Policy Gradient (RPG) を導出する。
RPGは、時間的信頼のジレンマに挑戦する際、複数の特徴的な人間解釈可能な戦略を発見することができる。
論文 参考訳(メタデータ) (2021-03-08T06:26:55Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。