論文の概要: NeuPL: Neural Population Learning
- arxiv url: http://arxiv.org/abs/2202.07415v1
- Date: Tue, 15 Feb 2022 14:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 13:21:05.447976
- Title: NeuPL: Neural Population Learning
- Title(参考訳): NeuPL: 神経集団学習
- Authors: Siqi Liu, Luke Marris, Daniel Hennes, Josh Merel, Nicolas Heess, Thore
Graepel
- Abstract要約: 戦略ゲームで学ぶには、多様なポリシーの発見が必要である。
これはしばしば、既存の政策に対して反復的に新しい政策を訓練することで達成される。
この反復的アプローチは現実世界のゲームにおいて2つの問題に悩まされる: (a) 有限の予算の下では、各イテレーションにおける最適応答作用素を近似すると、各々のイテレーションの個体数が減少し、結果として、未学習の良応答が人口を膨らませ、b) 各イテレーションにおける基本スキルの繰り返し学習は無駄であり、ますます強い相手の存在下では難解になる。
- 参考スコア(独自算出の注目度): 37.02099221741667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning in strategy games (e.g. StarCraft, poker) requires the discovery of
diverse policies. This is often achieved by iteratively training new policies
against existing ones, growing a policy population that is robust to exploit.
This iterative approach suffers from two issues in real-world games: a) under
finite budget, approximate best-response operators at each iteration needs
truncating, resulting in under-trained good-responses populating the
population; b) repeated learning of basic skills at each iteration is wasteful
and becomes intractable in the presence of increasingly strong opponents. In
this work, we propose Neural Population Learning (NeuPL) as a solution to both
issues. NeuPL offers convergence guarantees to a population of best-responses
under mild assumptions. By representing a population of policies within a
single conditional model, NeuPL enables transfer learning across policies.
Empirically, we show the generality, improved performance and efficiency of
NeuPL across several test domains. Most interestingly, we show that novel
strategies become more accessible, not less, as the neural population expands.
- Abstract(参考訳): 戦略ゲーム(スタークラフト、ポーカーなど)で学ぶには、多様なポリシーを見つける必要がある。
これはしばしば、既存の政策に対して反復的に新しい政策を訓練することで達成される。
この反復的なアプローチは、現実世界のゲームで2つの問題に苦しむ。
a) 有限予算下では,各イテレーションにおける近似的最善応答演算子は,停止を必要とし,その結果,人口を過度に訓練した善応答を生じさせる。
b) 各反復における基本的スキルの繰り返しの学習は無駄であり,ますます強い相手方の存在下では,難解になる。
本研究では,両課題に対する解としてニューラル集団学習(neupl)を提案する。
neuplは、穏やかな仮定の下で最善の応答の集団に収束保証を提供する。
単一条件モデル内のポリシーの集団を表現することによって、neuplはポリシー間の転送学習を可能にする。
経験的に、複数のテストドメインにまたがるneuplの汎用性、性能改善、効率性を示す。
最も興味深いのは、神経人口が増加するにつれて、新しい戦略がよりアクセスしやすくなります。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Population-size-Aware Policy Optimization for Mean-Field Games [34.80183622480149]
エージェントの最適なポリシーは,平均フィールドゲームにおけるエージェント数(人口規模)とともにどのように進化するかを検討する。
本稿では,2つの自然な選択肢(拡張とハイパーネットワーク)を統一し,性能を大幅に向上させる,人口規模対応政策最適化(PAPO)を提案する。
PAPOは3つの要素から構成される:i) 集団サイズの本来の値を等価な符号化に変換する集団サイズ符号化、i) トレーニング崩壊を避けるためのハイパーネットワーク、i) 集団サイズで条件付けられた各ゲームに対して異なるポリシーを生成するためのハイパーネットワーク、iii) 生成されたポリシーへの追加入力として人口サイズを生成する。
論文 参考訳(メタデータ) (2023-02-07T10:16:00Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Winner Takes It All: Training Performant RL Populations for
Combinatorial Optimization [6.6765384699410095]
我々は、推論時に同時に展開できる相補的な政策の集団を学習する利点について論じる。
そこで我々は,Poppyが相補的なポリシーを複数生成し,4つのNPハード問題に対して最先端のRL結果を得ることを示した。
論文 参考訳(メタデータ) (2022-10-07T11:58:08Z) - Self-Play PSRO: Toward Optimal Populations in Two-Player Zero-Sum Games [69.5064797859053]
本稿では,各イテレーションの個体群に対して,ほぼ最適なポリシーを付加する手法であるemphSelf-Play PSRO(SP-PSRO)を紹介する。
SP-PSRO は経験的に APSRO よりもはるかに早く収束する傾向があり、多くのゲームではほんの数イテレーションで収束する。
論文 参考訳(メタデータ) (2022-07-13T22:55:51Z) - Simplex Neural Population Learning: Any-Mixture Bayes-Optimality in
Symmetric Zero-sum Games [36.19779736396775]
多様な戦略を巡ってあらゆるミックスに対して最適にプレイすることを学ぶことは、競争ゲームにおいて重要な実践的関心事である。
本稿では,2つのデシラタを同時に満たす単純型NeuPLを提案する。
その結果, 条件付き政策は, 相手の事前情報を効果的に取り入れていることがわかった。
論文 参考訳(メタデータ) (2022-05-31T15:27:38Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Learning Large Neighborhood Search Policy for Integer Programming [14.089039170072084]
整数プログラミング (IP) のための大規模近傍探索 (LNS) ポリシーを学習するための深層強化学習 (RL) 手法を提案する。
各変数のバイナリ決定に分解することで、すべてのサブセットを表現します。
次に、ニューラルネットワークを設計し、各変数のポリシーを並列に学習し、カスタマイズされたアクター批判アルゴリズムでトレーニングする。
論文 参考訳(メタデータ) (2021-11-01T09:10:49Z) - Mean Field Games Flock! The Reinforcement Learning Way [34.67098179276852]
本稿では,多数のエージェントが群れを学べるようにする方法を提案する。
これは多くの動物で観察される自然な行動である。
アルゴリズムが障害物を伴う多元群や高次元群れを学習できることを数値的に示す。
論文 参考訳(メタデータ) (2021-05-17T15:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。