論文の概要: Simplex Neural Population Learning: Any-Mixture Bayes-Optimality in
Symmetric Zero-sum Games
- arxiv url: http://arxiv.org/abs/2205.15879v1
- Date: Tue, 31 May 2022 15:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:24:15.837524
- Title: Simplex Neural Population Learning: Any-Mixture Bayes-Optimality in
Symmetric Zero-sum Games
- Title(参考訳): 単純性ニューラルポピュレーション学習:シンメトリゼロサムゲームにおける任意のミクチャーベイズ最適性
- Authors: Siqi Liu, Marc Lanctot, Luke Marris, Nicolas Heess
- Abstract要約: 多様な戦略を巡ってあらゆるミックスに対して最適にプレイすることを学ぶことは、競争ゲームにおいて重要な実践的関心事である。
本稿では,2つのデシラタを同時に満たす単純型NeuPLを提案する。
その結果, 条件付き政策は, 相手の事前情報を効果的に取り入れていることがわかった。
- 参考スコア(独自算出の注目度): 36.19779736396775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to play optimally against any mixture over a diverse set of
strategies is of important practical interests in competitive games. In this
paper, we propose simplex-NeuPL that satisfies two desiderata simultaneously:
i) learning a population of strategically diverse basis policies, represented
by a single conditional network; ii) using the same network, learn
best-responses to any mixture over the simplex of basis policies. We show that
the resulting conditional policies incorporate prior information about their
opponents effectively, enabling near optimal returns against arbitrary mixture
policies in a game with tractable best-responses. We verify that such policies
behave Bayes-optimally under uncertainty and offer insights in using this
flexibility at test time. Finally, we offer evidence that learning
best-responses to any mixture policies is an effective auxiliary task for
strategic exploration, which, by itself, can lead to more performant
populations.
- Abstract(参考訳): 多様な戦略上の混合に対して最適にプレーすることを学ぶことは、競争ゲームにおいて重要な実用的関心事である。
本稿では,二つのデシデラタを同時に満たすsimplex-neuplを提案する。
一 単一条件ネットワークに代表される戦略的に多様な基本方針の集団を学習すること。
二 同じネットワークを用いて、基本方針の単純さについて、あらゆる混合に対する最良応答を学習すること。
その結果, 条件付ポリシーは, 対戦相手に関する情報を効果的に取り込み, 任意の混合ポリシーに対して最適に近いリターンを得られることを示した。
このようなポリシーが不確実性の下で最適に振る舞うことを検証し、テスト時にこの柔軟性を使用するための洞察を提供する。
最後に,混合政策への最善の対応を学習することが戦略探索の効果的な補助課題であることを示す。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games [14.979239870856535]
セルフプレイ(SP)は、競争ゲームを解くための一般的な強化学習フレームワークである。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
論文 参考訳(メタデータ) (2023-10-05T07:19:33Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Mixed Strategies for Security Games with General Defending Requirements [37.02840909260615]
Stackelbergのセキュリティゲームはディフェンダーとアタッカーの間で行われ、ディフェンダーは複数のターゲットに限られたリソースを割り当てる必要がある。
そこで本研究では,ごく少数の戦略のみを用いる混合戦略を計算し,効率的な近似パチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-26T08:56:39Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - On the Impossibility of Convergence of Mixed Strategies with No Regret
Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。
各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文 参考訳(メタデータ) (2020-12-03T18:02:40Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。