論文の概要: Modelling Behavioural Diversity for Learning in Open-Ended Games
- arxiv url: http://arxiv.org/abs/2103.07927v1
- Date: Sun, 14 Mar 2021 13:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 13:51:24.824373
- Title: Modelling Behavioural Diversity for Learning in Open-Ended Games
- Title(参考訳): オープンエンディングゲームにおける学習行動多様性のモデル化
- Authors: Nicolas Perez Nieves, Yaodong Yang, Oliver Slumbers, David Henry
Mguni, Jun Wang
- Abstract要約: ゲームにおける行動の多様性を幾何学的に解釈する。
DPP(Emphdeterminantal point process)に基づく新しい多様性指標を提案する。
多様なベストレスポンスのユニークさと、2プレイヤーゲームにおけるアルゴリズムの収束性を証明する。
- 参考スコア(独自算出の注目度): 15.978932309579013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Promoting behavioural diversity is critical for solving games with
non-transitive dynamics where strategic cycles exist, and there is no
consistent winner (e.g., Rock-Paper-Scissors). Yet, there is a lack of rigorous
treatment for defining diversity and constructing diversity-aware learning
dynamics. In this work, we offer a geometric interpretation of behavioural
diversity in games and introduce a novel diversity metric based on
\emph{determinantal point processes} (DPP). By incorporating the diversity
metric into best-response dynamics, we develop \emph{diverse fictitious play}
and \emph{diverse policy-space response oracle} for solving normal-form games
and open-ended games. We prove the uniqueness of the diverse best response and
the convergence of our algorithms on two-player games. Importantly, we show
that maximising the DPP-based diversity metric guarantees to enlarge the
\emph{gamescape} -- convex polytopes spanned by agents' mixtures of strategies.
To validate our diversity-aware solvers, we test on tens of games that show
strong non-transitivity. Results suggest that our methods achieve much lower
exploitability than state-of-the-art solvers by finding effective and diverse
strategies.
- Abstract(参考訳): 行動多様性の促進は、戦略サイクルが存在する非推移的ダイナミクスでゲームを解決するために重要であり、一貫した勝者は存在しない(例えば、Rock-Paper-Scissors)。
しかし、多様性を定義し、多様性を意識した学習ダイナミクスを構築するための厳格な処理が欠けています。
本研究では,ゲームにおける行動の多様性を幾何学的に解釈し,dpp(\emph{ determinantal point processes})に基づく新しい多様性指標を導入する。
多様性指標を最適応答力学に組み込むことで,正規形式ゲームやオープンエンドゲームを解決するために,emph{diverse fictitious play} と \emph{diverse policy-space response oracle} を開発した。
多様なベストレスポンスのユニークさと、2プレイヤーゲームにおけるアルゴリズムの収束性を証明する。
重要なのは、DPPベースの多様性メトリックを最大化することで、エージェントの戦略の混合にまたがる凸ポリトープである \emph{gamescape} を拡大できることである。
多様性を意識した解法を検証するために、強い非推移性を示す数万のゲームをテストする。
提案手法は, 有効かつ多様な戦略を見出すことにより, 最先端の解法よりもはるかに低いエクスプロイザビリティを実現することを示唆している。
関連論文リスト
- Measuring Diversity of Game Scenarios [15.100151112002235]
我々は,現在の文学と実践のギャップを埋めることを目指しており,ゲームシナリオにおける多様性の測定と統合のための効果的な戦略に関する洞察を提供する。
この調査は、様々なゲームシナリオにおける将来の研究の道筋を示すだけでなく、多様性をゲームデザインと開発の重要な要素として活用しようとする業界の実践者のためのハンドブックとしても機能する。
論文 参考訳(メタデータ) (2024-04-15T07:59:52Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Pick Your Battles: Interaction Graphs as Population-Level Objectives for
Strategic Diversity [49.68758494467258]
我々は、集団内の個人がどのように相互作用するかを慎重に構造化することで、多様なエージェントの集団を構築する方法について研究する。
我々のアプローチは,エージェント間の情報の流れを制御するインタラクショングラフに基づいている。
マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニング・トラジェクトリ,多様性,パフォーマンスに与える影響を解析する。
論文 参考訳(メタデータ) (2021-10-08T11:29:52Z) - Unifying Behavioral and Response Diversity for Open-ended Learning in
Zero-sum Games [44.30509625560908]
オープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。
行動多様性(BD)と反応多様性(RD)の両方に基づくマルチエージェントオープンエンド学習における多様性の統一尺度を提案する。
現在,多くの多様性対策が,BDやRDのカテゴリの1つに該当するが,両方ではないことを示す。
この統一された多様性尺度を用いて、オープンエンド学習における最良の応答を求める際に、対応する多様性促進目標と人口効果度を設計する。
論文 参考訳(メタデータ) (2021-06-09T10:11:06Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization [42.33734089361143]
複雑なマルチエージェントゲームにおいて多様な戦略方針を発見する手法を提案する。
我々は新しいアルゴリズム Reward-Randomized Policy Gradient (RPG) を導出する。
RPGは、時間的信頼のジレンマに挑戦する際、複数の特徴的な人間解釈可能な戦略を発見することができる。
論文 参考訳(メタデータ) (2021-03-08T06:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。