論文の概要: Unifying Behavioral and Response Diversity for Open-ended Learning in
Zero-sum Games
- arxiv url: http://arxiv.org/abs/2106.04958v1
- Date: Wed, 9 Jun 2021 10:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 01:47:19.981953
- Title: Unifying Behavioral and Response Diversity for Open-ended Learning in
Zero-sum Games
- Title(参考訳): ゼロサムゲームにおけるオープンエンド学習のための行動と反応の多様性の統一
- Authors: Xiangyu Liu, Hangtian Jia, Ying Wen, Yaodong Yang, Yujing Hu, Yingfeng
Chen, Changjie Fan, Zhipeng Hu
- Abstract要約: オープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。
行動多様性(BD)と反応多様性(RD)の両方に基づくマルチエージェントオープンエンド学習における多様性の統一尺度を提案する。
現在,多くの多様性対策が,BDやRDのカテゴリの1つに該当するが,両方ではないことを示す。
この統一された多様性尺度を用いて、オープンエンド学習における最良の応答を求める際に、対応する多様性促進目標と人口効果度を設計する。
- 参考スコア(独自算出の注目度): 44.30509625560908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring and promoting policy diversity is critical for solving games with
strong non-transitive dynamics where strategic cycles exist, and there is no
consistent winner (e.g., Rock-Paper-Scissors). With that in mind, maintaining a
pool of diverse policies via open-ended learning is an attractive solution,
which can generate auto-curricula to avoid being exploited. However, in
conventional open-ended learning algorithms, there are no widely accepted
definitions for diversity, making it hard to construct and evaluate the diverse
policies. In this work, we summarize previous concepts of diversity and work
towards offering a unified measure of diversity in multi-agent open-ended
learning to include all elements in Markov games, based on both Behavioral
Diversity (BD) and Response Diversity (RD). At the trajectory distribution
level, we re-define BD in the state-action space as the discrepancies of
occupancy measures. For the reward dynamics, we propose RD to characterize
diversity through the responses of policies when encountering different
opponents. We also show that many current diversity measures fall in one of the
categories of BD or RD but not both. With this unified diversity measure, we
design the corresponding diversity-promoting objective and population
effectivity when seeking the best responses in open-ended learning. We validate
our methods in both relatively simple games like matrix game, non-transitive
mixture model, and the complex \textit{Google Research Football} environment.
The population found by our methods reveals the lowest exploitability, highest
population effectivity in matrix game and non-transitive mixture model, as well
as the largest goal difference when interacting with opponents of various
levels in \textit{Google Research Football}.
- Abstract(参考訳): 戦略の多様性の測定と促進は、戦略サイクルが存在する強力な非推移力学を持つゲームの解決に不可欠であり、一貫した勝者は存在しない(Rock-Paper-Scissorsなど)。
オープンエンド学習による多様なポリシーのプールを維持することは魅力的なソリューションであり、悪用されるのを避けるために自動カリキュラムを生成することができる。
しかし、従来のオープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。
本稿では,マルチエージェント・オープンディビジョン学習における多様性の統一尺度として,行動多様性(bd)と応答多様性(rd)の両方に基づいて,マルコフゲームにすべての要素を含める手法を提案する。
軌道分布レベルでは、状態-作用空間におけるBDを占有率の差として再定義する。
報酬力学では、異なる相手に遭遇する際のポリシーの応答を通じて多様性を特徴付けるRDを提案する。
また、現在の多様性対策の多くは、BDまたはRDのカテゴリの1つに該当するが、両方ではないことを示す。
この統一ダイバーシティ尺度を用いて,オープンエンド学習における最善の回答を求める際,対応する多様性促進目標と人口有効性を設計する。
我々は,行列ゲーム,非推移混合モデル,複雑な‘textit{Google Research Football}環境などの比較的単純なゲームにおいて,本手法の有効性を検証する。
提案手法によって得られた人口は,行列ゲームおよび非推移混合モデルにおいて,最も低い利用可能性,最も高い人口効果,および,各種レベルの対戦相手と対話する場合の最大の目標差を明らかにした。
関連論文リスト
- Controlling Behavioral Diversity in Multi-Agent Reinforcement Learning [8.905920197601173]
本研究では,ある指標の正確な値に対する多様性を制御できるダイバーシティ制御(DiCo)を導入する。
マルチエージェント強化学習における性能向上とサンプル効率向上のための新しいパラダイムとしてDiCoを用いる方法を示す。
論文 参考訳(メタデータ) (2024-05-23T21:03:33Z) - Iteratively Learn Diverse Strategies with State Distance Information [18.509323383456707]
複雑な強化学習問題では、同様の報酬を持つポリシーは、かなり異なる振る舞いを持つ可能性がある。
そこで本研究では, 多様性駆動型RLアルゴリズム, SIPO (State-based Intrinsic-Reward Policy Optimization) を開発した。
論文 参考訳(メタデータ) (2023-10-23T02:41:34Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process [53.86223883060367]
教師なしオプション発見における多様性とカバレッジは、実際には同じ数学的枠組みの下で統一可能であることを示す。
提案アルゴリズムであるODPPは,MujocoとAtariで作成した課題に対して,広範囲に評価されている。
論文 参考訳(メタデータ) (2022-12-01T01:40:03Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Pick Your Battles: Interaction Graphs as Population-Level Objectives for
Strategic Diversity [49.68758494467258]
我々は、集団内の個人がどのように相互作用するかを慎重に構造化することで、多様なエージェントの集団を構築する方法について研究する。
我々のアプローチは,エージェント間の情報の流れを制御するインタラクショングラフに基づいている。
マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニング・トラジェクトリ,多様性,パフォーマンスに与える影響を解析する。
論文 参考訳(メタデータ) (2021-10-08T11:29:52Z) - Modelling Behavioural Diversity for Learning in Open-Ended Games [15.978932309579013]
ゲームにおける行動の多様性を幾何学的に解釈する。
DPP(Emphdeterminantal point process)に基づく新しい多様性指標を提案する。
多様なベストレスポンスのユニークさと、2プレイヤーゲームにおけるアルゴリズムの収束性を証明する。
論文 参考訳(メタデータ) (2021-03-14T13:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。