論文の概要、ライセンス

# (参考訳) ゼロサムゲームにおけるオープンエンド学習のための行動と反応の多様性の統一 [全文訳有]

Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games ( http://arxiv.org/abs/2106.04958v2 )

ライセンス: CC BY 4.0
Xiangyu Liu, Hangtian Jia, Ying Wen, Yaodong Yang, Yujing Hu, Yingfeng Chen, Changjie Fan, Zhipeng Hu(参考訳) 戦略の多様性の測定と促進は、戦略サイクルが存在する強力な非推移力学を持つゲームの解決に不可欠であり、一貫した勝者は存在しない(Rock-Paper-Scissors など)。 オープンエンド学習による多様なポリシーのプールを維持することは魅力的なソリューションであり、悪用されるのを避けるために自動カリキュラムを生成することができる。 しかし、従来のオープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。 本稿では,マルチエージェント・オープンディビジョン学習における多様性の統一尺度として,行動多様性(bd)と応答多様性(rd)の両方に基づいて,マルコフゲームにすべての要素を含める手法を提案する。 軌道分布レベルでは、状態-作用空間におけるBDを占有率の差として再定義する。 報酬力学では、異なる相手に遭遇する際のポリシーの応答を通じて多様性を特徴付けるRDを提案する。 また、現在の多様性対策の多くは、BDまたはRDのカテゴリの1つに該当するが、両方ではないことを示す。 この統一ダイバーシティ尺度を用いて,オープンエンド学習における最善の回答を求める際,対応する多様性促進目標と人口有効性を設計する。 我々は,行列ゲーム,非推移混合モデル,複雑な‘textit{Google Research Football}環境などの比較的単純なゲームにおいて,本手法の有効性を検証する。 提案手法によって得られた人口は,行列ゲームおよび非推移混合モデルにおいて,最も低い利用可能性,最も高い人口効果,および,各種レベルの対戦相手と対話する場合の最大の目標差を明らかにした。

Measuring and promoting policy diversity is critical for solving games with strong non-transitive dynamics where strategic cycles exist, and there is no consistent winner (e.g., Rock-Paper-Scissors) . With that in mind, maintaining a pool of diverse policies via open-ended learning is an attractive solution, which can generate auto-curricula to avoid being exploited. However, in conventional open-ended learning algorithms, there are no widely accepted definitions for diversity, making it hard to construct and evaluate the diverse policies. In this work, we summarize previous concepts of diversity and work towards offering a unified measure of diversity in multi-agent open-ended learning to include all elements in Markov games, based on both Behavioral Diversity (BD) and Response Diversity (RD). At the trajectory distribution level, we re-define BD in the state-action space as the discrepancies of occupancy measures. For the reward dynamics, we propose RD to characterize diversity through the responses of policies when encountering different opponents. We also show that many current diversity measures fall in one of the categories of BD or RD but not both. With this unified diversity measure, we design the corresponding diversity-promoting objective and population effectivity when seeking the best responses in open-ended learning. We validate our methods in both relatively simple games like matrix game, non-transitive mixture model, and the complex \textit{Google Research Football} environment. The population found by our methods reveals the lowest exploitability, highest population effectivity in matrix game and non-transitive mixture model, as well as the largest goal difference when interacting with opponents of various levels in \textit{Google Research Football}.
公開日: Thu, 10 Jun 2021 16:00:18 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
0 1 ] A M 0 1 ] A M 0.85
. s c [ 2 v 8 5 9 4 0 . sc [ 2 v 8 5 9 4 0 0.74
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Unifying Behavioral and Response Diversity for 行動多様性と応答多様性の統一 0.69
Open-ended Learning in Zero-sum Games ゼロサムゲームにおけるオープンエンド学習 0.62
Xiangyu Liu1, Hangtian Jia2, Ying Wen1∗, Yaodong Yang3, Yujing Hu2, Xiangyu Liu1, Hangtian Jia2, Ying Wen1∗, Yaodong Yang3, Yujing Hu2 0.93
Yingfeng Chen2, Changjie Fan2 and Zhipeng Hu2 Yingfeng Chen2, Changjie Fan2, Zhipeng Hu2 0.86
1Shanghai Jiao Tong University, 2Netease Fuxi AI Lab, 3University College London 1Shanghai Jiao Tong University, 2Netease Fuxi AI Lab, 3University College London 0.97
Abstract Measuring and promoting policy diversity is critical for solving games with strong non-transitive dynamics where strategic cycles exist, and there is no consistent winner (e g , Rock-Paper-Scissors) . 概要 戦略の多様性の測定と促進は、戦略サイクルが存在する強力な非推移的ダイナミクスを持つゲームの解決に不可欠であり、一貫した勝者(Rock-Paper-Scissors など)は存在しない。 0.54
With that in mind, maintaining a pool of diverse policies via open-ended learning is an attractive solution, which can generate auto-curricula to avoid being exploited. オープンエンド学習による多様なポリシーのプールを維持することは魅力的なソリューションであり、悪用されるのを避けるために自動カリキュラムを生成することができる。 0.63
However, in conventional open-ended learning algorithms, there are no widely accepted definitions for diversity, making it hard to construct and evaluate the diverse policies. しかし、従来のオープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。 0.76
In this work, we summarize previous concepts of diversity and work towards offering a unified measure of diversity in multi-agent open-ended learning to include all elements in Markov games, based on both Behavioral Diversity (BD) and Response Diversity (RD). 本稿では,マルチエージェント・オープンディビジョン学習における多様性の統一尺度として,行動多様性(bd)と応答多様性(rd)の両方に基づいて,マルコフゲームにすべての要素を含める手法を提案する。 0.76
At the trajectory distribution level, we re-define BD in the state-action space as the discrepancies of occupancy measures. 軌道分布レベルでは、状態-作用空間におけるBDを占有率の差として再定義する。 0.63
For the reward dynamics, we propose RD to characterize diversity through the responses of policies when encountering different opponents. 報酬力学では、異なる相手に遭遇する際のポリシーの応答を通じて多様性を特徴付けるRDを提案する。 0.68
We also show that many current diversity measures fall in one of the categories of BD or RD but not both. また、現在の多様性対策の多くは、BDまたはRDのカテゴリの1つに該当するが、両方ではないことを示す。 0.58
With this unified diversity measure, we design the corresponding diversity-promoting objective and population effectivity when seeking the best responses in open-ended learning. この統一ダイバーシティ尺度を用いて,オープンエンド学習における最善の回答を求める際,対応する多様性促進目標と人口有効性を設計する。 0.60
We validate our methods in both relatively simple games like matrix game, non-transitive mixture model, and the complex Google Research Football environment. 提案手法は,行列ゲーム,非推移混合モデル,複雑なGoogle Research Football環境などの比較的単純なゲームで検証する。 0.75
The population found by our methods reveals the lowest exploitability, highest population effectivity in matrix game and non-transitive mixture model, as well as the largest goal difference when interacting with opponents of various levels in Google Research Football. 提案手法によって得られた個体群は, 行列ゲームおよび非推移混合モデルにおいて, 最低利用率, 最大集団効果率, および, Google Research Football における様々なレベルの相手との対話における最大の目標差を示す。
訳抜け防止モード: 本手法によって得られた個体群は, マトリックスゲームおよび非遷移混合モデルにおいて, 最低利用率, 最大集団効果率を示す。 最大の目標差は Google Research Footballのさまざまなレベルの対戦相手と対話する。
0.75
1 Introduction Zero-sums games involve non-transitivity [2, 4] in the policy space, and thus each player must acquire a diverse set of winning strategies to achieve high unexploitability [33], which has been widely validated by recent studies of constructing AIs with superhuman performance in sophisticated tasks, such as StarCraft [29, 27] and DOTA2 [24, 36]. 1 はじめに ゼロサムゲームは政策空間における非推移性(2,4)を含むため、各プレイヤーは高い非説明性を達成するために多様な勝利戦略(33)を得る必要があり、スタークラフト(29,27)やDOTA2(24,36)のような高度なタスクにおいて超人的なパフォーマンスを持つAIを構築する研究によって広く検証されている。 0.70
The non-transitivity in games means there is not a dominating strategy and the set of strategies form a cycle (e g , the endless cycles among Rock, Paper and Scissors). ゲームにおける非推移性は、支配的な戦略がなく、戦略の集合がサイクルを形成することを意味する(例えば、ロック、ペーパー、シザー間の無限のサイクル)。
訳抜け防止モード: ゲームにおける非推移性は、意味する 支配的な戦略はありません 戦略の集合はサイクル(例)を形成します Rock , Paper および Scissors の終りのないサイクル)。
0.80
It is the presence of this special structure in games that requires players to maintain a diverse set of policies. ゲームにおけるこの特殊な構造の存在は、プレイヤーが多様なポリシーを維持することを必要とする。 0.81
Otherwise, we only need to seek the strongest one. さもなければ、最強のものを探すしかありません。 0.55
Formally, the necessity of diversity for zero-sum games lies in three ways: (1) policy evaluation: with the presence of non-transitivity, one cannot justify the strength or weakness of a strategy through the outcome of the interaction with a single type of opponent; (2) avoiding being exploited [23]: since in non-transitive games a single strategy can be always beaten by another one, a diverse set of strategies allows players to make corresponding responses when encountering different opponents; (3) training Formally, the necessity of diversity for zero-sum games lies in three ways: (1) policy evaluation: with the presence of non-transitivity, one cannot justify the strength or weakness of a strategy through the outcome of the interaction with a single type of opponent; (2) avoiding being exploited [23]: since in non-transitive games a single strategy can be always beaten by another one, a diverse set of strategies allows players to make corresponding responses when encountering different opponents; (3) training 0.89
∗Correspondence to Ying Wen <ying.wen@sjtu.edu.cn >. * Ying Wen <ying.wen@sjtu.edu.cn > 0.70
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
adaptable strategies [31]: a diverse set of training opponents helps gradually eliminate the weakness of a strategy, which can adapt to a wide range of opponents with very few interactions at test time. 適応可能な戦略 [31]: 多様なトレーニング対象のセットは、テスト時に非常に少ない相互作用で、幅広い範囲の敵に適応できる戦略の弱点を徐々に取り除くのに役立つ。 0.80
The open-ended learning framework is a promising direction towards inducing a population of distinct policies in zero-sum games via auto-curricula. オープンエンド学習フレームワークは,ゼロサムゲームにおいて,オートキュリキュラを介して異なるポリシーの集団を誘導する,有望な方向である。 0.57
Although various open-ended algorithms have been proposed to derive diverse strategies [2, 23, 6, 21], there are no consistent definitions for diversity. 多様な戦略 [2, 23, 6, 21] を導出するために様々なオープンエンドアルゴリズムが提案されているが、多様性に対する一貫した定義はない。 0.70
One of the most intuitive principles to characterize diversity is to build metrics over the trajectory or state-action distribution [6, 19]. 多様性を特徴づける最も直感的な原則の1つは、軌跡や状態-作用分布 [6, 19] 上でメトリクスを構築することです。 0.68
However, this perspective only focuses on the policy behaviors and ignores the reward attributes inherited from the Markov decision process. しかし、この観点は政策行動のみに焦点を当て、マルコフ決定プロセスから受け継いだ報酬属性を無視します。 0.68
We argue that this is not reasonable since sometimes a slight difference in the policy can result in a huge difference in the final reward like, in Maze. 政策の微妙な違いが、Mazeのように最終的な報酬に大きな違いをもたらすことがあるため、これは合理的ではないと我々は主張する。 0.67
Contrary to this, another line of works builds the diversity measure over empirical payoffs [23, 2], thus revealing the underlying diverse behaviors of a strategy through the responses when encountering distinct opponents. これとは対照的に、別の一連の作品では、経験的な報酬 [23, 2] よりも多様性の尺度を構築し、異なる敵に遭遇する際の反応を通じて戦略の基盤となる多様な行動を明らかにする。 0.62
In this work, based on all previous diversity concepts, we work towards offering a unified view for diversity in an open-ended learning framework by combining both the behavioral attribute and the response attribute of a strategy. 本研究は,従来の多様性概念のすべてに基づいて,行動属性と戦略の応答属性を組み合わせることにより,オープンエンド学習フレームワークにおける多様性の統一的なビューの提供を目指す。 0.84
The behavioral diversity is formulated through the occupancy measure, which is an equivalent representation of a policy. 行動の多様性は、政策の等価表現である占有測度によって定式化される。 0.73
We hypothesize that the diversity in policy behaviors should be revealed by differences in the state-action distribution, and we use a general divergence family f-divergence to indicate the novelty of a new policy. 我々は,政策行動の多様性は状態行動分布の相違によって明らかにされるべきであり,新しい政策の新規性を示すために一般分岐族f-ダイバージェンスを用いる。 0.84
On the other hand, gamescape [2] has been proposed to represent the response capacity of a population of strategies. 一方、ゲームスケープ[2]は、戦略の集団の応答能力を表すために提案されている。 0.65
Based on gamescape, we formulate a new geometric perspective to treat the response diversity by considering the distance to the gamescape. ゲームスケープに基づいて,ゲームスケープまでの距離を考慮し,応答の多様性を扱うための新しい幾何学的視点を定式化する。 0.61
To summarize, in this paper, we provide the following contributions: まとめると、本論文では以下の貢献を述べる。 0.63
• We formulate the concept of behavioral diversity in the state-action space as the discrepancies of occupancy measures and analyze the optimization methods in both normal-form games and general Markov games. • 状態行動空間における行動多様性の概念を占有測度の不一致として定式化し、正規形ゲームと一般マルコフゲームの両方における最適化手法を分析する。 0.73
• We provide a new geometric perspective on the response diversity as a form of Euclidean projection onto the convex hull of the meta-game to enlarge the gamescape directly and propose the optimization lower bound for practical implementation. • メタゲームの凸部へのユークリッド射影の形での応答の多様性に関する新しい幾何学的視点を提供し、ゲームスケープを直接拡大し、実用的な実装のための最適化の下限を提案する。 0.77
• We analyze the limitation of exploitability as the evaluation metric and introduce a new metric with theoretical soundness called population effectivity, which is a fairer way to represent the effectiveness of a population than exploitability [15]. • 利用可能性の限界を評価尺度として分析し, 人口効果率という理論的健全性を備えた新しい指標を導入する。
訳抜け防止モード: ・利用可能性の限界を評価指標として分析する 人口効果率という理論的健全性を持つ新しい指標を導入しました これは 利用可能性よりも 人口の有効性を表す 公平な方法です [15]
0.71
2 Preliminaries 2.1 Markov Games 予科2 2.1 マルコフゲーム 0.59
i=1, P,{ri}N i=1, P,{ri}N 0.94
Each agent’s goal is to maximize the γ-discounted expected return Ri = E[(cid:80)∞ games, the rewards satisfy that(cid:80)N 各エージェントの目標は、(cid:80)N を満足する γ で表される期待値 Ri = E[(cid:80)∞ ゲームを最大化することである。 0.79
The extension of Markov decision processes (MDPs) with more than one agents is commonly modelled as Markov games [17]. 複数のエージェントによるマルコフ決定プロセス(MDP)の拡張は、一般的にマルコフゲーム[17]としてモデル化される。 0.69
A Markov game with N agents is defined by a tuple < N,S,{Ai}N i=1, η, γ >, where S denotes the state space and Ai is the action space for agent i. N 個のエージェントを持つマルコフゲームはタプル < N, S,{Ai}N i=1, η, γ > で定義される。
訳抜け防止モード: N 個のエージェントを持つマルコフゲームは、タプル < N, S,{Ai}N i=1, η, γ > ここで S は状態空間を表す そして Ai はエージェント i のアクション空間である。
0.80
The function P controls the state transitions by the current state and one action from each agent: P : S × A1 × ··· × AN → P(S), where P(S) denotes the set of probability distributions over the state space S. Given the current state st and the joint action (a1, . P: S × A1 × ··· × AN → P(S) ここで P(S) は状態空間 S 上の確率分布の集合を表す。
訳抜け防止モード: 関数 p は現在の状態による状態遷移を制御する 各エージェントからのアクションは p : s × a1 × · · · · an → p(s) である。 p(s ) は状態空間 s 上の確率分布の集合を表す。 そして、共同動作(a1, )。
0.82
. . , aN ), the transition probability to st+1 is given by P (st+1|st, a1, . . . st+1 への遷移確率は P (st+1|st, a1, ) で与えられる。 0.83
. . , aN ). The initial state distribution is given by η : S → [0, 1]. . . 、aN)。 初期状態分布は η : S → [0, 1] で与えられる。 0.78
Each agent i also has an associated reward function ri : S × Ai × ··· × AN → R. i, at−i)], where −i is a compact representation of all complementary agents of i. Specifically, for zero-sum i=1 ri(s, a) = 0, and players need to behave competitively to achieve higher rewards. それぞれのエージェント i は、関連する報酬関数 ri : S × Ai × ··· × AN → R.i, at−i)] を持ち、ここで −i は i のすべての相補的エージェントのコンパクト表現である。
訳抜け防止モード: それぞれのエージェント i は、関連する報酬関数 ri: S × Ai × · · · · × AN → R を持つ。 at-i ) ], where −i is a compact representation of all complementary agent of i。 0 に対して、sum i=1 ri(s, a ) = 0 である。 プレイヤーはより高い報酬を得るために競争的に振る舞う必要があります
0.81
In multi-agent reinforcement learning (MARL) [34], each agent is equipped with a policy πi : S × Ai → [0, 1] and the joint policy is defined by π(a|s) = ΠN i=1πi(ai|s). マルチエージェント強化学習(MARL) [34] では、各エージェントはポリシーπi : S × Ai → [0, 1] を備え、ジョイントポリシーはπ(a|s) = πNi=1πi(ai|s) で定義される。 0.78
In single-agent reinforcement learning, occupancy measure is a principle way to characterize a policy, which indicates how a policy covers the state-action space. 単一エージェント強化学習において、占有度尺度は政策を特徴づける原則的な方法であり、政策が状態-行動空間をどのようにカバーしているかを示す。 0.62
Inspired by the definition from the single-agent setting, we define the joint occupancy measure in MARL induced by the joint policy π(a|s) as: 単一エージェント設定の定義に着想を得て、合同ポリシー π(a|s) によって引き起こされる marl における共同占有測度を次のように定義する。
訳抜け防止モード: シングルエージェント設定の定義にインスパイアされた。 共同政策 π(a|s ) によって誘導される MARL の合同占有度尺度を :
0.79
t=0 γtri(st, at t=0 γtri(st, at 0.82
2 2 0.85
英語(論文から抽出)日本語訳スコア
Table 1: Comparisons of Different Algorithms. 表1:異なるアルゴリズムの比較。 0.74
BD RD Game Type Method (cid:88) Single-agent DvD × n-player general-sum game PSRON × PSROrN 2-player zero-sum game × 2-player general-sum game DPP-PSRO Our Methods Occupancy measure & convex hull (cid:88) n-player general-sum game BD RD Game Type Method (cid:88) Single-agent DvD × n-player general-sum game PSRON × PSROrN 2-player zero-sum game × 2-player general-sum game DPP-PSRO Our Methods Occupancy measure & convex hull (cid:88) n-player general-sum game 0.73
Tool for Diversity Determinant None L1,1 norm Determinantal point process 多様性決定ツールノーl1,1ノルム決定行列点処理 0.65
× × (cid:88) (cid:88) (cid:88) × × (cid:88) (cid:88) (cid:88) 0.78
Definition 1. (Joint Occupancy Measure in MARL) Let ρπ(s) : S → R denote the normalized distribution of state visitation by following the joint policy π = (πi, π−i) in the environment: 定義1。 (MARLにおける共同職業測定) ρπ(s) : S → R は環境における共同政策 π = (πi, π−i) に従うことによって状態訪問の正規化分布を表す。 0.76
ρπ(s) = (1 − γ) ρπ(s) = (1 − γ) 0.93
γtP (st = s|π) . γtP (st = s|π)。 0.76
(1) Then the distribution of state-action pairs ρπ(s, a) = ρπ(s)π(a|s) is called occupancy measure of the joint policy π. (1) このとき、状態-作用対 ρπ(s, a) = ρπ(s)π(a|s) の分布は合同政策 π の占有測度と呼ばれる。 0.84
t=0 2.2 Policy Space Response Oracle t=0 2.2 policy space response oracle 0.71
Adapted from double oracle [22], policy space response oracle (PSRO) [15, 5] has been serving as a powerful tool to solve the nash equilibrium (NE) in zero-sum games. 二重オラクル [22] に適応したポリシ空間応答オラクル (PSRO) [15, 5] はゼロサムゲームにおけるナッシュ平衡 (NE) を解く強力なツールとして機能している。 0.77
In PSRO, each player i } for player i and P−i = {π1−i, . PSROでは、プレイヤー i に対して各プレイヤー i } と P−i = {π1−i, である。 0.66
. . , πN−i} for maintains a pool of policies, say Pi = {π1 player −i. . . πN−i} は、例えば Pi = {π1 player −i のようにポリシーのプールを維持する。 0.81
The so-called meta game APi×P−i has its (k, j) entry as φi(πk i , πj−i), where the function φi encapsulates the reward outcome for player i like the winning rate or expected return. いわゆるメタゲーム APi×P−i は φi(πk i , πj−i) として (k, j) のエントリーを持ち、この関数 φi は勝利率や期待リターンを好むプレイヤー i に対する報酬結果をカプセル化する。 0.79
When player i adds a new policy πM +1 プレイヤー i が新しいポリシー πM +1 を追加するとき 0.71
, it will compute the best response to the mixture of its opponents: 相手の混合物に対する最良の反応を計算します。 0.54
i , . . . , πM です。 . . , πm 0.73
i ∞(cid:88) 私は ∞(cid:88) 0.69
(cid:88) j (cid:88) j 0.82
Br(P−i) = max πM +1 Br(P−i) = max πM +1 0.81
i σj−iEπM +1 私は σj-iEπM +1 0.44
i ,πj−i [ri(s, a)]. 私は ,πj−i [ri(s, a)] 0.57
where σ = (σi, σ−i) is a distribution over policies in Pi and P−i, which is usually a NE of APi×P−i. σ = (σi, σ−i) は、一般に APi×P−i の NE である Pi と P−i のポリシー上の分布である。 0.85
The empirical gamescape is introduced by [2] to represent the expressiveness of a population Pi in the reward outcome level given the opponent population P−i: Definition 2. 実験的なゲームスケープは [2] によって導入され、対向する人口 P−i: 定義 2: に与えられる報酬結果レベルにおける集団 Pi の表現性を表す。 0.73
Given population Pi and P−i with evaluation matrix APi×P−i, the corresponding empirical gamescape (EGS) for Pi is defined as 評価行列 APi×P−i を持つ集団 Pi と P−i が与えられた場合、Pi に対する対応する経験的ゲームスケープ (EGS) が定義される。 0.64
GPi|P−i := {convex mixtures of rows of APi×P−i}. GPi|P−i := {convex mixs of rows of APi×P−i}。 0.72
2.3 Existing Diversity Measures 2.3 既存の多様性対策 0.56
As the metric to measure the differences between models, diversity is an important topic in many fields of machine learning, including generative modelling [6], latent variable models [32], and robotics [1]. モデル間の差異を測定するための指標として、生成的モデリング [6]、潜在変数モデル [32]、ロボティクス [1] など、機械学習の多くの分野において多様性は重要なトピックである。 0.87
Specifically, in reinforcement learning (RL), diversity is a useful tool for learning transferable skills [7], boosting explorations [26], or collecting near-optimal policies that are distinct in a meaningful way. 具体的には、強化学習(RL)において、多様性は、伝達可能なスキル(7)を学習したり、探索(26)を促進したり、意味のある方法で異なる準最適政策を収集するのに有用なツールである。 0.61
Despite the importance of diversity, as shown in Table 1, there has not been a consistent definition of diversity for RL, and various diversity concepts are used. 多様性の重要性にもかかわらず、表1に示すように、rlの多様性に関する一貫した定義はなく、様々な多様性の概念が使われている。 0.64
[21] investigated behavioral diversity in multi-agent reinforcement learning through expected action variation, which is modeled as the average total variation distance of two action distributions under certain sampled states. 21] あるサンプル状態における2つの行動分布の平均変動距離としてモデル化された期待行動変動による多エージェント強化学習の行動多様性について検討した。 0.77
Considering the geometric perspective that the determinant of the kernel matrix represents the volume of a parallelepiped spanned by feature maps, DvD [25] proposed the concept of population diversity using the determinant of the kernel matrix composed by the behavioral embeddings by multiple policies. DvD [25] は, カーネル行列の行列式が特徴写像で区切られた並列入力の体積を表すという幾何学的視点を考慮して, 行動埋め込みによって構成されるカーネル行列の行列式を用いて, 集団多様性の概念を提案した。 0.75
Thanks to the tools of empirical game theory analysis, diversity can be modeled from the perspective of the empirical game. 経験的ゲーム理論分析のツールのおかげで、多様性は経験的ゲームの観点からモデル化することができる。 0.74
Effective diversity [2] is formulated as the weighted L1,1 norm of the empirical payoff matrix, which emphasizes what opponents a policy can win against. 効果的な多様性 [2] は経験的ペイオフ行列の重み付けされた L1,1 ノルムとして定式化され、政策に勝つ相手を強調する。
訳抜け防止モード: 有効多様性[2]は経験的ペイオフ行列の重み付きL1,1ノルムとして定式化される。 相手が勝てる政策を強調します
0.65
Also inspired by determinantal point process (DPP) [13, 35], [23] uses the expected cardinality to measure the diversity of a population. また、DPP (Determinantal point process) [13, 35], [23] にもインスパイアされ、予測濃度を用いて個体群の多様性を測定する。 0.76
3 3 0.85
英語(論文から抽出)日本語訳スコア
(cid:12)(cid:12)(cid :12) + c · W1 (cid:12)(cid:12)(cid :12) + c · W1 0.78
(cid:16)P a (cid:16)Pa 0.92
si (cid:17) シー (cid:17) 0.58
3 A Unified Diversity Measure maxa∈A(1 − c) ·(cid:12)(cid:12)(cid :12)Ra 3 統一多様性尺度 maxa・A(1 − c)·(cid:12)(cid:12)(cid :12)Ra 0.66
si − Ra Motivated by bisimulation metric [8] to measure the similarity of two states in MDPs: d (si, sj) = , which considers both the immediate reward and the following transition dynamics, we want to build the metric to measure the similarity of two policies in a given Markov game through the task-specific reward attributes and the interaction between policy behaviors and transition dynamics. シー -羅 d (si, sj) = は即時報酬と次の遷移ダイナミクスの両方を考慮し、タスク固有の報酬属性と政策行動と遷移ダイナミクスの間の相互作用を通じて与えられたマルコフゲームにおける2つのポリシーの類似度を測定するための計量を構築したい。
訳抜け防止モード: シー -羅 MDPにおける2つの状態の類似性を測定するためのバイシミュレーション計量 [8 ] による動機付け sj ) = 即時報酬と次の遷移ダイナミクスの両方を考慮する。 タスクを通じて与えられたマルコフゲームにおける2つのポリシーの類似度を測定するためのメトリックを構築したい。 政策行動と移行力学の相互作用です
0.55
We will firstly model the interaction between policy behaviors and transition dynamics through the principled occupancy measure in MDPs, which encodes how a policy behaves in a given state and how the state will transit. まず, 政策行動と遷移動態の相互作用を, MDPにおける原則的占有度尺度を通じてモデル化する。
訳抜け防止モード: まず、政策行動と遷移力学の相互作用を、MDPにおける原則的占有度尺度を通じてモデル化する。 政策が ある州でどのように振る舞うか 国家がどう通過するかをコード化します
0.61
On the reward side, the interaction responses with different opponents feature a policy, which can be used for common diversity measures like DPP [23] and rectified Nash [2]. 報酬面では、異なる相手との相互作用反応は、DPP[23]や修正ナッシュ[2]のような共通の多様性対策に使用できるポリシーを特徴とする。 0.79
,P a ; d sj .p.a. ; d sj 0.73
sj 3.1 Behavioral Diversity via Occupancy Measure Mismatching sj 3.1 Occupancy Measure Mismatchingによる行動多様性 0.79
One fundamental way to characterize a policy in MDPs is through the distribution of the state-action pair (s, a). 政策を MDP で特徴づける基本的な方法の1つは、状態-作用対 (s, a) の分配である。 0.79
Formally, we define the occupancy measure in multi-agent learning as the distribution of the joint state-action distribution. 形式的には,マルチエージェント学習における占有測度を,協調状態-行動分布の分布として定義する。 0.69
It has been shown that there is a one-to-one correspondence between the joint policy π and the occupancy measure ρπ. 合同政策 π と占有測度 ρπ の間には1対1の対応があることが示されている。 0.66
Proposition 1 (Theorem 2 of [28]). 命題1([28]の理論2)。 0.54
If ρ is valid occupancy measure, then ρ is the occupancy measure ρ が有効な占有測度であれば、ρ は占有測度である 0.82
for πρ(a | s) = ρ(s, a)/(cid:80) πρ(a | s) = ρ(s, a)/(cid:80) の場合 0.93
a(cid:48) ρ (s, a(cid:48)), and πρ is the only policy whose occupancy measure is ρ. a(cid:48) ρ (s, a(cid:48)) と πρ は ρ を占有する唯一の政策である。 0.87
Usually, the policy π is parameterized as a neural network, and tackling the policy in the parameter space is intractable. 通常、ポリシー π はニューラルネットワークとしてパラメータ化され、パラメータ空間でポリシーに取り組むことは難解である。 0.79
However, due to the one-to-one correspondence between the policy and occupancy measure, the occupancy measure ρπ serves as a unique and informative representation for the policy π. しかし、政策と占有測度の1対1の対応のため、占有測度 ρπ は政策 π の独特で情報的な表現として機能する。 0.70
Therefore, we are justified in considering diversity from a perspective of the occupancy measure. したがって, 占有率の観点から多様性を考える上では, 正当性がある。 0.65
Next, we will consider how to promote diversity in the framework of policy space response oracle. 次に、政策空間対応オラクルの枠組みにおける多様性の促進について検討する。 0.67
Suppose after t iterations of PSRO, the joint policy aggregated according the distribution of nash is πE = (πi, πE−i ). PSRO の t 反復の後、nash の分布に応じて集約された合同ポリシーを πE = (πi, πE−i ) とする。 0.65
The occupancy measure is given by ρπE . 占有度はρπE で与えられる。 0.61
For player i in the t + 1 iteration, it will seek the new policy π(cid:48) t + 1 の反復におけるプレイヤー i に対して、新しいポリシー π(cid:48) を求める。 0.78
i, which can maximize the discrepancy between old ρπE and ρπ(cid:48) i, 古い ρπe と ρπ(cid:48) の差を最大化できる 0.79
. i,πE−i Divocc(π(cid:48) . i,πE−i Divocc(π(cid:48) 0.81
i) = Df (ρπ(cid:48) i) = Df(ρπ(cid:48) 0.90
i,πE−i ||ρπi,πE−i i,πE−i |ρπi,πe−i 0.55
) , (2) max π(cid:48) ) , (2) 最大 π(cid:48) 0.84
i where we use the general f-divergence to measure the discrepancy of two distributions. 私は ここでは 2 つの分布の相違を測るために一般の f 分割を用いる。 0.57
We firstly investigate the objective under the one-step game by giving the following theorem: Theorem 1. まず, 1 ステップゲームにおける目的について,次の定理を与えることにより検討する。 0.64
By assuming the game is a one-step game (normal-form games, functional-form games, etc.) ゲームが1ステップゲーム(通常フォームゲーム、機能フォームゲームなど)であると仮定することで 0.79
and policies among players are independent, the behavioral diversity can be simplified by: プレイヤー間の政策は独立していて 行動の多様性は 0.64
Df (ρπ(cid:48) Df(ρπ(cid:48) 0.82
i,πE−i ||ρπi,πE−i i,πE−i |ρπi,πe−i 0.55
) = Es0∼η(s)[Df (π(cid:48) ) = Es0αη(s)[Df(π(cid:48)) 0.81
i(·|s0)||πi(·|s0))] . i(·|s0)||πi(·|s0))] 0.72
(3) Proof. See Appendix A.1. (3) 証明。 Appendix A.1を参照。 0.68
For more general Markov games, computing the exact occupancy measure is intractable. より一般的なマルコフゲームでは、正確な占有率の計算は困難である。 0.50
However, notice that we are maximizing a f-divergence objective of occupancy measures, while occupancy measure matching algorithms in imitation learning try to minimize the same objective [12, 10, 9]. しかし, 擬似学習における習熟度測定アルゴリズムは, 同じ目的 [12, 10, 9] を最小化しようとする一方で, 占有度測定のf分割目標を最大化していることに気付く。 0.77
Leveraging the powerful tool from occupancy measure matching, we here propose an approximate method to maximize Divocc. 占有度測定マッチングから強力なツールを活用することで、Divocを最大化する近似手法を提案する。 0.63
Prediction Error for Approximate Optimization. 近似最適化のための予測誤差 0.79
Inspired by random expert distillation [30], a neural network fˆθ(s, a) is trained to fit a randomly initialized fixed network fθ(s, a) on the dataset of state-action pair (s, a) ∼ ρπE . ランダムな専門家蒸留[30]にインスパイアされたニューラルネットワーク f θ(s, a) は、ランダムに初期化された固定されたネットワーク fθ(s, a) を状態-作用対 (s, a) のデータセットに適合するように訓練される。 0.69
Then we can assign an intrinsic reward rint (s, a) = ||fˆθ(s, a) − fθ(s, a)|| to the player, which will encourage the agent to visit the state-action with large prediction errors, thus pushing occupancy measure of the new policy to be different from the old one. すると、本質的な報酬リント(s, a) = ||f\θ(s, a) − fθ(s, a)|| をプレイヤーに割り当てることで、エージェントが大きな予測誤差で状態-アクションを訪問することを促し、新しいポリシーの占有度を古いものと異なるものにすることができる。 0.77
Alternative Solutions. 代替ソリューション。 0.74
There are also many other practical occupancy measure matching algorithms. 他にも多くの実用的占有測度マッチングアルゴリズムがある。 0.73
One popular paradigm is learning a discriminator D(s, a) to classify the state-action pair (s, a) from the distribution ρπ(cid:48) and the distribution ρπE . 一般的なパラダイムの一つは、分布 ρπ(cid:48) と分布 ρπe から状態-作用対 (s, a) を分類する判別子 d(s, a) を学習することである。 0.67
Then the trained D(s, a) can be used to construct すると、訓練されたD(s, a)を使って構成できる 0.81
i i,πE−i 4 私は i,πE−i 4 0.69
英語(論文から抽出)日本語訳スコア
different intrinsic rewards, which will correspond to different choices of f-divergence [12, 10, 9]. f-divergence [12, 10, 9] の異なる選択に対応する、異なる内在的な報酬。 0.82
One major drawback of this paradigm is that the discriminator depends on the new policy π(cid:48) i and needs re-training once the policy π(cid:48) i is updated. このパラダイムの大きな欠点は、判別器が新しいポリシー π(cid:48) i に依存しており、ポリシー π(cid:48) i が更新されると再訓練する必要があることである。 0.59
Another popular paradigm is to learn an intrinsic reward directly from the target distribution ρπE like the prediction error. もう一つの一般的なパラダイムは、予測誤差のようにターゲット分布 ρπE から直接本質的な報酬を学ぶことである。
訳抜け防止モード: もう一つの一般的なパラダイムは 予測誤差のような目標分布ρπeから直接固有報酬を学習する。
0.68
Besides using the prediction error, there are also other choices, including energy-based model (EBM) [18] and expert variance [3]. 予測誤差の他に、エネルギーベースモデル(EBM)[18]やエキスパート分散[3]など、他の選択肢もある。 0.70
However, those methods usually require specialized training techniques. しかし、その方法は通常、専門的な訓練技術を必要とする。 0.56
3.2 Response Diversity via Convex Hull Enlargement 3.2 凸ハル拡大による応答の多様性 0.59
Take the two-player game for an example. 2人プレイのゲームを例に挙げる。 0.76
In games with more than two players, one can simply denote players other than player i as player −i. 2人以上のプレイヤーを持つゲームでは、プレイヤー i 以外のプレイヤーをプレイヤー −i と単純に表すことができる。 0.73
Thanks to the empirical payoff matrix, another fundamental way to characterize the diversity of a new policy is through the reward outcome from the interaction with many different opponents. 経験的なペイオフ行列のおかげで、新しい政策の多様性を特徴づけるもう一つの基本的な方法は、多くの異なる相手との相互作用による報酬結果である。 0.64
Each row in the empirical payoff matrix embeds how the corresponding row policy behaves against different opponent policies. 経験的なペイオフマトリックスの各行は、対応する行ポリシーが異なる反対ポリシーに対してどのように振る舞うかを埋め込む。 0.56
We are therefore justified in using the row vector of the empirical payoff matrix to represent the corresponding row policy. したがって、実証的なペイオフ行列の行ベクトルを用いて対応する行ポリシーを表現することを正当化する。 0.69
Formally, assume the row player maintains a pool of policies Pi = {π1 i } and the column player maintains a pool of policies P−i = {π1−i, . 正式には、行プレイヤーがポリシーのプールをpi = {π1 i } とし、列プレイヤーがポリシーのプールをp−i = {π1−i, とする。 0.70
. . , πN−i}. The induced (k, j) entry in the empirical i , πj−i), where the function φi encapsulates the reward payoff matrix APi×P−i is given by φi(πk i , πj−i). . . πN-i。 ここで、関数 φi は報酬報酬行列 api×p−i を包含し、 φi(πk i , πj−i) によって与えられる。 0.77
Now we can define the diversity measure outcome for player i given the joint policy (πk induced by the reward representations: さて、プレイヤーiの多様性尺度の結果を定義することができる: 共同政策(πk:the reward representations)によって引き起こされる。 0.62
i , . . . , πM です。 . . , πm 0.73
Divrew(πM +1 Divrew(πM +1 0.84
) = D(aM +1||APi×P−i) j=1 . ) = D(aM +1||APi×P−i) j=1。 0.63
i a(cid:62) M +1 := (φi(πM +1 i a(cid:62) M +1 := (φi(πM +1) 0.80
(4) (5) D(aM +1||APi×P−i) essentially measures the diversity of the new vector aM +1 given the presence of row vectors in APi×P−i. (4) (5) D(aM +1|APi×P−i) は APi×P−i の行ベクトルの存在を考えると、本質的に新しいベクトル aM +1 の多様性を測定する。 0.72
Inspired by the intuition of the convex hull that indicates the representational capacity of a pool of policies, the diverse new policy should seek to enlarge the convex hull of reward vectors as large as possible. 政策のプールの表現能力を示す凸包の直観性に触発されて、多様な新しい政策は、報酬ベクトルの凸包を可能な限り拡大することを求めるべきである。 0.67
To characterize the contribution of a vector to the enlargement of the convex hull directly, we define the novel diversity measure as a form of Euclidean projection: β − an+1||2 2 . 凸包の拡大に対するベクトルの寄与を直接特徴づけるために、新しい多様性測度をユークリッド射影の形式として定義する: β − an+1|22 。 0.73
Divrew(πM +1 Divrew(πM +1 0.84
, πj−i))N ||A(cid:62) , πj−i)n |a(cid:62) 0.74
Pi×P−i (6) Pi×P−i (6) 0.72
i i ) = min 1(cid:62)β=1 β≥0 私は 私は ) = min 1(cid:62)β=1 β≥0 0.60
Unfortunately, there is no closed-form solution to this optimization problem. 残念ながら、この最適化問題には閉形式解は存在しない。 0.68
To facilitate the optimization, we propose a practical and differential lower bound: Theorem 2. 最適化を容易にするために, 実用的かつ微分的下界: 定理 2 を提案する。 0.70
For a given empirical payoff matrix A and the reward vector an+1, the lower bound of Divocc is given by: 与えられた経験的ペイオフ行列 A と報酬ベクトル an+1 に対して、ディボックの下限は次の通り与えられる。 0.66
Divrew(πM +1 Divrew(πM +1 0.84
(7) where (A(cid:62))† is the Moore–Penrose pseudoinverse of A(cid:62), and σmin(A) is the minimum singular value of A. (7) ここで (A(cid:62)) は A(cid:62) のムーア・ペンローズ擬逆元であり、σmin(A) は A の最小特異値である。 0.73
M i + ||(I − A(cid:62)(A(cid:62)) †)an+1||2 , M 私は + ||(i − a(cid:62)(a(cid:62)) )\)an+1||2 , 0.73
) ≥ σ2 min(A)(1 − 1(cid:62)(A(cid:62)) †an+1)2 ) ≥ σ2 min(a)(1 − 1(cid:62)(a(cid:62)) -an+1)2 0.91
Proof. See Appendix A.2. 証明。 Appendix A.2を参照。 0.62
Let F (πM +1 Divrew(πM +1 F (πM +1 Divrew(πM +1) 0.81
i i ) be the right hand of the inequality. 私は 私は )不平等の右手である。 0.54
Then F (πM +1 ). F (πM +1 )。 0.78
i ) serves as a lower bound of 私は )下限として機能する 0.60
4 A Unified Diverse Objective for Best Response 4 ベスト応答のための統一多元対物 0.70
Equipped with the unified diversity measure, we are ready to propose the diversity-aware response during each iteration of PSRO: 統一多様性尺度を組み込んだPSROの各イテレーションにおいて多様性を考慮した応答を提案する準備が整った。 0.65
arg max π(cid:48) arg + max π(cid:48) 0.78
i Es,a∼ρπ(cid:48) 私は es,a,ρπ(cid:48) 0.55
i ,πE−i [r(s, a)] + λ1 Divocc(π(cid:48) 私は ,πE−i [r(s, a)] + λ1 Divocc(π(cid:48) 0.69
i) + λ2 Divrew(π(cid:48) i) + λ2 Divrew(π(cid:48) 0.92
i) . (8) If both λ1 and λ2 are 0, then objective is a normal best response. I)。 (8) λ1 と λ2 がともに 0 であれば、objective は通常の最善の反応である。 0.73
5 5 0.85
英語(論文から抽出)日本語訳スコア
and λ2 Algorithm 1 Gradient-based Optimization for Unified Diverse Response 1: Input: population Pi for each i, meta-game APi×P−i, state-action dataset {(s, a)}, weights λ1 2: σi, σ−i ← Nash on APi×P−i 3: πE ← Aggregate according to σi, σ−i 4: rint 5: θ∗ ← Train π(cid:48) ri(s, a) = rext λ2は Algorithm 1 Gradient-based Optimization for Unified Diverse Response 1: Input: population Pi for each i, meta-game APi×P−i, state-action dataset {(s, a)}, weights λ1 2: σi, σ−i > Nash on APi×P−i 3: πE > Aggregate according σi, σ−i 4: rint 5: θ∗ > Train π(cid:48) ri(s, a) = rext 0.83
(s, a) ← Train fixed reward from distribution (s, a) ∼ ρπE by EBM or prediction errors. (s, a) - 分布 (s, a) - 分布 (s, a) - ρπe - ebmまたは予測誤差による固定報酬。 0.66
i(θ) against fixed opponent policies πE−i by single-agent RL algorithm with (s, a) + λ1rint i(θ) s, a) + λ1rint を用いた単一エージェント rl アルゴリズムによる固定反対政策 πe−i に対する
訳抜け防止モード: i(θ ) 固定反対政策 πe−i に対する単エージェント rl アルゴリズム a) + λ1rint
0.77
is the original reward function. (s, a), rext 本来の報酬機能です rext (複数形 rexts) 0.57
i i ← Simulate the reward row vector an+1 using new π(cid:48) 私は 私は 新しいπ(cid:48)を用いた報酬行ベクトルan+1のシミュレート 0.56
i i i(θ) and compute 私は 私は i(θ) と計算 0.62
∂F ∂an+1 analytically. ∂F ∂an+1 分析的に 0.62
i(θ(cid:63)) against a new mixture distribution σ−i + λ2 新しい混合分布 σ−i + λ2 に対する i(θ(cid:63)) 0.86
∂F ∂an+1 of opponent policies. ∂F ∂an+1 反対の政策です 0.60
∂F ∂an+1 6: 7: ˆθ ← Train π(cid:48) 8: Output: policy π(cid:48) ∂F ∂an+1 6: 7: イザイタ列車 π(cid:48) 8: 出力: ポリシー π(cid:48) 0.71
i(ˆθ) i (複数形 is) 0.41
4.1 On the Optimization of Diverse Regularizers 4.1 多様な正則化器の最適化 0.64
i Discussions on Optimizing BD. 私は BDの最適化に関する議論 0.63
As discussed in Section 3.1, diversity in the occupancy measure level is fully compatible with the reinforcement learning task since the agent can get an intrinsic reward rint (s, a) to indicate the novelty of a state-action pair (s, a). 第3.1節で述べたように、エージェントは、状態対の新規性を示す固有の報酬リンク(s,a)を得ることができるので、占有度測定レベルの多様性は強化学習タスクと完全互換である(s,a)。 0.67
Therefore, to optimize the first two items in the objective, we only need to add the original reward by the λ1-weighted intrinsic reward. したがって、目的の最初の2つの項目を最適化するには、λ1重み付き内在報酬による元の報酬を追加するだけでよい。 0.69
Another issue we need to address is to sample (s, a) from the distribution ρπE , which has been mentioned in Section 3. 別の問題として、第3節で言及されている分布 ρπE から (s, a) をサンプリングする必要がある。 0.75
Since πE is not a true policy but only a hypothetical policy aggregated according to the mixture (σi, σ−i), sampling from ρπE is equivalent to sampling from ρπk with probability σk Discussions on Optimizing RD. πE は真の方針ではなく、混合 (σi, σ−i) に従って集約された仮説的な政策のみであるため、ρπE からのサンプリングは ρπk からのサンプリングと確率 σk による RD の最適化に関する議論と等価である。
訳抜け防止モード: πE は真の方針ではなく、混合 (σi, σ−i ) に従って集約された仮説的な政策のみである。 ρπE からのサンプリングは ρπk からのサンプリングと等価である。
0.74
Optimizing Divrew is not so easy since it involves an inner minimization problem. Divrewの最適化は、内部の最小化の問題を伴うため、それほど簡単ではない。 0.62
Fortunately, we have derived a closed-form low-bound F , which can serve as a surrogate for the outer maximization. 幸いなことに、我々は外最大化の代役として機能する閉形式ローバウンド F を導出した。 0.68
Assume the policy π(cid:48) given by: 与えられたポリシー π(cid:48) を仮定する。 0.64
i(θ). Then the gradient of F with respect to θ is i(θ)。 このとき、θ に関する F の勾配は、 0.77
i is parameterized by θ as π(cid:48) i は θ で π(cid:48) としてパラメータ化される 0.66
i σj−i. i ,πj i σj−i。 i ,πj 0.78
i ∂F (π(cid:48) ∂θ 私は ∂F(π(cid:48) ∂θ 0.66
i(θ)) = ∂an+1 i(θ) = ∂an+1 0.66
∂F ∂θ ∂an+1 ∂F ∂θ ∂an+1 0.68
= i(θ), π1−i) ∂θ = i(θ, π1−i) ∂θ 0.86
, . . . , ∂φi(π(cid:48) , . . . , ∂φi(π(cid:48)) 0.80
i(θ), πN−i) ∂θ i(θ) πn−i) ∂θ 0.86
(cid:18) ∂φi(π(cid:48) (出典:18)(π(出典:48) 0.74
(cid:19) ∂F (cid:19) ∂f 0.70
∂an+1 . ∂F ∂an+1 . ∂F 0.70
∂F controls weights of the policy gradient backpropagated from different opponents policies π−i. ∂F 異なる反対政策 π-i から逆転した政策勾配の重みを制御する。 0.73
and i against the opponent πj−i using gradient descent or ascent, which depends on the sign of そして、勾配降下または上昇を用いて相手 πj−i に対抗し、これは符号に依存する。
訳抜け防止モード: そして、勾配降下または上昇を用いて相手πj−iと対戦する。 意味するところは
0.67
∂an+1 For practical implement, we sample an opponent j according to the absolute values of then train π(cid:48) the jth entry of Joint Optimization. 実用的な実装では、相手 j を絶対値に従ってサンプリングし、合同最適化の j 番目のエントリである π(cid:48) を訓練する。 0.64
One issue worth our notice is that the update direction of Divrew will heavily rely on the initialization of π(cid:48) i(θ). 我々の注意に値する問題は、Divrew の更新方向が π(cid:48) i(θ) の初期化に大きく依存することである。 0.71
A bad initialization of θ will make the response diversity tell π(cid:48) i to update toward worse rewards. θ の悪い初期化により、応答の多様性は π(cid:48) i に悪い報酬に更新するように指示する。 0.65
Therefore, we propose to first optimize the first two items in the objective jointly and then optimize π(cid:48) i using Divrew. そこで,まず目的の2つの項目を協調して最適化し,次にdivrew を用いて π(cid:48) i を最適化する。 0.66
The final unified diverse response with gradient-based optimization is described in Algorithm 1. 勾配に基づく最適化による最終的な統一的な応答はアルゴリズム1で記述される。 0.63
In addition to the gradient-based optimization, we also provide other kinds of optimization oracles suitable for different games. 勾配に基づく最適化に加えて、異なるゲームに適した他の種類の最適化オラクルも提供する。 0.67
Pseudocodes can be found in Appendix G. Pseudocodes は Appendix G で見ることができる。 0.84
∂an+1 ∂an+1 ∂an+1 ∂an+1 0.47
∂F . 4.2 Evaluation Metrics ∂F . 4.2評価指標 0.78
Exploitability. Exploitability [15] measures the distance of a joint policy from the Nash equilibrium. 爆発性。 利用可能性[15]は、nash平衡からの共同政策の距離を測定する。 0.60
It shows how much each player gains by deviating to their best responses: 最善の反応を逸脱することで、各プレイヤーがどれだけ得ているかを示す。 0.56
Expl(π) = φi(π(cid:48) Expl(π) = φi(π(cid:48) 0.84
i, π−i) − φi(πi, π−i)) . i, π−i) − φi(πi, π−i) である。 0.75
(9) (max π(cid:48) (9) (max) π(cid:48) 0.84
i Therefore, the smaller exploitability means the joint policy is closer to the Nash equilibrium. 私は したがって、より小さな利用可能性とは、共同政策がナッシュ均衡に近いことを意味する。 0.54
6 N(cid:88) 6 n(cid:88) 0.81
i=1 i=1 0.59
英語(論文から抽出)日本語訳スコア
Population Effectivity. Note the limitation of exploitability is that it only measures how exploitable a single joint policy is. 人口有効性。 エクスプロイラビリティの限界は、単一のジョイントポリシーがどの程度悪用されているかだけを測定することである。
訳抜け防止モード: 人口有効性。 利用可能性の限界は 単一の共同政策がいかに悪用可能かを測定するだけである。
0.73
Therefore, to evaluate the effectiveness of a population, we first need to get an aggregated policy from a population, and we usually use the Nash aggregated policy output by PSRO. したがって、人口の有効性を評価するためには、まず人口から集約された政策を得る必要があり、通常はPSROが出力するナッシュ集約政策を使用する。 0.73
Since the Nash is computed over the meta game, which varies with the opponents, the aggregation may be sub-optimal and cannot be used to represent a population. ナッシュは対戦相手によって異なるメタゲーム上で計算されるため、アグリゲーションは最適ではない可能性があり、集団を表すのに使用できない。 0.68
Intuitively, the aggregation weights, and further, the evaluation of a population should not be determined by the population that a specific opponent holds. 直感的には、集団の重み付け、さらに、集団の評価は、特定の相手が保持する人口によって決定されるべきではない。 0.63
To address this issue, we propose a generalized opponent-free concept of exploitability called Population Effectivity (PE) by looking for the optimal aggregation in the worst cases: この問題に対処するため,我々は,最悪の場合に最適なアグリゲーションを求めることで,人口有効性(pe)と呼ばれる汎用的な攻撃的非利用概念を提案する。 0.58
PE({πk i }N PE({πk) i }N 0.84
k=1) = min π−i k=1 = min π−i 0.74
max 1(cid:62)α=1 αi≥0 max 1(cid:62)α=1 αi≥0 0.63
N(cid:88) k=1 n(cid:88) k=1 0.68
αkφi(πk i , π−i) . αkφi(πk) i, π−i)。 0.64
(10) PE is again a NE over a two-player zero-sum game, where the player owning the population optimizes towards an optimal aggregation denoted by α, while the opponent can search over the entire policy space. (10) peは再び2人のゼロサムゲーム上のneであり、プレイヤーはαで表される最適なアグリゲーションに向かって最適化し、対戦相手はポリシー空間全体を探索することができる。 0.78
Next, we offer a simple example to further illustrate the limitations of exploitability and superiority of PE. 次に、PEのエクスプロイラビリティと優越性の限界をさらに説明するための簡単な例を示す。 0.76
Example 1. Consider the matrix game Rock-Scissor-Paper, where φ1(π1, π2) = π(cid:62) φ2(π2, π1) = π(cid:62) 例1。 ここで φ1(π1, π2) = π(cid:62) φ2(π2, π1) = π(cid:62) を考える。 0.72
1 Aπ2 and , B = −A(cid:62). 1 Aπ2, , B = −A(cid:62。 0.81
Suppose 2 Bπ1, π1 ∈ R3, π2 ∈ R3, A = 仮定 2 Bπ1, π1 ∈ R3, π2 ∈ R3, A = 0.71
(cid:35) (cid:34) 1 (cid:35) (cid:34)1 0.79
(cid:35) (cid:34) 0 (cid:35) (cid:34) 0 0.81
(cid:34) 0 (cid:34) 0 (cid:35) (cid:34)0(cid:34)0(c id:35) 0.76
1 −1 −1 1 0 1 −1 0 1 −1 −1 1 0 1 −1 0 0.88
(cid:35) (cid:34) 0−1 (cid:35) (cid:34) 0−1 0.67
1 (cid:35) 1 (cid:35) 0.82
}, i.e. {Rock, Scissor, Paper} and }, i.e. Rock, Scissor, Paper と 0.77
. The nash aggregated joint . ナッシュ集約接合部 0.70
player 1 holds the population P1 = { プレイヤー1は人口P1 = { 0.75
0 1 }, i.e. 0 1 } である。 0.77
{Rock}. rock (複数形rocks) 0.42
Then the meta-game AP1×P2 = すると、メタゲーム ap1×p2 = 0.52
0 0 1 0 , , 0 0 1 0 , , 0.85
(cid:34) 1 (cid:35) (cid:34)1 (cid:35) 0.79
0 0 P2 = { 0 0 P2 = { 0.90
(cid:34) 0 (cid:34) 0 0.84
(cid:35) (cid:34) 1 (cid:35) (cid:34)1 0.79
(cid:35) 0 1 (cid:35) 0 1 0.82
, 0 0 policy (π1, π2) = ( , 0 0 policy (π1, π2) = ( 0.89
). Now we can compute Expl((π1, π2)) as: ). 現在 Expl((π1, π2)) を次のように計算できる。 0.77
Expl((π1, π2)) = max Expl((π1, π2)) = max 1.00
π(cid:48) 1 π(cid:48) 1 0.85
= max π(cid:48) =マックス π(cid:48) 0.76
1 φ1(π(cid:48) φ1(π(cid:48) 1 φ1(π(cid:48) φ1(π(cid:48) 0.83
1, π2) − φ1(π1, π2) + max π(cid:48) 1, π2) − φ1(π1, π2) + max π(cid:48) 0.88
2 φ2(π(cid:48) 2 φ2(π(cid:48) 0.84
2, π1) − φ2(π2, π1) 2, π1) − φ2(π2, π1) 0.88
1, π2) + max 1, π2) + max 0.97
π(cid:48) 2 π(cid:48) 2 0.85
φ2(π(cid:48) φ2(π(cid:48) 0.82
2, π1) = 2. 2, π1) = 2. 0.96
(11) (12) Now notice that the contribution of player 1 to the exploitability is maxπ(cid:48) 2, π1), which equals 1. (11) (12) ここで、プレイヤー1のエクスプロイザビリティへの貢献はmaxπ(cid:48) 2, π1であり、これは1と等しいことに気付く。 0.80
However, it is not reasonable that player 1 and 2 have the same contribution to the exploitability since player 1 has a perfect diverse policy set. しかし、プレイヤー1とプレイヤー2が、プレイヤー1が完璧に多様なポリシーセットを持っているため、エクスプロイラビリティに同じ貢献をするかどうかは妥当ではない。 0.64
Instead, if we use PE as the metric: 代わりに、計量としてPEを使う場合: 0.84
2 φ2(π(cid:48) 2 φ2(π(cid:48) 0.84
PE(P1) = 0 , PE(P1) = 0 , 0.96
(13) which justifies that player 1 has already found a perfect population. (13) プレイヤー1が 完璧な人口を 見つけたことを正当化します 0.73
In the following theorem, we show that PE is a generalized notion of exploitability under certain conditions and has some desirable properties: Theorem 3. 次の定理では、PEが特定の条件下でのエクスプロイザビリティの一般化された概念であり、いくつかの望ましい性質を持つことを示す。 0.65
Population effectivity has the following properties: P1. 集団効果は以下の性質を持つ: P1。 0.73
Equivalence: If N = 1 and the underlying game φi(·,·) is a symmetric two-player zero-sum game, PE is equivalent to exploitability. 等価性: N = 1 で、基礎となるゲーム φi(·,·) が対称二プレーヤゼロサムゲームであれば、PE は悪用可能性と同値である。 0.71
P2. Monotonicity: If there are two populations Pi, Qi and Pi ⊆ Qi, then PE(Pi) ≤ PE(Qi), while the relationship for exploitability of the Nash aggregated policies of Pi and Qi may or may not hold. P2。 単調性: Pi と Qi と ≤ PE(Qi) の2つの集団が存在するならば、PE(Pi) ≤ PE(Qi) であり、一方、Nash の p と Qi の集約されたポリシーの活用性の関係は保たれるかもしれないし、保たないかもしれない。
訳抜け防止モード: P2。 単調性 : Pi と Qi と Pi の2つの集団が存在する場合 Qi, then PE(Pi ) ≤ PE(Qi ) while Pi と Qi の Nash 集約されたポリシーの活用性に関する関係は保留するかもしれないし、保留しないかもしれない。
0.80
P3. Tractability: If the underlying game φi(·,·) is a matrix game, then computing PE is still solving a matrix game. P3。 トラクトビリティ: 基礎となるゲーム φi(·,·) が行列ゲームであれば、計算 PE は依然として行列ゲームを解決する。 0.76
Proof. See Appendix A.3. 証明。 Appendix A.3を参照。 0.61
7 7 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: (a):Exploitability vs. training iterations (the number of times the optimization oracle is called) on the AlphaStar game. 図1: (a):alphastarゲームにおけるexploitability vs. training iterations(oracleが呼ばれる最適化回数)。 0.72
(b): Negative Population Effectivity vs. training iterations on the AlphaStar game. (b):alphastarゲームにおける負の人口効果とトレーニングの反復。 0.84
Ablation studies of P-PSRO only with BD or RD are also reported. また, P-PSROとBD, RDのみのアブレーション研究も報告した。 0.64
(a) (b) Figure 2: Exploration trajectories during training process on Non-Transitive Mixture Games. (a) (b) 図2:非推移混合ゲームにおけるトレーニング過程における探索軌道 0.84
5 Experiments To verify that our diversity-regularize d best response algorithm can induce a diverse and less exploitable population, we compare our methods with state-of-the-art game solvers including Selfplay [11], PSRO [15], PSROrN [2], Pipeline-PSRO (P-PSRO) [20], DPP-PSRO [23]. 5 実験 多様性に適応した最適応答アルゴリズムは,多様で利用し難い集団を誘導できることを示すため,本手法をセルフプレイ[11],PSRO[15],PSROrN [2],Pipeline-PSRO(P-PSR O)[20],DPP-PSRO[23]を含む最先端のゲームソルバと比較した。 0.80
In this section, we want to demonstrate the effectiveness of our method to tackle the non-transitivity of zero-sum games, which can be shown via higher PE, lower exploitability, and diverse behaviors. 本稿では,高pe,低利用性,多種多様な行動によって示されるゼロサムゲームにおける非推移性に取り組む手法の有効性を実証する。 0.60
Beyond the simple games, we also have the results on the complex Google Research Football game, and our methods can still work. 単純なゲーム以外にも、google researchの複雑なフットボールゲームの結果も得られています。
訳抜け防止モード: 単純なゲームを超えて また、google researchの複雑なフットボールの試合の結果もある。 我々の手法は機能し続けます
0.75
In all the following experiments, we choose the appropriate diversity weights λ1 and λ2 by extensive hyper-parameter tuning. 以下の実験では、広範囲なハイパーパラメータチューニングにより、適切な多様性重量 λ1 と λ2 を選択する。 0.66
We also conduct ablation study by choosing different λ1 and λ2 in Appendix F. The environment details are in Appendix D, and the hyper-parameter settings for each experiment are in Appendix E.3. また,虫垂fにおいて異なるλ1とλ2を選択してアブレーション研究を行い,環境詳細は虫垂dで,各実験のハイパーパラメータ設定は虫垂e.3で行った。
訳抜け防止モード: また、Appendix F において、λ1 と λ2 の異なる値を選択することでアブレーション研究を行う。 環境の詳細はAppendix D, そして、各実験のハイパーパラメータ設定は、Appendix E.3にある。
0.68
Real-World Games. [4] studies the properties of some complex real-world games, including AlphaStar and AlphaGO. 現実世界のゲーム。 4]AlphaStarやAlphaGOなど、複雑な現実世界のゲームの性質を研究する。 0.68
We test our method on the empirical games generated through the process of solving these real-world games. 本手法は,実世界のゲーム解決過程を通じて生成した経験的ゲームを用いて検証する。 0.68
In Figure 1a, we report the exploitabilities of different algorithms during solving the AlphaStar game, which contains the meta-payoffs for 888 RL policies. In Figure 1a, we report the exploitabilities of different algorithm during solve the AlphaStar game which includes the meta-payoffs for 888 RL Policy。 0.87
We report values of exploitability and PE during the growth of the population in Figure 1a and Figure 1b. 図1aと図1bの人口増加に伴う利用性とPEの値について報告する。 0.75
The result shows that with our unified diversity regularizer, our methods achieve the smallest exploitability and largest population effectivity, while most baselines fail to recover the diverse strategies and are easily exploited. その結果,本手法は統一型多様性正規化器では最小の攻撃性と最大集団効果を達成できるが,ほとんどのベースラインは多様な戦略の回復に失敗し,容易に活用できることがわかった。 0.64
Non-Transitive Mixture Games. This zero-sum two-player game consists of 2l+1 equally-distanced Gaussian humps on the 2D plane. 非推移混合ゲーム。 このゼロサム2プレイヤーゲームは、2D平面上の2l+1等距離ガウスハンプからなる。 0.66
Each player chooses a point in the 2D plane, which will be translated into a (2l + 1)-dimensional vector πi with each coordinate being the density in the corresponding i Sπ−i + 1(cid:62)(πi − π−i). 各プレイヤーは、対応する i Sπ−i + 1(cid:62)(πi − π−i) の密度である (2l + 1)-次元ベクトル πi に変換される 2D 平面上の点を選択する。 0.85
Gaussian distribution. The payoff of the game is given by:φi(πi, π−i) = π(cid:62) According to the delicately designed S, this game involves both the transitive component and nontransitive component, which means the optimal strategy should stay close to the center of the Gaussian and explore all the Gaussian distributions equally. ガウス分布。 φi(πi, π−i) = π(cid:62) 繊細に設計された S によれば、このゲームは推移成分と非推移成分の両方を含む。
訳抜け防止モード: ガウス分布。 ゲームのペイオフは、 φi(πi, π−i ) = π(cid:62 ) によって与えられる。 このゲームには 推移成分と非推移成分の両方が含まれます 最適な戦略は ガウシアンの中心に近づき ガウシアン分布を均等に探索するべきだ
0.64
We firstly visualize the exploration trajectories during different algorithms solving the game in Figure 2. まず、異なるアルゴリズムによる探索の軌跡を図2で視覚化する。 0.69
It shows that the best response algorithm regularized by both BD and RD achieves the most diverse trajectories. BDとRDの両方で正規化された最良の応答アルゴリズムは、最も多様な軌道を達成している。 0.62
Although our algorithm finds the most diverse trajectories, such superiority is not revealed by the metric of exploitability in the last row of Table 2. 提案アルゴリズムは最も多様な軌跡を探索するが,表2の最後の行の操作性の測定値からは,そのような優位性は明らかでない。 0.68
On the other hand, we also report the PE values for the final population generated by different algorithms in Table 2. 一方、表2では、異なるアルゴリズムで生成された最終集団のPE値についても報告する。 0.70
It can found that our unified diversity regularizer can always help PSRO dominate other baselines in terms of 統一多様性正規化器はPSROが他のベースラインを支配するのに常に役立ちます。 0.64
8        %7,33907,9438  549,-95,$9,7!$# ! 8        %7,33907,9438  549,-95,$9,7!$# ! 0.74
!$# !$# 7$01 5,!! !$# !$# 7$01 5,!! 0.98
!$# ! !$#  #! !$# ! !$#  #! 0.85
!$#  ! !$#  ! 0.85
!$#   #        %7,33907,9438   0,9;0!45:,943110.9;95,$9,7!$# ! !$#   #        %7,33907,9438   0,9;0!45:,943110.9;95,$9,7!$# ! 0.68
!$# !$# 7$01 5,!! !$# !$# 7$01 5,!! 0.98
!$# ! !$#  #! !$# ! !$#  #! 0.85
!$#  ! !$#  ! 0.85
!$#   #PSROPSRO-rNP-PSRODPP -PSROP-PSRO w. RDP-PSRO w. BDP-PSRO w. BD&RD RDP-PSRO w. BDP-PSRO w. BD&RD 0.61
英語(論文から抽出)日本語訳スコア
Table 2: PE×102 for populations generated by different methods when encountering opponents with varying strength on Non-transitive Mixture Games. 表2:PE×102 非推移混合ゲームにおいて、異なる強度の相手に遭遇する際の異なる方法により生成される集団に対するPE×102。
訳抜け防止モード: 表2 : PE×102 : 異なる方法による集団の生成 非推移混合ゲームで様々な強さを持つ対戦相手。
0.77
The OS (Opponent Strength) associated with the PE represents the strength of the opponent during the process of using PSRO to solve it. PEに関連するOS(オッポン強度)は、PSROを用いて解決する過程で相手の強度を表す。 0.68
More details can be found in Appendix B. 詳細はAppendix Bで確認できる。 0.62
We also report the Exploitability×102 for each population in last row. また,全人口に対する利用率×102についても報告した。 0.54
PSRO −2.11 ± 0.13 PSRO −2.11 ± 0.13 0.59
PE(OS) PSROrN 40.19 ± 0.10 −2.11 ± 0.14 PE(5) PE(10) −13.18 ± 0.28 −13.18 ± 0.28 29.05 + 0.21 PE(15) −31.17 ± 0.37 −31.17 ± 0.37 10.97 ± 0.29 −7.03 ± 0.21 PE(20) −49.12 ± 0.23 −49.12 ± 0.24 PE(25) −54.59 ± 0.02 −54.59 ± 0.01 −12.51 ± 0.05 −12.28 ± 0.04 −12.42 ± 0.03 −12.58 ± 0.02 41.132 ± 1.06 Expl PE(OS) PSROrN 40.19 ± 0.10 −2.11 ± 0.14 PE(5) PE(10) −13.18 ± 0.28 −13.18 ± 0.28 29.05 + 0.21 PE(15) −31.17 ± 0.37 −31.17 ± 0.37 10.97 ± 0.29 −7.03 ± 0.21 PE(20) −49.12 ± 0.23 −49.12 ± 0.24 PE(25) −54.59 ± 0.02 −54.59 ± 0.01 −12.51 ± 0.05 −12.28 ± 0.04 −12.42 ± 0.03 −12.58 ± 0.02 41.132 ± 1.06 Expl 0.57
DPP-PSRO P-PSRO w. RD P-PSRO w. BD P-PSRO w. BD&RD 40.49 ± 0.07 40.54 ± 0.12 29.63 ± 0.26 29.45 ± 0.13 11.57 ± 0.33 11.49 ± 0.21 −6.41 ± 0.10 −6.37 ± 0.24 −12.18 ± 0.04 13.26 ± 0.24 DPP-PSRO P-PSRO w. RD P-PSRO w. BD P-PSRO w. BD&RD 40.49 ± 0.07 40.54 ± 0.12 29.63 ± 0.26 29.45 ± 0.13 11.57 ± 0.33 11.49 ± 0.21 −6.41 ± 0.10 −6.37 ± 0.24 −12.18 ± 0.04 13.26 ± 0.24 0.52
P-PSRO 40.20 ± 0.09 29.14 ± 0.19 11.03 ± 0.26 −6.78 ± 0.14 P-PSRO 40.20 ± 0.09 29.14 ± 0.19 11.03 ± 0.26 −6.78 ± 0.14 0.50
40.42 ± 0.08 29.55 + 0.13 11.63 ± 0.15 −6.52 ± 0.10 40.42 ± 0.08 29.55 + 0.13 11.63 ± 0.15 −6.52 ± 0.10 0.51
54.66 ± 0.06 54.66 ± 0.06 0.59
54.90 ± 0.10 54.90 ± 0.10 0.59
13.21 ± 0.29 13.21 ± 0.29 0.59
13.24 ± 0.33 13.24 ± 0.33 0.59
13.77 ± 0.40 13.77 ± 0.40 0.59
Figure 3: The average goal difference between all the methods and the built-in bots with various difficulty levels θ (θ ∈ [0, 1] and larger θ means harder bot) on Google Research Football. 図3: google research footballのすべてのメソッドと、さまざまな難易度レベル θ(θ ∈ [0, 1] およびより大きな θ は難しいボットを意味する)のビルトインボットの平均目標差。 0.78
population effectivity, which also justifies why PE is a better metric to evaluate diverse populations. 人口効果は、PEが多様な人口を評価するのにより良い指標である理由を正当化する。
訳抜け防止モード: 人口効果は PEは多様な人口を評価するためのより良い指標である。
0.69
The details of computing approximate PE using PSRO can be found in Appendix B. Google Research Football. PSROを用いた近似PEの計算の詳細は、Appendix B. Google Research Footballで見ることができる。 0.71
In addition to the experiments on relatively simple games, we also evaluate our methods on a challenging real-world game named Google Research Football (GRF) [14]. 比較的単純なゲームに関する実験に加えて、google research football(grf)[14]という、挑戦的な実世界のゲームの方法も評価しました。 0.77
GRF simulates a complete football game under standard rules with 11 players on each team, and a normal match lasts for 3000 steps. GRFは、各チームで11人のプレーヤーと標準ルールの下で完全なフットボールの試合をシミュレートし、通常の試合は3000歩まで続く。 0.73
The enormous exploration spaces, the long-time horizon, and the sparse rewards problems in this game make it a challenging environment for modern reinforcement learning algorithms. このゲームの巨大な探索空間、長期の地平線、まばらな報酬問題により、現代の強化学習アルゴリズムにとって困難な環境となっている。 0.72
In such complex scenarios, the exploitability of a certain policy or PE of a certain population would be hard to calculate because both metrics involve a max or min operator, and the approximate best response can be quite inaccurate for this complex game. このような複雑なシナリオでは、ある集団の特定のポリシーやPEの悪用性は、両方の指標が最大演算子または最小演算子を含むため、計算が困難であり、この複雑なゲームでは、近似最良の応答は極めて不正確である。 0.71
Since our goal is to find robust policies with strong capabilities in real-world games, we compare the average goal differences between the aggregated policies of different methods and the built-in bots with various difficulty levels of GRF. 我々のゴールは、現実世界のゲームで強力な機能を持つ堅牢なポリシーを見つけることであるので、異なるメソッドの集約されたポリシーと組込みボットの平均的な目標差を、さまざまな難易度で比較する。 0.65
The models within each aggregated policies are trained for 300000 steps under the generalized framework of Self-play [11] by selecting opponents according to the probabilities output by different methods. 各アグリゲートポリシー内のモデルは、異なる方法で出力される確率に応じて相手を選択することにより、セルフプレイ[11]の一般化された枠組みの下で30万ステップで訓練される。 0.59
As depicted in Figure 3, policies trained by PSRO with both BD and RD achieve the largest goal differences when playing against the built-in bots. 図3に示すように、PSROがBDとRDでトレーニングしたポリシーは、内蔵ボットと対戦する際の最大の目標差を達成している。 0.61
Moreover, they have an average of 60% win-rate over other baseline methods (see the table in the Appendix C). さらに、他のベースラインメソッドと比較して平均60%のwin-rateを持つ(付録cの表を参照)。 0.76
We do not report the results of DPP-PSRO since it needs evolutionary updates and cannot scale to such a complex setting. DPP-PSROは進化的更新が必要であり、そのような複雑な設定にはスケールできないため、結果を報告しない。
訳抜け防止モード: DPP-PSROの結果は報告していない。 進化的な更新が必要で 複雑な環境にスケールできないのです
0.76
We also abandon the pipeline trick for ease of implement since it does not affect the relative performance among algorithms. また、アルゴリズム間の相対的なパフォーマンスに影響しないため、実装の容易さのためにパイプラインのトリックを放棄します。 0.57
Additionally, the discussion of robustness of policies trained with different methods, the network architectures, the hyperparameters, and other detailed experimental setups can also be found in Appendix C. さらに、異なるメソッド、ネットワークアーキテクチャ、ハイパーパラメータ、その他の詳細な実験的設定で訓練されたポリシーの堅牢性に関する議論もAppendix Cで見ることができる。 0.71
6 Conclusions This paper investigated a new perspective on unifying diversity measures for open-ended learning in zero-sum games, which shapes an auto-curriculum to induce diverse yet effective behaviors. 6結論 本論文は,ゼロサムゲームにおけるオープンエンド学習のための多様性尺度の統一に関する新しい視点について検討した。 0.65
To this end, we decomposed the similarity measure of MDPs into behavioral and response diversity and showed the most of the existing diversity measures for RL can be concluded into one of the categories of them. そこで我々は,MDPの類似度尺度を行動多様性と応答多様性に分解し,既存のRLの多様性尺度をそのカテゴリの1つにまとめることができた。 0.77
We also provided the corresponding diversity-promoting objective and optimization methods, which consist of occupancy measure mismatching and convex hull enlargement. また,不整合および凸部拡大の占有度を測る多様性促進目標と最適化手法も提案した。 0.77
Finally, we proposed population effectivity to overcome the limitation of exploitability in measuring diverse policies for open-ended algorithms. 最後に,オープンエンドアルゴリズムの多種多様なポリシーの測定において,エクスプロイラビリティの限界を克服する集団効果について提案した。 0.63
Experimental results demonstrated our method is robust to both highly non-transitive games and complex games like the Google Research Football environment. 実験結果から,本手法は高度に非推移的なゲームとgoogle research football environmentのような複雑なゲームの両方に頑健であることが判明した。 0.58
9 Self-playPSROPSRO-rN 0.250.000.250.500.75 1.001.251.50Avg Goal Difference: 0.6: 0.7: 0.8: 0.9: 1.0PSRO w. BDPSRO w. RDPSRO w. BD&RD 9 0.6: 0.7: 0.8: 0.9: 1.0PSRO w. BDPSRO w. RDPSRO w. RDPSRO w. BD&RD 0.76
英語(論文から抽出)日本語訳スコア
Acknowledgments This work is supported by Shanghai Sailing Program (21YF1421900). 承認 この事業は上海・サイリング・プログラム(21YF1421900)が支援している。 0.55
The authors thank Minghuan Liu for many helpful discussions and suggestions. 著者たちはMinghuan Liu氏に多くの有益な議論と提案を感謝している。 0.55
References [1] Tucker Balch. 参考文献 [1]タッカー・バルチ。 0.57
Behavioral diversity in learning robot teams. 学習ロボットチームにおける行動多様性 0.77
Technical report, Georgia Institute ジョージア研究所技術報告 0.67
of Technology, 1998. 1998年のテクノロジー誌です 0.78
[2] David Balduzzi, Marta Garnelo, Yoram Bachrach, Wojciech Czarnecki, Julien Perolat, Max Jaderberg, and Thore Graepel. [2] David Balduzzi, Marta Garnelo, Yoram Bachrach, Wojciech Czarnecki, Julien Perolat, Max Jaderberg, Thore Graepel 0.74
Open-ended learning in symmetric zero-sum games. 対称ゼロサムゲームにおけるオープンエンド学習 0.70
In International Conference on Machine Learning, pages 434–443. 機械学習に関する国際会議、434-443頁。 0.79
PMLR, 2019. 2019年、PMLR。 0.72
[3] Kiante Brantley, Wen Sun, and Mikael Henaff. Kiante Brantley氏、Wen Sun氏、Mikael Henaff氏。 0.56
Disagreement-regular ized imitation learning. 不一致正規化模倣学習。 0.43
In International Conference on Learning Representations, 2019. 院 International Conference on Learning Representations, 2019参加。 0.65
[4] Wojciech Marian Czarnecki, Gauthier Gidel, Brendan Tracey, Karl Tuyls, Shayegan Omidshafiei, David Balduzzi, and Max Jaderberg. Wojciech Marian Czarnecki, Gauthier Gidel, Brendan Tracey, Karl Tuyls, Shayegan Omidshafiei, David Balduzzi, Max Jaderberg。 0.66
Real world games look like spinning tops. 現実世界のゲームは回転するトップに見えます。 0.60
arXiv preprint arXiv:2004.09468, 2020. arXiv preprint arXiv:2004.09468, 2020 0.81
[5] Le Cong Dinh, Yaodong Yang, Zheng Tian, Nicolas Perez Nieves, Oliver Slumbers, David Henry arXiv preprint [5]Le Cong Dinh,Yaodong Yang,Zheng Tian,Nicolas Perez Nieves,Oliver Slumbers,David Henry arXiv
訳抜け防止モード: [5]Le Cong Dinh,Yaodong Yang,Zheng Tian, Nicolas Perez Nieves , Oliver Slumbers , David Henry arXiv プレプリント
0.83
Mguni, Haitham Bou Ammar, and Jun Wang. Mguni, Haitham Bou Ammar, Jun Wang 0.59
Online double oracle. オンラインダブルオラクル。 0.76
arXiv:2103.07780, 2021. arXiv:2103.07780, 2021。 0.64
[6] Mohamed Elfeki, Camille Couprie, Morgane Riviere, and Mohamed Elhoseiny. 6]Mohamed Elfeki、Camille Couprie、Morgane Riviere、Mohamed Elhoseiny。 0.57
Gdpp: Learning In International Conference on gdpp:国際会議における学習 0.83
diverse generations using determinantal point processes. 決定点プロセスを用いた多様な世代。 0.68
Machine Learning, pages 1774–1783. 機械学習』1774-1783頁。 0.72
PMLR, 2019. 2019年、PMLR。 0.72
[7] Benjamin Eysenbach, Abhishek Gupta, Julian Ibarz, and Sergey Levine. 5]Benjamin Eysenbach、Abhishek Gupta、Julian Ibarz、Sergey Levine。 0.61
Diversity is all you need: Learning skills without a reward function. 多様性は君次第だ ニーズ:報酬機能のないスキルを学ぶこと。 0.65
arXiv preprint arXiv:1802.06070, 2018. arXiv preprint arXiv:1802.06070, 2018 0.80
[8] Norm Ferns, Prakash Panangaden, and Doina Precup. Norm Ferns, Prakash Panangaden, Doina Precup. [8] Norm Ferns, Prakash Panangaden, Doina Precup. 0.64
Bisimulation metrics for continuous 連続体のバイシミュレーション指標 0.49
markov decision processes. マルコフの決定プロセス 0.64
SIAM Journal on Computing, 40(6):1662–1714, 2011. SIAM Journal on Computing, 40(6):1662–1714, 2011 0.84
[9] Justin Fu, Katie Luo, and Sergey Levine. 9]Justin Fu、Katie Luo、Sergey Levine。 0.51
Learning robust rewards with adversarial inverse 逆数逆数による頑健な報酬の学習 0.63
reinforcement learning. arXiv preprint arXiv:1710.11248, 2017. 強化学習。 arXiv preprint arXiv:1710.11248, 2017 0.74
[10] Seyed Kamyar Seyed Ghasemipour, Richard Zemel, and Shixiang Gu. [10]Seyed Kamyar Seyed Ghasemipour, Richard Zemel, Shixiang Gu。 0.71
A divergence minimization perspective on imitation learning methods. 模倣学習法における発散最小化の視点 0.74
In Conference on Robot Learning, pages 1259–1277. ロボット学習会議』1259-1277頁。 0.65
PMLR, 2020. PMLR、2020年。 0.88
[11] Daniel Hernandez, Kevin Denamganaï, Yuan Gao, Peter York, Sam Devlin, Spyridon Samothrakis, and James Alfred Walker. 11]ダニエル・エルナンデス、ケビン・デナムガナ、タン・ガオ、ピーター・ヨーク、サム・デヴリン、スパイリドン・サモスラキス、ジェームズ・アルフレッド・ウォーカー
訳抜け防止モード: [11 ]Daniel Hernandez, Kevin Denamgana', Yuan Gao, ピーター・ヨーク、サム・デヴリン、スピリドン・サモトラキス、ジェームズ・アルフレッド・ウォーカー。
0.69
A generalized framework for self-play training. 自己プレイトレーニングのための一般化されたフレームワーク。 0.48
In 2019 IEEE Conference on Games (CoG), pages 1–8. 2019年、ieee conference on games (cog) 1-8ページ。 0.74
IEEE, 2019. 2019年、IEEE。 0.67
[12] Jonathan Ho and Stefano Ermon. 12]ジョナサン・ホーとステファノ・エルモン 0.55
Generative adversarial imitation learning. 生成的敵対的模倣学習 0.72
arXiv preprint arXiv プレプリント 0.83
arXiv:1606.03476, 2016. arXiv:1606.03476, 2016 0.70
[13] Alex Kulesza and Ben Taskar. Alex Kulesza氏とBen Taskar氏。 0.66
Determinantal point processes for machine learning. 機械学習のための決定点プロセス。 0.77
arXiv preprint arXiv:1207.6083, 2012. arXiv arXiv:1207.6083, 2012 0.80
[14] Karol Kurach, Anton Raichuk, Piotr Sta´nczyk, Michał Zaj ˛ac, Olivier Bachem, Lasse Espeholt, Carlos Riquelme, Damien Vincent, Marcin Michalski, Olivier Bousquet, et al Google research football: A novel reinforcement learning environment. Kaol Kurach, Anton Raichuk, Piotr Sta ́nczyk, Michał Zaj sac, Olivier Bachem, Lasse Espeholt, Carlos Riquelme, Damien Vincent, Marcin Michalski, Olivier Bousquet, et al Google Research Football: A novel reinforcement learning environment. 0.79
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 4501–4510, 2020. The Proceedings of the AAAI Conference on Artificial Intelligence, Volume 34, page 4501–4510, 2020 0.83
[15] Marc Lanctot, Vinicius Zambaldi, Audrunas Gruslys, Angeliki Lazaridou, Karl Tuyls, Julien Pérolat, David Silver, and Thore Graepel. Marc Lanctot, Vinicius Zambaldi, Audrunas Gruslys, Angeliki Lazaridou, Karl Tuyls, Julien Pérolat, David Silver, Thore Graepel。
訳抜け防止モード: [15 ]Marc Lanctot, Vinicius Zambaldi, Audrunas Gruslys, Angeliki Lazaridou, Karl Tuyls, Julien Pérolat, David Silver とTore Graepelは言う。
0.81
A unified game-theoretic approach to multiagent reinforcement learning. マルチエージェント強化学習へのゲーム理論の統一的アプローチ 0.70
arXiv preprint arXiv:1711.00832, 2017. arXiv preprint arXiv:1711.00832, 2017 0.80
[16] P. Langley. 16] P. Langley. 0.82
Crafting papers on machine learning. 機械学習に関する論文の制作。 0.74
In Pat Langley, editor, Proceedings of the 17th International Conference on Machine Learning (ICML 2000), pages 1207–1216, Stanford, CA, 2000. Pat Langley, editor, Proceedings of the 17th International Conference on Machine Learning (ICML 2000), page 1207–1216, Stanford, CA, 2000。 0.84
Morgan Kaufmann. モーガン・カウフマン。 0.50
[17] Michael L Littman. マイケル・リットマン(Michael L Littman)。 0.64
Markov games as a framework for multi-agent reinforcement learning. マルチエージェント強化学習のフレームワークとしてのマルコフゲーム 0.73
In Machine learning proceedings 1994, pages 157–163. 院 1994年、157-163頁。 0.45
Elsevier, 1994. 1994年、エルゼヴィエ。 0.60
[18] Minghuan Liu, Tairan He, Minkai Xu, and Weinan Zhang. 18]ミンフアン・リウ、平人・平人・新羅民海・張文 0.38
Energy-based imitation learning. エネルギーに基づく模倣学習。 0.68
arXiv preprint arXiv:2004.09395, 2020. arXiv preprint arXiv:2004.09395, 2020 0.81
10 10 0.85
英語(論文から抽出)日本語訳スコア
[19] Muhammad A Masood and Finale Doshi-Velez. [19]Muhammad A Masood and Finale Doshi-Velez 0.85
Diversity-inducing policy gradient: Using maximum mean discrepancy to find a set of diverse policies. 多様性を誘導するポリシー勾配: 最大の平均誤差を使用して、さまざまなポリシーを見つける。 0.65
arXiv preprint arXiv:1906.00088, 2019. arXiv preprint arXiv:1906.00088, 2019 0.81
[20] Stephen McAleer, John Lanier, Roy Fox, and Pierre Baldi. スティーブン・マカレアー、ジョン・ラニエ、ロイ・フォックス、ピエール・バルディ。 0.46
Pipeline psro: A scalable approach for finding approximate nash equilibria in large games. pipeline psro: 大きなゲームで近似ナッシュ平衡を見つけるためのスケーラブルなアプローチ。 0.74
arXiv preprint arXiv:2006.08555, 2020. arXiv preprint arXiv:2006.08555, 2020 0.81
[21] Kevin R McKee, Joel Z Leibo, Charlie Beattie, and Richard Everett. Kevin R McKee氏、Joel Z Leibo氏、Charlie Beattie氏、Richard Everett氏。 0.69
Quantifying environment and population diversity in multi-agent reinforcement learning. 多エージェント強化学習における環境と人口多様性の定量化 0.69
arXiv preprint arXiv:2102.08370, 2021. arXiv preprint arXiv:2102.08370, 2021 0.81
[22] H Brendan McMahan, Geoffrey J Gordon, and Avrim Blum. H Brendan McMahan氏、Geoffrey J Gordon氏、Avrim Blum氏。 0.58
Planning in the presence of cost functions controlled by an adversary. 敵対者によって制御されるコスト関数の存在下での計画。 0.68
In Proceedings of the 20th International Conference on Machine Learning (ICML-03), pages 536–543, 2003. 第20回In Proceedings of the 20th International Conference on Machine Learning (ICML-03, 536–543, 2003)。 0.77
[23] Nicolas Perez Nieves, Yaodong Yang, Oliver Slumbers, David Henry Mguni, and Jun Wang. 23]Nicolas Perez Nieves, Yaodong Yang, Oliver Slumbers, David Henry Mguni, Jun Wang。 0.71
Modelling behavioural diversity for learning in open-ended games. オープンエンドゲームにおける学習行動の多様性をモデル化する。 0.60
arXiv preprint arXiv:2103.07927, 2021. arXiv preprint arXiv:2103.07927, 2021 0.80
[24] OpenAI. [24] OpenAI。 0.78
Openai five. https://blog.openai. com/openai-five/, 2018. 第5回オープン。 https://blog.openai. com/openai-five/, 2018 0.52
[25] Aldo Pacchiano, Jack Parker-Holder, Krzysztof Marcin Choromanski, and Stephen Roberts. Aldo Pacchiano氏、Jack Parker-Holder氏、Krzysztof Marcin Choromanski氏、Stephen Roberts氏。 0.77
Effective diversity in population-based reinforcement learning. 人口ベース強化学習における効果的な多様性 0.62
2020. [26] Jack Parker-Holder, Aldo Pacchiano, Krzysztof Choromanski, and Stephen Roberts. 2020. 26]jack parker-holder、aldo pacchiano、krzysztof choromanski、stephen roberts。 0.68
Effective diversity in population-based reinforcement learning. 人口ベース強化学習における効果的な多様性 0.62
arXiv preprint arXiv:2002.00632, 2020. arXiv preprint arXiv:2002.00632, 2020 0.81
[27] Peng Peng, Ying Wen, Quan Yuan, Yaodong Yang, Zhenkun Tang, Haitao Long, and Jun Wang. [27]Peng Peng, Ying Wen, Quan Yuan, Yaodong Yang, Zhenkun Tang, Haitao Long, Jun Wang 0.68
Multiagent bidirectionally-coor dinated nets for learning to play starcraft combat games. マルチエージェント双方向コーディネートネットは、スタークラフト戦闘ゲームを学べる。 0.66
arXiv preprint arXiv:1703.10069, 2:2, 2017. arXiv preprint arXiv:1703.10069, 2:2, 2017 0.73
[28] Umar Syed, Michael Bowling, and Robert E Schapire. Umar Syed氏、Michael Bowling氏、Robert E Schapire氏。 0.60
Apprenticeship learning using linear programming. 線形プログラミングを用いた適応学習 0.74
In Proceedings of the 25th international conference on Machine learning, pages 1032–1039, 2008. 第25回機械学習国際会議(international conference on machine learning)2008年1032-1039頁。 0.70
[29] Oriol Vinyals, Igor Babuschkin, Wojciech M Czarnecki, Michaël Mathieu, Andrew Dudzik, Junyoung Chung, David H Choi, Richard Powell, Timo Ewalds, Petko Georgiev, et al Grandmaster level in starcraft ii using multi-agent reinforcement learning. Oriol Vinyals, Igor Babuschkin, Wojciech M Czarnecki, Michaël Mathieu, Andrew Dudzik, Junyoung Chung, David H Choi, Richard Powell, Timo Ewalds, Petko Georgiev, et al Grandmaster level in starcraft ii using multi-agent reinforcement learning。 0.79
Nature, 575(7782):350–354, 2019. 自然誌 575(7782):350-354, 2019。 0.79
[30] Ruohan Wang, Carlo Ciliberto, Pierluigi Vito Amadori, and Yiannis Demiris. 30]ruohan wang、carlo ciliberto、pierluigi vito amadori、yiannis demiris。 0.49
Random expert distillation: Imitation learning via expert policy support estimation. ランダムエキスパート蒸留:専門家政策支援推定による模倣学習。 0.77
In International Conference on Machine Learning, pages 6536–6544. 機械学習に関する国際会議6536-6544頁。 0.71
PMLR, 2019. 2019年、PMLR。 0.72
[31] Zhe Wu, Kai Li, Enmin Zhao, Hang Xu, Meng Zhang, Haobo Fu, Bo An, and Junliang Xing. [31]周武・開理・円民周・黄周・明張・法房府・法安・順梁清
訳抜け防止モード: [31]周武、開理、円民周、 Hang Xu, Meng Zhang, Haobo Fu, Bo An そして、Junliang Xing。
0.71
L2e: Learning to exploit your opponent. l2e: 相手を搾取することを学ぶこと。 0.58
arXiv preprint arXiv:2102.09381, 2021. arXiv preprint arXiv:2102.09381, 2021 0.81
[32] Pengtao Xie, Jun Zhu, and Eric Xing. [32]Pengtao Xie、Jun Zhu、Eric Xing。 0.63
Diversity-promoting bayesian learning of latent variable 潜在変数の多様性促進ベイズ学習 0.75
models. In International Conference on Machine Learning, pages 59–68. モデル。 機械学習に関する国際会議』59-68頁。 0.76
PMLR, 2016. 2016年、PMLR。 0.69
[33] Yaodong Yang, Jun Luo, Ying Wen, Oliver Slumbers, Daniel Graves, Haitham Bou Ammar, Jun Wang, and Matthew E. Taylor. [33]ヤオドン・ヤン、ジュン・ルー、ヤン・ウェン、オリバー・スランバーズ、ダニエル・グレイヴス、ハイサム・ブー・アンマー、ジュン・ワン、マシュー・e・テイラー
訳抜け防止モード: [33 ]ヤオドン・ヤン、ジュン・ルオ、ヨン・ウェン、 Oliver Slumbers, Daniel Graves, Haitham Bou Ammar, Jun Wang マシュー・E・テイラー。
0.74
Diverse auto-curriculum is critical for successful realworld multiagent learning systems. 逆オートカリキュラムは,実世界のマルチエージェント学習システムにおいて重要である。 0.54
In Proceedings of the 20th International Conference on Autonomous Agents and MultiAgent Systems, AAMAS ’21, page 51–56, Richland, SC, 2021. International Foundation for Autonomous Agents and Multiagent Systems. 第20回In Proceedings of the 20th International Conference on Autonomous Agents and MultiAgent Systems, AAMAS ’21, page 51–56, Richland, SC, 2021. International Foundation for Autonomous Agents and Multiagent Systems. 0.97
[34] Yaodong Yang and Jun Wang. [34]八王陽と順王。 0.64
An overview of multi-agent reinforcement learning from game ゲームからのマルチエージェント強化学習の概要 0.83
theoretical perspective. arXiv preprint arXiv:2011.00583, 2020. 理論的視点です arXiv preprint arXiv:2011.00583, 2020 0.77
[35] Yaodong Yang, Ying Wen, Jun Wang, Liheng Chen, Kun Shao, David Mguni, and Weinan Zhang. [35]yodong Yang, Ying Wen, Jun Wang, Liheng Chen, Kun Shao, David Mguni, Weinan Zhang
訳抜け防止モード: [35 ]yodong Yang, Ying Wen, Jun Wang, Liheng Chen, Kun Shao, David Mguni, Weinan Zhangらだ。
0.79
Multi-agent determinantal q-learning. マルチエージェント決定型q-ラーニング 0.50
In International Conference on Machine Learning, pages 10757–10766. 機械学習に関する国際会議、10757-10766頁。 0.78
PMLR, 2020. PMLR、2020年。 0.88
[36] Deheng Ye, Guibin Chen, Wen Zhang, Sheng Chen, Bo Yuan, Bo Liu, Jia Chen, Zhao Liu, Fuhao Qiu, Hongsheng Yu, et al Towards playing full moba games with deep reinforcement learning. [36]Deheng Ye氏、Guibin Chen氏、Wen Zhang氏、Sheng Chen氏、Bo Yuan氏、Bo Liu氏、Jia Chen氏、Zhao Liu氏、Fuhao Qiu氏、Hongsheng Yu氏らは、深い強化学習と完全なモバゲームを目指しています。
訳抜け防止モード: [36 ]Deheng Ye, Guibin Chen, Wen Zhang, 深陳、ボー・ユアン、ボー・リュー、ジー・チェン Zhao Liu, Fuhao Qiu, Hongsheng Yu, et al towardss playing full moba games with Deep reinforcement learning .
0.84
arXiv preprint arXiv:2011.12692, 2020. arXiv preprint arXiv:2011.12692, 2020 0.81
11 11 0.85
英語(論文から抽出)日本語訳スコア
Appendix for "Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games" ゼロサムゲームにおけるオープンエンド学習のための行動と反応の多様性の統一」付録 0.68
Table of Contents A Full Proof of Theorems 内容表 定理の完全な証明 0.61
A.1 Proof of Theorem 1 . A.1 Theorem 1 の証明。 0.81
A.2 Proof of Theorem 2 . A.2 Theorem 2 の証明。 0.80
A.3 Proof of Theorem 3 . A.3 Theorem 3 の証明。 0.80
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
B PE Approximation via PSRO PSROによるBPE近似 0.69
C Additional Experimental Results on Google Research Football c google research footballのさらなる実験結果 0.73
D Environment Details D.1 Environment Details of Non-Transitive Mixture Model . D 環境の詳細 d.1 非推移混合モデルの環境詳細 0.83
D.2 Environment Details of Google Research Football . d.2 google research footballの環境詳細。 0.77
. . . . . . . . . . . . 0.85
E Hyperparameter Settings Eハイパーパラメータ設定 0.83
. . E.1 Hyperparameter Settings for Real-World Games E.2 Hyperparameter Settings for Non-Transitive Mixture Model E.3 Hyperparameter Settings for Google Research Football . . . e.1 hyperparameter settings for real world games e.2 hyperparameter settings for non-transitive mixture model e.3 hyperparameter settings for google research football 0.81
. . . . . . . . . . . . 0.85
F Ablation Studies Fアブレーション研究 0.80
F.1 Real-World Games . F.1 リアルワールドゲーム。 0.62
F.2 Non-Transitive Mixture Model F.3 Google Research Football . F.2 非推移混合モデル F.3 Google Research Football 0.73
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . G Simplified Optimization Method for Unified Diverse Response . . . . 統一多様応答のg簡易最適化法 0.84
A Full Proof of Theorems A.1 Proof of Theorem 1 定理の完全な証明 A.1 定理の証明 1 0.73
To prove Theorem 1, we need the help of the following Lemma Lemma 1. Theorem 1を証明するには、以下のLemma Lemma 1の助けが必要です。 0.83
If PX,Y = PX PY |X and QX,Y = QX PY |X then PX,Y = PX PY |X および QX,Y = QX PY |X ならば 0.90
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. . . . . . . . . . . . 0.85
. 1 1 2 2 4 . 1 1 2 2 4 0.85
4 5 5 5 6 6 6 6 4 5 5 5 6 6 6 6 0.85
7 7 7 9 9 Df (PX,Y ||QX,Y ) = Df (PX||QX ). 7 7 7 9 9 Df (PX,Y ||QX,Y ) = Df (PX||QX )。 0.85
(14) Proof. See Proposition 7.1 in [3]. (14) 証明。 命題 7.1 in [3] を参照。 0.71
Now we can prove our Theorem 1. さて、我々は定理1を証明できる。 0.70
Proof. For games with only one step (normal-form games, functional-form games), there is only one fixed state. 証明。 1ステップしか持たないゲーム(正規形式ゲーム、機能形式ゲーム)の場合、固定状態は1つしかない。 0.66
Therefore, the distribution of state-action is equivalent to the distribution of the action. したがって、状態-作用の分布は作用の分布と等価である。 0.78
Formally, for ρπ(cid:48) 正式にはρπ(cid:48) 0.74
, we have: i,πE−i そうです i,πE−i 0.45
ρπ(cid:48) ρπ(cid:48) 0.74
i,πE−i (s, a) = (π(cid:48) i,πE−i (s, a) = (π(cid:48) 0.83
i, πE−i)(a) = π(cid:48) i, πE−i)(a) = π(cid:48) 0.85
i(ai)π−i(a−i) , i(ai)π−i(a−i) , 0.84
(15) where the second equation comes from the assumption that policies are independent. (15) 第2の方程式は、政策が独立であるという仮定によるものです。 0.75
Similarly, for ρπi,πE−i 同様に、ρπi,πe−i 0.62
, we also have: ρπi,πE−i 他にもあります ρπi,πE−i 0.48
(s, a) = (πi, πE−i)(a) = πi(ai)π−i(a−i) . (s, a) = (πi, πE−i)(a) = πi(ai)π−i(a−i) 。 0.82
(16) 1 (16) 1 0.85
英語(論文から抽出)日本語訳スコア
Therefore, with the help of Lemma 1, we have: したがって、Lemma 1の助けを借りて: 0.58
Df (ρπ(cid:48) Df(ρπ(cid:48) 0.82
i,πE−i A.2 Proof of Theorem 2 i,πE−i A.2 定理の証明 2 0.73
||ρπi,πE−i ) = Df (π(cid:48) |ρπi,πe−i ) = Df(π(cid:48) 0.69
iπ−i||πiπ−i) = Df (π(cid:48) iπ−i||πiπ−i) = df(π(cid:48) 0.49
i||π−i) . (17) i||π-i)。 (17) 0.64
Let us restate our Theorem 2 Theorem 2. Theorem 2 Theorem 2 を復活させましょう。 0.81
For a given empirical payoff matrix A ∈ RM×N and the reward vector aM +1 for policy πM +1 i 与えられた経験的ペイオフ行列 A ∈ RM×N とポリシー πM +1 i に対する報酬ベクトル aM +1 について 0.76
, the lower bound of Divocc is given by: , Divocc の下限は次の通りである。 0.70
Divrew(πM +1 Divrew(πM +1 0.84
(18) where (A(cid:62))† is the Moore–Penrose pseudoinverse of A(cid:62), and σmin(A) is the minimum singular value of A. ここで (A(cid:62)) は A(cid:62) のムーア・ペンローズ擬逆元であり、σmin(A) は A の最小特異値である。 0.76
M + ||(I − A(cid:62)(A(cid:62)) †)aM +1||2 , M +|(I − A(cid:62)(A(cid:62)) )aM +1||2 , 0.85
) ≥ σ2 i min(A)(1 − 1(cid:62)(A(cid:62)) †aM +1)2 ) ≥ σ2 私は min(a)(1 − 1(cid:62)(a(cid:62)) \am +1)2 0.80
Proof. min 1(cid:62)β=1 β≥0 証明。 min 1(cid:62)β=1 β≥0 0.64
||A(cid:62)β − aM +1||2 ||A(cid:62)β − aM +1||2 0.62
2 = min 1(cid:62)β=1 β≥0 ≥ min 1(cid:62)β=1 2 = min 1(cid:62)β=1 β≥0 ≥ min 1(cid:62)β=1 0.74
||A(cid:62)β − A(cid:62)(A(cid:62)) †aM +1||2 + ||(I − A(cid:62)(A(cid:62)) †)aM +1||2 ||a(cid:62)β − a(cid:62)(a(cid:62)) )-am +1||2 + ||(i − a(cid:62)(a(cid:62)) )-)am +1||2 0.75
||A(cid:62)β − A(cid:62)(A(cid:62)) †aM +1||2 + ||(I − A(cid:62)(A(cid:62)) †)aM +1||2 ||A(cid:62)(β − (A(cid:62))†aM +1)||2 + ||(I − A(cid:62)(A(cid:62)) †)aM +1||2 ||A(cid:62)β − A(cid:62))\aM +1|2 + ||(cid:62)(A(cid:62))& #x27;)aM +1|2 ||A(cid:62)(β − (A(cid:62))'aM +1)||2 + ||(I − A(cid:62))')aM +1|2 0.93
||β − (A(cid:62))†aM +1||2 + ||(I − A(cid:62)(A(cid:62)) †)aM +1||2 ||β − (a(cid:62)))-am +1||2 + ||(i − a(cid:62)(a(cid:62)) -)am +1||2 0.75
= min 1(cid:62)β=1 ≥σ2 min(A) min 1(cid:62)β=1 min(A)(1 − 1(cid:62)(A(cid:62)) †aM +1)2 σ2 = min 1(cid:62)β=1 ≥σ2 min(a) min 1(cid:62)β=1 min(a)(1 − 1(cid:62)(a(cid:62)) \am +1)2 σ2 0.84
= M + ||(I − A(cid:62)(A(cid:62)) †)aM +1||2 , = M +|(I − A(cid:62)(A(cid:62)) )aM +1||2 , 0.85
where the first equation comes from that we decompose aM +1 into A(cid:62)(A(cid:62)) †aM +1 + (I − A(cid:62)(A(cid:62)) †)aM +1. 最初の方程式は、aM +1 を A(cid:62)(A(cid:62)) =aM +1 + (I − A(cid:62)(A(cid:62)) )aM +1 に分解する。 0.87
The last equation comes from the analytic calculation of min1(cid:62)β=1 ||β − (A(cid:62))†aM +1||2 using Lagrangian. 最後の方程式は、ラグランジアンを用いて min1(cid:62)β=1 ||β − (A(cid:62)) =aM+1|2 の解析計算から得られる。 0.61
A.3 Proof of Theorem 3 A.3 Theorem 3 の証明 0.84
Now let us first restate the propositions. では、まず提案を再考しよう。 0.62
Proposition 1. If N = 1 and the underlying game φi(·,·) is a symmetric two-player zero-sum game, PE is equivalent to exploitability. 命題1。 N = 1 で、基礎となるゲーム φi(·,·) が対称二プレーヤゼロサムゲームであれば、PE は攻撃性と同値である。 0.59
To prove this, let us prove the following Lemma 2. これを証明するために、次のLemma 2を証明しよう。 0.64
Lemma 2. For any policy π in two-player symmetric zero-sum games: レマ2号。 二プレーヤ対称零サムゲームにおける任意のポリシー π について 0.54
φi(π, π) = 0 . φi(π, π) = 0。 0.87
Proof. To begin with, due to the assumption that the game is symmetric, we get: 証明。 まず最初に、ゲームが対称であるという仮定から、次のようになる。 0.68
φi(πi, π−i) = φ−i(π−i, πi) . φi(πi, π−i) = φ−i(π−i, πi) 。 0.69
Since the game is also zero-sum, we have: ゲームもゼロサムなので、以下がある。 0.63
φ−i(π−i, πi) = −φi(π−i, πi) . φ−i(π−i, πi) = −φi(π−i, πi) 。 0.66
By combing Equation 20 and Equation 33, for any πi and π−i, we get: 任意の πi と π−i に対して、方程式 20 と方程式 33 を組み合わせれば、次のようになる。 0.59
φi(πi, π−i) + φi(π−i, πi) = 0 . φi(πi, π−i) + φi(π−i, πi) = 0 である。 0.71
Let πi = π−i = π, we get what we need to prove: πi = π−i = π とすると、証明すべきものが得られる。 0.78
φi(π, π) = 0 . φi(π, π) = 0。 0.87
2 (19) (20) 2 (19) (20) 0.85
(21) (22) (23) (21) (22) (23) 0.85
英語(論文から抽出)日本語訳スコア
Now we can begin proof of our proposition. これで我々の提案の 証明を始められる 0.59
Proof. To prove this theorem, we need a further assumption that PSRO maintains only one population for two-player symmetric game, which is a quite common practice. 証明。 この定理を証明するためには、PSROが2つのプレイヤー対称ゲームに対して1つの人口しか持たないという仮定が必要である。 0.63
Therefore, the joint Nash aggregated policy satisfies that πE = (πi, π−i) satisfies πi = π−i. したがって、ナッシュ合同政策は πe = (πi, π−i) が πi = π−i を満たすことを満たす。 0.65
Therefore, with the help of Lemma 2: したがって、Lemma 2の助けを借りて: 0.76
Furthermore, exploitability for symmetric zero-sum game can be written as: i, π−i) − φi(πi, π−i) さらに、対称零サムゲームに対する悪用性は次のように記述できる: i, π−i) − φi(πi, π−i) 0.67
Expl(πE) = Expl(πE) = 0.99
φi(π(cid:48) φi(π(cid:48) 0.82
φi(πi, π−i) = φ−i(π−i, πi) = 0 . φi(πi, π−i) = φ−i(π−i, πi) = 0 である。 0.69
2(cid:88) 2(cid:88) 2(cid:88) 2(cid:88) 0.81
i=1 i=1 max π(cid:48) i=1 i=1 最大 π(cid:48) 0.66
i max π(cid:48) φi(π(cid:48) 私は max π(cid:48) φi(π(cid:48) 0.68
i = φi(π(cid:48) 私は = φi(π(cid:48) 0.74
i, π−i) = 2 max i, π−i) =2マックス 0.72
π(cid:48) i π(cid:48) 私は 0.69
i, π−i) , where the last equation comes from the symmetry of the game and πi = π−i. i, π−i) 。 最後の方程式はゲームの対称性と πi = π−i から得られる。 0.81
For PE, it is calculated as: PEの場合、次のように計算される。 0.63
PE({πi}) = min π(cid:48) −i PE({πi}) = min π(cid:48) −i 0.92
φi(πi, π(cid:48) φi(π(cid:48) φi(πi, π(cid:48) φi(π(cid:48) 0.80
−i) −i, πi) -i) -i,πi) 0.77
= − max π(cid:48) −i = − 1 2 = − max π(cid:48) −i = − 1 2 0.96
(24) (25) (26) (24) (25) (26) 0.85
(27) (28) (29) (27) (28) (29) 0.85
(31) (32) (33) (31) (32) (33) 0.85
(34) (36) (30) The second to last equation comes from Equation 22, and the last equation is due to the assumption that πi = π−i. (34) (36) (30) 第二から最後の方程式は等式22から来ており、最後の方程式は πi = π−i という仮定によるものである。 0.81
Proposition 2. If there are two populations Pi, Qi and Pi ⊆ Qi, then PE(Pi) ≤ PE(Qi), while the relationship for exploitability of the Nash aggregated policies of Pi and Qi may or may not hold. 命題2。 Pi と Qi の2つの集団が存在するなら、PE(Pi) ≤ PE(Qi) であるのに対し、Nash は Pi と Qi の集約されたポリシーを活用可能であるか、保持できないかのどちらかである。 0.64
Proof. We begin with proof of the monotonicity of PE. 証明。 まずPEの単調性の証明から始める。 0.59
W.o.l.g, let us assume that Pi = {πk Qi = {πk W.o.l.g を Pi = {πk Qi = {πk と仮定する。 0.70
k=1, where M ≤ N. Then for the population effectivity of Qi: k=1, where M ≤ N. then for the population effectivity of Qi: 0.98
Expl(πE) . i }M Expl(πE)。 i>M。 0.74
i }N k=1, where α = (α1,··· , αN )(cid:62). i }N k=1。 α = (α1,··· , αN )(cid:62)。 0.79
Let αi = 0 for M + 1 ≤ i ≤ N, then we get: M + 1 ≤ i ≤ N に対して αi = 0 とすると、次のようになる。
訳抜け防止モード: M + 1 ≤ i ≤ N に対して αi = 0 とする。 それから:
0.90
PE(Qi) = min π−i PE(Qi) = min π−i 0.94
max 1(cid:62)α=1 αi≥0 max 1(cid:62)α=1 αi≥0 0.63
αkφi(πk i , π−i) . αkφi(πk) i, π−i)。 0.64
N(cid:88) N(cid:88) n(cid:88) n(cid:88) 0.77
k=1 N(cid:88) k=1 n(cid:88) 0.68
k=1 min π−i k=1 min π-i 0.60
max 1(cid:62)α=1 αi≥0 max 1(cid:62)α=1 αi≥0 0.63
αkφi(πk i , π−i) ≥ min αkφi(πk) i , π−i) ≥ min 0.71
π−i = min π−i π-i = min π-i 0.59
αkφi(πk i , π−i) αkφi(πk) i , π−i) 0.68
max 1(cid:62)α=1,αi≥0 マックス 1(cid:62)α=1,αi≥0 0.66
αi=0 ∀M +1≤i≤N α(cid:48) kφi(πk αi=0 >M +1≤i≤N α(cid:48) kφi(πk) 0.47
k=1 M(cid:88) k=1 m(cid:88) 0.68
max 1(cid:62)α(cid:48)=1 α(cid:48) ≥0 max 1(cid:62)α(cid:48)=1 α(cid:48)≥0 0.82
i k=1 i , π−i) 私は k=1 i , π−i) 0.65
= PE(Pi) . pe(pi) である。 0.60
Now we conclude that: 私たちはこう結論づけます 0.45
(35) Regarding exploitability, the analysis comes from our Example 1. (35) エクスプロイラビリティに関しては、この分析は例1から来ています。 0.68
Suppose player 1 holds the population P1 = { Suppose player 1 hold the population P1 = { 0.93
} and P2 = P1. P2 = P1 である。 0.77
Apparently, the Nash aggregated joint policy is ナッシュ集約型共同政策はどうやら 0.56
 1 PE(Qi) ≥ PE(Pi)  1 PE(Qi) ≥ PE(Pi) 0.85
2 1 2 0  1 2 1 2 0  1 0.85
2 1 2 0  , 2 1 2 0  , 0.85
 1 2 1 2 0  1 2 1 2 0 0.85
) , πP E = ( ) , πP E = ( 0.83
3 3 0.85
英語(論文から抽出)日本語訳スコア
since there is only one policy in each players’ population. 各選手の人口には1つの政策しかありません。 0.76
Now consider another two populations Q1 = { 別の2つの集団 Q1 = { 0.79
aggregated joint policy is given by: 集約された共同政策は 0.68
 1  , (cid:34) 0 (cid:35) 1 , (cid:34) 0 (cid:35) 0.91
2 1 2 0 (cid:35) 2 1 2 0 (cid:35) 0.82
(cid:34) 0 (cid:35) (cid:34)0(cid:35) 0.77
1 0 ). (cid:34) 0 1 0 ). (cid:34) 0 0.85
πQ E = ( 1 0 πQ E = ( 1 0 0.83
, 1 0 With simple derivations, the exploitability for πP , 1 0 単純な導出で πP の悪用性 0.81
E and πQ E is: Expl(πP E と πQ eは Expl(πP) 0.68
E ) = 1. } and Q2 = Q1. E) = 1。 Q2 = Q1。 0.74
Then the Nash (37) そしてナッシュ (37) 0.61
(38) (39) Now we can conclude that for player 1 and player 2, even their population both get strictly enlarged (P1 ⊆ Q1 and P2 ⊆ Q2), they become more exploitable: Expl(πQ Proposition 3. (38) (39) プレイヤー1 とプレイヤー2 の人口が厳密に拡大される(p1 は q1 と p2 は q2)ので、より活用可能であると結論付けることができる: expl(πq proposition 3)。 0.82
If the underlying game φi(·,·) is a matrix game, then computing PE is still solving a matrix game. 基礎となるゲーム φi(·,·) が行列ゲームであれば、計算 PE は依然として行列ゲームである。 0.64
E ) ≥ Expl(πP E ). E ) ≥ Expl(πP E )。 0.85
Expl(πQ E ) = 2. Expl(πQ) E) = 2。 0.78
Proof. The proof follows some simple algebric manipulations. 証明。 この証明はいくつかの単純な代数的操作に従う。 0.54
Note that for matrix games, the reward function is given by: なお、行列ゲームの場合、報酬関数は次のように与えられる。 0.66
i Pπ−i , where P is the payoff matrix. i Pπ−i であり、P はペイオフ行列である。 0.65
Then for population effectivity: φi(πi, π−i) = π(cid:62) 人口効果について φi(πi, π−i) = π(cid:62) 0.65
PE({πk i }N PE({πk) i }N 0.84
k=1) = min π−i k=1 = min π−i 0.74
= min π−i = min π−i = min π-i = min π-i 0.69
max 1(cid:62)α=1 αi≥0 max 1(cid:62)α=1 αi≥0 0.63
max 1(cid:62)α=1 αi≥0 max 1(cid:62)α=1 αi≥0 max 1(cid:62)α=1 αi≥0 max 1(cid:62)α=1 αi≥0 0.61
N(cid:88) N(cid:88) N(cid:88)N(cid:88) 0.80
k=1 αkφi(πk k=1 αkφi(πk) 0.55
i , π−i) αk(πk i , π−i) αk(πk) 0.75
i )(cid:62)Pπ−i i(cid:62)pπ−i 0.71
k=1 α(cid:62)(π1 k=1 α(cid:62)(π1) 0.66
i ,··· , πN i ,··· , πN 0.85
i )(cid:62)Pπ−i . i(cid:62)pπ−i。 0.64
(40) (41) (42) (40) (41) (42) 0.85
(43) Therefore, solving PE is still a matrix game with payoff matrix (π1 (43) したがって、peの解法はまだペイオフ行列(π1)を持つ行列ゲームである。 0.68
i ,··· , πN i ,··· , πN 0.85
i )(cid:62)P. i(cid:62)p。 0.82
B PE Approximation via PSRO PSROによるBPE近似 0.69
We have already mentioned the tractability for PE of matrix games in Theorem 3. 我々はすでに Theorem 3 で行列ゲーム PE のトラクタビリティについて言及している。 0.75
However, for more general games, solving exact PE is still very hard. しかし、より一般的なゲームでは、正確なPEを解くことは依然として難しい。 0.55
Since PE is still computing an NE, we here propose using PSRO again as the approximate solver. PE はまだ NE を演算しているので、近似解法としてPSRO を再度提案する。 0.70
The only difference is that population of player i is already fixed by Pi = {πk k=1. 唯一の違いは、プレイヤー i の人口が既に Pi = {πk k=1 で固定されていることである。 0.72
Therefore, during iterations of PSRO, only player −i needs to enlarge its population. したがって、PSRO の繰り返しの間、プレイヤー − i だけが人口を増やす必要がある。 0.69
We now outline the algorithm PE(n) in Algorithm 2. 現在、アルゴリズムPE(n)をアルゴリズム2で概説している。 0.63
The intuition behind this algorithm is that the opponent is enlarging its population gradually and trying to exploit Pi. このアルゴリズムの背景にある直感は、相手が徐々に人口を増やし、Piを活用しようとしているということである。
訳抜け防止モード: このアルゴリズムの背後にある直感は 敵は徐々に人口を増やし、パイを搾取しようとしている。
0.62
Therefore, the metric of PE is actually testing how exploitable a population is by gradually constructing a real adversarial! したがって、PEの計量は、実際の敵を徐々に構築することによって、いかに人口を搾取できるかを実際にテストしているのです! 0.54
The opponent strength n essentially represents how accurate each best response is. 相手の強度nは、本質的に各ベストレスポンスの正確さを表す。 0.67
i }N C Additional Experimental Results on Google Research Football i }N c google research footballのさらなる実験結果 0.79
In real world games, we expect our models are robust enough to defeat all the previous models in the model pool and show diverse behaviors to better exploit the opponents. 実世界のゲームでは、我々のモデルはモデルプールのすべてのモデルを打ち破り、対戦相手をよりうまく活用するための多様な振る舞いを示すのに十分な堅牢さを期待する。
訳抜け防止モード: 現実世界のゲームでは、われわれのモデルは十分に堅牢だ モデルプールのすべてのモデルを打ち破り 対戦相手をよりうまく活用するための 多様な振る舞いを示します
0.82
To further evaluate the performance of all the models generated with different methods during the training process, we rank all the models with the Elo rating system [2], and the results are shown in Figure 4. 学習過程において異なる手法で生成された全てのモデルの性能を更に評価するために、すべてのモデルをelo rating system [2]でランク付けし、結果が図4に示される。 0.86
It can be found 4 見つけられるのです 4 0.76
英語(論文から抽出)日本語訳スコア
i }N k=1, Opponent Strength n, Number of iteraions T i }N k=1、反対強度n、イテリオンtの数 0.82
Algorithm 2 PE(n) 1: Input: Population Pi = {πk 2: P−i ← Initialize opponent population with one random policy 3: APi×P−i ← Initialize empirical payoff matrix 4: for t = 1 to T do σi, σ−i ← Nash Equilibrium on APi×P−i 5: πt−i(θ) ← Initialize a new opponent policy 6: j σj i πj 7: 8: P−i ← P−i ∪ {πt−i(θ(cid:63))} 9: 10: end for 11: Output: Nash value on APi×P−i アルゴリズム 2 pe(n) 1: 入力: population pi = {πk 2: p−i > initialize opponent population with one random policy 3: api×p−i > initialize empirical payoff matrix 4: for t = 1 to t do σi, σ−i ) nash equilibrium on api×p−i 5: πt−i(θ) > initialize a new opposition policy 6: j σj i πj 7: 8: p−i ] p−i > {πt−i(θ(cid:63))} 9: 10: end for 11: output: nash value on api×p−i 0.76
θ(cid:63) ← Train πt−i against mixture of(cid:80) θ(cid:63)は(cid:80)の混合物に対してπt−iを訓練する 0.53
Compute missing entries in the evaluation matrix APi×P−i 評価行列 APi×P−i における計算不足成分 0.73
i with n gradient steps that models generated by PSRO w. BD&RD outperform other methods and reaches an Elo score of around 1300. 私はn段階の勾配で PSRO w. BD&RDが生成したモデルは、他の手法よりも優れ、Eloスコアは約1300に達する。 0.62
This implies that a combination of BD and RD will essentially contribute to the generation of diverse opponents during the training, so that the final models will be more robust and less exploitable since they are more likely to be offered strong diverse opponents and have the chance to learn to defeat them. これは、bdとrdの組み合わせがトレーニング中の多様な対戦相手の生成に本質的に寄与することを意味しており、最終的なモデルはより強固で悪用しにくくなる。
訳抜け防止モード: これは、BDとRDの組み合わせが、トレーニング中に多様な相手の生成に本質的に寄与することを意味する。 最終モデルは より堅牢で 使い勝手も悪くなります 強い多様な相手を 与えて 倒す機会を 与える可能性が高い。
0.64
Additionally, we also visualize the policies of our methods when playing against other baseline methods and verify our methods truly generate diverse behaviors (see https://sites.google .com/view/diverse-ps ro/). さらに、他のベースラインメソッドと対戦する際のメソッドのポリシーを視覚化し、メソッドが本当に多様な振る舞いを生成できることを検証する(https://sites.googl e.com/view/diverse-p sro/)。 0.52
Figure 4: The Elo scores of all the models generated by different methods. 図4:異なる方法で生成されたすべてのモデルのeloスコア。 0.79
Shaded areas represent the standard deviation. シェードエリアは標準偏差を表す。 0.74
D Environment Details D.1 Environment Details of Non-Transitive Mixture Model D 環境の詳細 D.1 非遷移混合モデルの環境詳細 0.82
In our experiments, we set l = 4 and use 9 Gaussian distributions in the plane. 実験では、l = 4 とし、平面に9つのガウス分布を用いる。 0.72
This environment involves both transitivity and non-transitivity because of the delicately designed S in the reward function φi(πi, π−i) = π(cid:62) この環境は、報酬関数 φi(πi, π−i) = π(cid:62) における繊細に設計された S のため、推移性と非遷移性の両方を含む。 0.59
i Sπ−i + 1(cid:62)(πi − π−i). i Sπ−i + 1(cid:62)(πi − π−i)。 0.72
S is constructed by: S は次のように構成される。 0.46
(cid:40) 0 S[i][k] = (cid:40)0 S[i][k] = 0.77
1 −1 k = i 0 < (k − i) mod (2l + 1) ≤ l otherwise 1 −1 k = i 0 < (k − i) mod (2l + 1) ≤ l でなければ 0.92
D.2 Environment Details of Google Research Football D.2 Google Research Footballの環境詳細 0.90
Google Research Football (GRF) [4] is a physics-based 3D simulator where agents can be trained to play football. Google Research Football (GRF) [4]は物理ベースの3Dシミュレーターで、エージェントはフットボールを訓練することができる。 0.87
The engine implements a full football game under standard rules (such as goal kicks, side kicks, corner kicks, etc. このエンジンは、標準的なルール(ゴールキック、サイドキック、コーナーキックなど)で完全なフットボールゲームを実装している。 0.72
), with 11 players on each team and 3000 steps duration for a full game. チームごとに11人の選手が参加し、全試合に3000歩のステップを踏む。 0.71
It offers several state wrappers (such as Pixels, SMM, Floats) and the players can be controlled いくつかの状態ラッパー(Pixel、SMM、Floatsなど)を提供し、プレイヤーはコントロールできる。 0.69
5 050100150200250300Mo del Step (*1000)7008009001000 110012001300Elo ScoreSelf-playPSROPS RO-rNPSRO w. RDPSRO w. BDPSRO w. BD&RD 5 050100150200250300Mo del Step (*1000)7009001000110 01 2001300Elo ScoreSelf-playPSRO-r NPSRO w. RDPSRO w. BDPSRO w. BD&RD 0.79
英語(論文から抽出)日本語訳スコア
with 19 discrete actions (such as move in 8 directions, high pass, long pass, steal, etc.). 19の個別アクション(8方向移動、ハイパス、ロングパス、盗みなど)を持つ。
訳抜け防止モード: 19の離散的な動作(例えば8方向に動きます) 高いパス、長いパス、盗みなど)。
0.65
The rewards include both the scoring reward (+1 or −1) and the checkpoint reward, where the checkpoint reward means that the agent will be reward with +0.1 if it is the first time that the agent’s team possesses the ball in each of the checkpoint regions. 報酬には、得点報酬(+1または−1)とチェックポイント報酬の両方が含まれており、チェックポイント報酬は、エージェントのチームが各チェックポイント領域でボールを持っている最初の場合、エージェントが+0.1で報酬を受けることを意味する。 0.78
E Hyperparameter Settings Eハイパーパラメータ設定 0.83
E.1 Hyperparameter Settings for Real-World Games E.1 現実世界ゲームのためのハイパーパラメータ設定 0.56
We report our hyperparameter setting for real-world metagames in Table 3. 表3における実世界のメタゲームに対するハイパーパラメータ設定について報告する。 0.53
Table 3: The hyperparameters of real-world metagames. 表3:現実世界のメタゲームのハイパーパラメータ。 0.74
Parameter Learning rate Improvement threshold Metasolver Metasolver iterations Metasolver iterations for PE # of threads in pipeline # of seeds λ1 λ2 パラメータ学習速度改善しきい値メタソルバ メタソルバ 反復 λ1 λ2 種子のパイプライン#におけるスレッドのpe #のメタソルバ反復 0.74
Value 0.5 0.03 1000 2000 1.0 5 0.2 0.2 値0.5.03 1000 2000 1.0 5 0.2 0.2 0.59
Description Learning rate for agents Convergence criteria エージェント収束基準のための記述学習率 0.78
Fictitious play Method to compute NE NEを計算するための架空のプレイメソッド 0.61
# of iterations of metasolver # of iterations to compute PE Number of learners in Pipeline-PSRO # of trials Weight for BD Weight for RD PE計算用メタゾルバの反復数 # PE演算用反復数 Pipeline-PSRO の学習者数 # RD 用 BD 重みの試行量 0.84
E.2 Hyperparameter Settings for Non-Transitive Mixture Model E.2 非推移混合モデルのためのハイパーパラメータ設定 0.60
We report our hyperparameter setting for non-transitive mixture model in Table 4. テーブル4における非推移混合モデルのハイパーパラメータ設定について報告する。 0.69
Table 4: The hyperparameters of non-transitive mixture model. 表4: 非推移的混合モデルのハイパーパラメータ。 0.83
Parameter Learning rate Optimizer Betas Ntrain πi Σ uk l r Metasolver Metasolver iterations # of threads in pipeline # of iteration # of seeds λ1 λ2 Decrease rate of λ1 and λ2 # of iteration for PE パラメータ学習率最適化ベータ Ntrain πi Σ uk l r Metasolver metasolver iterations # of thread in pipeline # of iteration # of seed λ1 λ2 Decrease rate of λ1 and λ2 # of iteration for PE 0.95
Value 0.1 Adam (0.9, 0.99) 値0.1adam (0.9, 0.99) 0.65
5 (cid:62) k = exp(− (xi − µk) πi 1/2I 5 (cid:62) k = exp(− (xi − μk) πi 1/2I 0.83
Σ (xi − µk) /2) Σ(xi − μk)/2 0.93
r(cos( 2π 2l+1 k), sin( 2π r(cos(2π) 2l+1 k), sin(2π) 0.80
2l+1 k)) Fictitious play 2l+1 k) 架空の戯曲 0.54
4 5 1000 1.0 50 5 1 4 5 1000 1.0 50 5 1 0.87
1500 0.7 30 1500 0.7 30 0.78
1 − 1+exp(−0.25(t−25)) 1 − 1+exp(−0.25(t−25)) 0.74
Description Learning rate for agents Gradient-based optimization Parameter for Adam # of iterations using GD per BR Policy parameterization Covariance of each Gaussian Center of each Gaussian 9 Gaussian distributions Radius of each Gaussian Method to compute NE # of iterations of metasolver Number of learners in Pipeline-PSRO # of training iterations for PSRO # of trials Weight for BD Weight for RD The weights will decrease as the iteration progresses, where t is the current iteration # of training iterations using PSRO for PE Description Learning rate for agents Gradient-based optimization Parameter for Adam # of iterations using GD per BR Policy parameterization Covariance of each Gaussian Center of each Gaussian 9 Gaussian distributions Radius of each Gaussian Method to compute NE # of iterations of metasolver Number of learners in Pipeline-PSRO # of training iterations for PSRO # of trials Weight for BD Weight for RD The weights will decrease as the iteration progresses, where t is the current iteration # of training iterations using PSRO for PE 0.89
E.3 Hyperparameter Settings for Google Research Football e.3 hyperparameter settings for google research football 0.86
States and Network Architecture. 国家とネットワークアーキテクチャ。 0.68
For GRF, We use a structured multi-head vector as the states input. GRFでは状態入力として構造化マルチヘッドベクトルを用いる。 0.76
The information of each head is listed in Table 5: The network structure is shown in Figure 5. 各頭部の情報は表5に記載されている: ネットワーク構造は図5に示されます。 0.89
The shapes of the fully-connected layers for the input heads are: [32, 64, 64, 16, 16, 128 × 64, 128 × 64, 128 × 128, 128 × 128, 64, 16, 64, 64], followed by three fully-connected layers (i.e. 入力ヘッドの完全連結層の形状は、[32, 64, 64, 16, 128 × 64, 128 × 64, 128 × 128, 128 × 128, 64, 16, 64, 64] で、続いて3つの完全連結層(すなわち、64, 64, 64)が続く。 0.87
[512 × 256 × 128]) and finally output the policy and value. [512 × 256 × 128]) そして最後にポリシーと値を出力します。 0.88
Hyperparameter Settings for Reinforcement Learning Oracle. 強化学習のためのハイパーパラメータ設定。 0.68
We use IMPALA [1] as the reinforcement learning algorithm to approximate the best response for each opponent selected by different methods during the training process. 強化学習アルゴリズムとしてimpala [1]を用い,学習過程において異なる方法によって選択された各対戦相手の最適応答を近似する。 0.72
The hyperparameters are listed in Table 6. ハイパーパラメーターはテーブル6に記載されている。 0.66
6 6 0.85
英語(論文から抽出)日本語訳スコア
Table 5: The states input for Google Research Football. 表5: the states input for google research football(英語) 0.80
Head index Length 0 1 2 3 4 5 6 7 8 9 10 11 12 Head index Length 0 1 2 3 4 5 6 7 8 9 10 11 12 0.85
9 25 25 6 4 66 66 88 88 32 7 29 76 9 25 25 6 4 66 66 88 88 32 7 29 76 0.85
Information Ball information (position, direction, rotation) Ball owner information (ball owned team id, ball owned player id) Active player information (id, position, direction, area of the field) Active player vs. ball (distance, 1/distance) Active player vs. ball player (distance, 1/distance) Active player vs. self-team players (position, distance, 1/distance, position cosine, direction cosine) Active player vs. oppo-team players (position, distance, 1/distance, position cosine, direction cosine) Self-team information (position, direction, tired factor, yellow card, active player, offside flag) Oppo-team information (position, direction, tired factor, yellow card, active player, offside flag) Goal keeper information (distance to self-player/oppo-pla yer, nearest/farthest player information) Game mode information (one-hot) Legal action and sticky action information History (one-hot) actions of last four steps Information Ball information (position, direction, rotation) Ball owner information (ball owned team id, ball owned player id) Active player information (id, position, direction, area of the field) Active player vs. ball (distance, 1/distance) Active player vs. ball player (distance, 1/distance) Active player vs. self-team players (position, distance, 1/distance, position cosine, direction cosine) Active player vs. oppo-team players (position, distance, 1/distance, position cosine, direction cosine) Self-team information (position, direction, tired factor, yellow card, active player, offside flag) Oppo-team information (position, direction, tired factor, yellow card, active player, offside flag) Goal keeper information (distance to self-player/oppo-pla yer, nearest/farthest player information) Game mode information (one-hot) Legal action and sticky action information History (one-hot) actions of last four steps 0.97
Figure 5: The shape of input states for each head and the general network structure. 図5: 各ヘッドと一般的なネットワーク構造に対する入力状態の形状。 0.81
Network Training Details. ネットワークトレーニングの詳細。 0.83
We carry out the experiments on six servers (CPU: AMD EPYC 7542 128-Core Processor, RAM: 500G), with each one corresponding to one of six methods (i.e. 実験は6つのサーバ(CPU: AMD EPYC 7542 128-Core Processor, RAM: 500G)で行われ、それぞれが6つのメソッドの1つに対応する。 0.83
Selfplay, PSRO, PSROrN, PSRO w. BD, PSRO w. RD, PSRO w.BD&RD). セルフプレイ、PSRO、PSROrN、PSRO w. BD、PSRO w. RD、PSRO w.BD&RD)。 0.75
For each experiment, the approximated best response (i.e. 各実験について、最も近い反応(すなわち、)を近似する。 0.55
checkpoint) is saved only when the win-rate against corresponding opponent is stable during two checks (check frequency = 1000 model steps, and ∆winrate < 0.05) or the training model step reaches an upper bound (i.e. チェックポイント)は、2つのチェック(チェック周波数 = 1000 モデルステップ、および swinrate < 0.05)の間、対応する対戦相手に対するウィンレートが安定している場合にのみ保存される。 0.74
50000 model steps). 50000モデル)。 0.56
The λ1 and λ2 we used for both coefficients are 0.5. 両係数の λ1 と λ2 は 0.5 である。 0.80
For the Google Research Football environment settings, we use both scoring reward and checkpoint reward for the training. Google Research Football環境設定では、トレーニングにスコアとチェックポイントの報酬の両方を使用します。 0.69
F Ablation Studies Fアブレーション研究 0.80
We also conduct ablation study on the sensitivity of the diversity weights λ1 and λ2 in real-world games, non-transitive mixture model, and Google Research Football. また,実世界のゲーム,非推移混合モデル,google research football における多様性重み λ1 と λ2 の感度についてアブレーション研究を行った。 0.71
F.1 Real-World Games F.1 リアルワールドゲーム 0.61
We report the exploitability and PE by varying λ1 in Figure 6a, 6b and λ2 in Figure 7a, 7b. 図7a,7bの図6a,6b,λ2におけるλ1の変化による利用性とPEについて報告する。 0.60
It can be found that too large weights can cause the slow convergence and too small weights prevent the algorithm from finding populations with smaller exploitability and larger PE. 重みが大きすぎると収束が遅くなり、重みが小きすぎると、アルゴリズムがより小さな利用可能性とより大きなPEの集団を見つけるのを妨げてしまう。 0.65
F.2 Non-Transitive Mixture Model F.2 過渡混合モデル 0.73
We report the exploitability of the final population generated by our algorithm with different λ1 in Table 7 and λ2 in Table 8. 表7のλ1と表8のλ2の異なるアルゴリズムによって生成された最終集団の活用可能性について報告する。 0.70
In this game, we set both λ1 and λ2 to decrease following the rate 1 − 1+e(−0.25(t−25)) , where t is the current iteration. このゲームでは、λ1 と λ2 の両方を 1 − 1+e(−0.25(t−25)) の次で減少させ、t が現在の反復である。
訳抜け防止モード: このゲームでは λ1 と λ2 を t が現在の反復である 1 − 1+e(−0.25(t−25)) に従って減少する。
0.84
We can find that in terms of exploitability, PSRO with only BD cannot help the population to achieve lower exploitability. 利用可能性の面では、BDしか持たないPSROは、利用可能性の低下を実現するのに役に立たないことが分かる。 0.52
0.7 7 0.7 7 0.72
英語(論文から抽出)日本語訳スコア
Table 6: The hyperparameters of the IMPALA algorithm. 表6:IMPALAアルゴリズムのハイパーパラメータ。 0.66
Parameter Batch Size Discount Factor (γ) Learning Rate Number of Actors Optimizer Unroll Length/n-step Entropy Coefficient Value Function Coefficient Grad Clip Norm Rho (for V-Trace) C (for V-Trace) λ1 (Weight for BD) λ2 (Weight for RD) パラメータバッチサイズディスカウント係数(γ) アクタの学習率 最適化器 unroll length/n-step entropy coefficient value function coefficient grad clip norm rho (v-trace) c (v-trace) λ1 (bd重量) λ2 (rd重量) 0.83
Value 1024 0.993 0.00019896 100 Adam 1.0 0.0001 1.0 0.5 1.0 1.0 0.5 0.5 Value 1024 0.993 0.00019896 100 Adam 1.0 0.0001 1.0 0.5 1.0 1.0 0.5 0.5 0.50
fectivity vs. training iterations on the AlphaStar game. AlphaStarゲームにおけるエフェクティビティ対トレーニングの繰り返し。 0.78
cdf(k) =(cid:82) k cdf(k) =(cid:82) k 0.98
Figure 6: Ablation study on λ1. 図6: λ1 のアブレーション研究。 0.81
(a):Exploitability vs. training iterations. (a): 拡張性対トレーニングの反復。 0.77
(b): Negative Population Ef2 dx is the cumulative (b)負の人口Ef2dxが累積である 0.75
e− x2 (b) (a) e−x2 (b) (a) 0.78
−∞ 1√ 2π distribution function of the standard normal distribution. −∞ 1√ 2π 標準正規分布の分布関数。 0.72
fectivity vs. training iterations on the AlphaStar game. AlphaStarゲームにおけるエフェクティビティ対トレーニングの繰り返し。 0.78
cdf(k) =(cid:82) k cdf(k) =(cid:82) k 0.98
Figure 7: Ablation study on λ2. 図7: λ2 のアブレーション研究。 0.83
(a):Exploitability vs. training iterations. (a): 拡張性対トレーニングの反復。 0.77
(b): Negative Population Ef2 dx is the cumulative (b)負の人口Ef2dxが累積である 0.75
e− x2 (b) (a) e−x2 (b) (a) 0.78
−∞ 1√ 2π distribution function of the standard normal distribution. −∞ 1√ 2π 標準正規分布の分布関数。 0.72
8        %7,33907,9438  549,-95,$9,71./1 1./1 1./1 1./1 1./1  1./1  1./1  1./1  1./1         %7,33907,9438  0,9;0!45:,943110.9;95,$9,71./1 1./1 1./1 1./1 1./1  1./1  1./1  1./1  1./1         %7,33907,9438  549,-95,$9,72./1 2./1 2./1 2./1 2./1  2./1  2./1  2./1  2./1         %7,33907,9438  0,9;0!45:,943110.9;95,$9,72./1 2./1 2./1 2./1 2./1  2./1  2./1  2./1  2./1  8        %7,33907,9438  549,-95,$9,71./1 1./1 1./1 1./1 1./1  1./1  1./1  1./1  1./1         %7,33907,9438  0,9;0!45:,943110.9;95,$9,71./1 1./1 1./1 1./1 1./1  1./1  1./1  1./1  1./1         %7,33907,9438  549,-95,$9,72./1 2./1 2./1 2./1 2./1  2./1  2./1  2./1  2./1         %7,33907,9438  0,9;0!45:,943110.9;95,$9,72./1 2./1 2./1 2./1 2./1  2./1  2./1  2./1  2./1  0.55
英語(論文から抽出)日本語訳スコア
Table 7: Exploitability×102 for populations generated by PSRO only with BD with varied diversity weight λ1. 表7:psroが生成する個体群は多様度 λ1 の bd のみである。 0.61
7.5 14.57 ± 0.69 7.5 14.57 ± 0.69 0.53
λ2 7500 62.69 ± 10.90 Expl Table 8: Exploitability×102 for populations generated by PSRO only with RD with varied diversity weight λ2. λ2 7500 62.69 ± 10.90 Expl Table 8: Exploitability×102 for population generated by PSRO only with RD with various diversity weight λ2。 0.86
750 42.37 ± 10.12 750 42.37 ± 10.12 0.65
75 14.64 ± 1.48 75 14.64 ± 1.48 0.65
15 14.93 ± 1.87 15 14.93 ± 1.87 0.65
1500 33.39 ± 5.71 1500 33.39 ± 5.71 0.65
λ2 Expl 0.5 16.23 ± 0.48 λ2 Expl 0.5 16.23 ± 0.48 0.71
1.0 14.06 ± 1.20 1.0 14.06 ± 1.20 0.53
5.0 14.77 ± 0.09 5.0 14.77 ± 0.09 0.53
10.0 15.60 ± 1.11 10.0 15.60 ± 1.11 0.53
50.0 31.29 ± 12.93 50.0 31.29 ± 12.93 0.53
Table 9: The win-rate between the final policies of different methods after trained for 300000 model steps. 表9: 300000のモデルステップでトレーニングした後、異なるメソッドの最終ポリシー間の勝利率。 0.82
(We set λ1 = λ2 = 0.5 as default values for PSRO w. RD and PSRO w. BD&RD) (PSROw.RDとPSROw.BD&RDのデフォルト値としてλ1 = λ2 = 0.5とする) 0.80
Method PSRO w. RD (λ2 = 1.0) PSRO w. RD (λ2 = 0.5) PSRO w. RD (λ2 = 0.2) PSRO w. BD&RD 方法 PSRO w. RD (λ2 = 1.0) PSRO w. RD (λ2 = 0.5) PSRO w. RD (λ2 = 0.2) PSRO w. BD&RD 0.82
Self-play 0.62 ± 0.01 0.68 ± 0.03 0.63 ± 0.02 0.74 ± 0.02 Self-play 0.62 ± 0.01 0.68 ± 0.03 0.63 ± 0.02 0.74 ± 0.02 0.51
PSRO 0.49 ± 0.03 0.61 ± 0.02 0.48 ± 0.02 0.78 ± 0.01 PSRO 0.49 ± 0.03 0.61 ± 0.02 0.48 ± 0.02 0.78 ± 0.01 0.55
PSROrN 0.65 ± 0.02 0.74 ± 0.03 0.68 ± 0.02 0.80 ± 0.05 PSROrN 0.65 ± 0.02 0.74 ± 0.03 0.68 ± 0.02 0.80 ± 0.05 0.55
PSRO w. BD PSRO w. RD PSRO w. BD&RD 0.33 ± 0.02 0.47 ± 0.01 0.54 ± 0.02 0.43 ± 0.02 0.50 ± 0.01 0.28 ± 0.03 0.69 ± 0.02 - PSRO w. BD PSRO w. RD PSRO w. BD&RD 0.33 ± 0.02 0.47 ± 0.01 0.54 ± 0.02 0.43 ± 0.02 0.50 ± 0.01 0.28 ± 0.03 0.69 ± 0.02 - 0.62
0.28 ± 0.040.45 ± 0.03 0.57 ± 0.02 0.28 ± 0.040.45 ± 0.03 0.57 ± 0.02 0.50
Algorithm 3 Optimization for Matrix Games 1: Input: population Pi for each i, meta-game APi×P−i, weights λ1 and λ2, learning rate µ 2: σi, σ−i ← Nash on APi×P−i 3: πE ← Aggregate according to σi, σ−i 4: π(cid:48) アルゴリズム3 行列ゲームのための最適化 1: 入力: 各 i, メタゲーム APi×P−i, ウェイトs λ1, λ2, 学習率 μ2: σi, σ−i > Nash on APi×P−i 3: πE > Aggregate according σi, σ−i 4: π(cid:48) 0.79
5: BRqual ← Compute best response against mixture of opponents(cid:80) 5:BRqual > Compute best response against mixeds of opponents (cid:80) 0.77
i(θ) ← Initialize a new random policy for player i i(θ) > プレイヤー i に対する新しいランダムポリシーの初期化 0.79
k σk−iφi(·, πk−i) k σk−iφi(·, πk−i) 0.67
θ ← µθ + (1 − µ)θBR θ ← µθ + (1 − µ)θBR 0.93
p ← Compute the payoff p after the update according to(cid:80) 更新後のペイオフ p を(cid:80) に従って計算する。 0.61
6: while the reward p improvement does not meet the threshold do 7: BRocc ← arg maxsj Df (sj||πi) for each pure strategy sj 8: BR ← Choose BR = BRocc with probability λ1 else BR = BRqual 9: k σk−iφi(π(cid:48) 10: 11: end while 12: BRrew ← arg maxsj F (sj) for each pure strategy sj with probability λ2 else BRqual 13: θ ← µθ + (1 − µ)θBRrew 14: Output: policy π(cid:48) 6: 報酬 p の改善は、それぞれの純粋な戦略 sj 8 に対して BRocc > arg maxsj Df (sj||πi) を満たさない: BR > Choose BR = BRocc with probability λ1 else BR = BRqual 9: k σk−iφi(π(cid:48) 10: 11: end while 12: BRrew > arg maxsj F (sj) for each pure strategy sj with probability λ2 else BRqual 13: θ > μθ + (1 − μ)θBRrew 14: Output: policy π(cid:48) 14: Output: policy π(cid:48) 0.89
i(θ), πk−i) i(θ, πk−i) 0.93
i(ˆθ) i (複数形 is) 0.41
F.3 Google Research Football F.3 Google Research Football 0.84
We also carry out an ablation study on the weight of RD λ2 (see Table 9) in the GRF environment, where we fixed λ1 to be 0.5 and show the results with different λ2. また、GRF環境におけるRD λ2(表9参照)の重量に関するアブレーション研究を行い、λ1 を0.5 に固定し、異なる λ2 で結果を示す。 0.85
G Simplified Optimization Method for Unified Diverse Response 統一多様応答のg簡易最適化法 0.78
In Algorithm 1, we have outlined using RL as the optimization oracle for approximate best response. アルゴリズム1では、最適応答を近似する最適化オラクルとしてRLを用いて概説した。 0.68
However, computing best response in real-world metagames (matrix games) or non-transitive mixture model (differential games) can be simplified, since the f-divergence objective can be simplified according to Theorem 1 or the reward function φi is analytically accessible. しかし、実世界のメタゲーム(マトリクスゲーム)や非推移混合モデル(微分ゲーム)における最良の応答の計算は、定理1に従ってf分割目的を単純化したり、報酬関数φiが解析的にアクセス可能であるため、単純化することができる。 0.62
Now we provide the simplified optimization methods separately for matrix games in Algorithm 3 and differential games in Algorithm 4. 本稿ではアルゴリズム3の行列ゲームとアルゴリズム4の差分ゲームとを分離して単純化した最適化手法を提案する。 0.69
9 9 0.85
英語(論文から抽出)日本語訳スコア
pj ← Compute payoff against the mixture of opponents pj =(cid:80) 対するpj=(cid:80)の混合に対するペイオフを計算する。 0.59
Algorithm 4 Optimization for Differential Games 1: Input: population Pi for each i, meta-game APi×P−i, weights λ1 and λ2, number of gradient 2: σi, σ−i ← Nash on APi×P−i 3: πE = (πi, πE−i) ← Aggregate according to σi, σ−i i(θ) ← Initialize a new random policy for player i 4: π(cid:48) 5: for j = 1 to Ntrain do 6: 7: 8: 9: 10: 11: 12: end for 13: Output: policy π(cid:48) アルゴリズム4 ディファレンシャルゲームのための最適化 i, meta-game api×p−i, weights λ1 および λ2, number of gradient 2: σi, σ−i , nash on api×p−i 3: πe = (πi, πe−i) ] aggregate through σi, σ−i i(θ) 5: for j = 1 to ntrain do 6: 7: 8: 9: 10: 11: 12: end for 13: output: policy π(cid:48) 0.73
j ← Compute BD docc docc aj ← Compute new reward vector as aj = (φi(π(cid:48) j ← Compute the lower bound of RD as F (aj) according to Theorem 2 drew lj ← −(pj + λ1docc Update θ to minimize lj by backpropagation j は aj = ( φi(π(cid:48) j ) として新しい報酬ベクトルを計算 rd の下界を f (aj) として計算する 定理 2 によれば、ドリュー lj は −(pj + λ1docc update θ でバックプロパゲーションによって lj を最小化する。 0.60
j = Df (π(cid:48) j = Df(π(cid:48)) 0.83
i, πk−i) i||πi) as the f-divergence between πi and π(cid:48) i, πk−i)i||πi) は πi と π(cid:48) の間の f-分割である 0.58
i k σk−iφi(π(cid:48) 私は k σk-iφi(π(cid:48) 0.55
i, πk−i)) |P−i| k=1 i, πk−i) |P−i| k=1 0.57
updates Ntrain アップデート Ntrain 0.80
j + λ2drew j + λ2drew 0.78
j ) i(θ) References j ) i(θ) 参考文献 0.80
[1] Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Vlad Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. [1] lasse espeholt, hubert soyer, remi munos, karen simonyan, vlad mnih, tom ward, yotam doron, vlad firoiu, tim harley, iain dunning, et al impala: scalable distributed deep-rl with importanted actor-learner architectures (英語) 0.71
In International Conference on Machine Learning, pages 1407-1416. 機械学習に関する国際会議1407-1416頁。 0.72
PMLR, 2018. 2018年、PMLR。 0.68
[2] Arpad E Elo. [2] arpad e elo である。 0.74
The rating of chessplayers, past and present. チェスプレーヤーの過去と現在のレーティング。 0.46
Arco Pub. 1978. Arco Pub 1978. 0.71
[3] Yury Polyanskiy. Yury Polyanskiy (複数形 Yury Polyanskiys) 0.57
Definition and basic properties of f-divergences. f-divergencesの定義と基本特性 0.83
http://people.lids.m it.edu/yp/ homepage/data/LN_fdi v.pdf http://people.lids.m it.edu/yp/ homepage/data/LN_fdi v.pdf 0.25
[4] Karol Kurach, Anton Raichuk, Piotr Stanczyk, MichaZajac, Olivier Bachem, Lasse Espeholt, Carlos Riquelme, Damien Vincent, Marcin Michalski, Olivier Bousquet, et al Google research football: A novel reinforcement learning environment. 4] karol kurach, anton raichuk, piotr stanczyk, michazajac, olivier bachem, lasse espeholt, carlos riquelme, damien vincent, marcin michalski, olivier bousquet, et al google research football: a novel reinforcement learning environment。
訳抜け防止モード: [4 ]カロル・クラッホ、アントン・ライヒク、ピョートル・スタンツィク、 MichaZajac, Olivier Bachem, Lasse Espeholt, Carlos Riquelme, Damien Vincent Marcin Michalski, Olivier Bousquet, et al Google Research Football : 新しい強化学習環境
0.75
In Proceedings of the AAAI Conference on Articial Intelligence, volume 34, pages 4501-4510, 2020. AAAI Conference on Articial Intelligence, Volume 34, page 4501-4510, 2020 0.61
10 10 0.85
                                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。