論文の概要、ライセンス

# (参考訳) 共同行動分布を用いた多エージェント強化学習における情報表現 [全文訳有]

Informative Policy Representations in Multi-Agent Reinforcement Learning via Joint-Action Distributions ( http://arxiv.org/abs/2106.05802v1 )

ライセンス: CC BY 4.0
Yifan Yu, Haobin Jiang, Zongqing Lu(参考訳) 多エージェント強化学習において、他のエージェントの行動によって引き起こされる環境の非定常性は、エージェントが独立して良い政策を学ぶのに重大な困難を生じさせた。 非定常性に対処する一つの方法はエージェントモデリングであり、エージェントは他のエージェントのポリシーの影響を考慮に入れる。 既存の作業の多くは、他のエージェントの行動や目標を予測したり、政策を区別したりすることに依存している。 しかし、このようなモデリングはポリシー間の類似点と相違点を同時に捉えることができず、不明瞭なポリシーに一般化する際に有用な情報を提供できない。 そこで本研究では,インタラクションでサンプリングされた協調行動分布を用いて,他のエージェントのポリシーの表現を学習する一般的な手法を提案する。 政策間の類似性や相違は、共同行動分布から推定される政策距離によって自然に捉えられ、学習された表現に故意に反映される。 政策表象に基づくエージェントは、目に見えないエージェントにうまく一般化することができる。 提案手法は,未確認エージェントに直面する場合,既存のマルチエージェントタスクよりも優れていることを示す。

In multi-agent reinforcement learning, the inherent non-stationarity of the environment caused by other agents' actions posed significant difficulties for an agent to learn a good policy independently. One way to deal with non-stationarity is agent modeling, by which the agent takes into consideration the influence of other agents' policies. Most existing work relies on predicting other agents' actions or goals, or discriminating between their policies. However, such modeling fails to capture the similarities and differences between policies simultaneously and thus cannot provide useful information when generalizing to unseen policies. To address this, we propose a general method to learn representations of other agents' policies via the joint-action distributions sampled in interactions. The similarities and differences between policies are naturally captured by the policy distance inferred from the joint-action distributions and deliberately reflected in the learned representations. Agents conditioned on the policy representations can well generalize to unseen agents. We empirically demonstrate that our method outperforms existing work in multi-agent tasks when facing unseen agents.
公開日: Thu, 10 Jun 2021 15:09:33 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Informative Policy Representations in Multi-Agent Reinforcement Learning via マルチエージェント強化学習における情報表現 0.75
Joint-Action Distributions Yifan Yu*, Haobin Jiang*, Zongqing Lu† {markyu, haobin.jiang, zongqing.lu}@pku.edu.cn 協調行動分布 Yifan Yu*, Haobin Jiang*, Zongqing Lu' {markyu, haobin.jiang, zongqing.lu}@pku.edu.cn 0.80
Peking University 1 2 0 2 北京大学 1 2 0 2 0.81
n u J 0 1 ] n u J 0 1 ] 0.85
G L . s c [ 1 v 2 0 8 5 0 G L。 sc [ 1 v 2 0 8 5 0 0.70
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract learning, In multi-agent reinforcement the inherent nonstationarity of the environment caused by other agents’ actions posed significant difficulties for an agent to learn a good policy independently. 概要 学ぶこと 多エージェント強化において、他のエージェントの行動によって引き起こされる環境の非定常性は、エージェントが独立して良い政策を学ぶのに重大な困難を生じさせた。 0.54
One way to deal with non-stationarity is agent modeling, by which the agent takes into consideration the influence of other agents’ policies. 非定常性に対処する一つの方法はエージェントモデリングであり、エージェントは他のエージェントのポリシーの影響を考慮に入れる。 0.83
Most existing work relies on predicting other agents’ actions or goals, or discriminating between their policies. 既存の作業の多くは、他のエージェントの行動や目標を予測すること、あるいはポリシーを区別することに依存しています。
訳抜け防止モード: 既存の仕事の多くは 他のエージェントの行動や目標を予測すること、あるいはポリシーを区別すること。
0.70
However, such modeling fails to capture the similarities and differences between policies simultaneously and thus cannot provide useful information when generalizing to unseen policies. しかし、このようなモデリングはポリシー間の類似点と相違点を同時に捉えることができず、不明瞭なポリシーに一般化する際に有用な情報を提供できない。 0.54
To address this, we propose a general method to learn representations of other agents’ policies via the joint-action distributions sampled in interactions. そこで本研究では,インタラクションでサンプリングされた協調行動分布を用いて,他のエージェントのポリシーの表現を学習する一般的な手法を提案する。 0.67
The similarities and differences between policies are naturally captured by the policy distance inferred from the joint-action distributions and deliberately reflected in the learned representations. 政策間の類似性や相違は、共同行動分布から推定される政策距離によって自然に捉えられ、学習された表現に故意に反映される。 0.67
Agents conditioned on the policy representations can well generalize to unseen agents. 政策表象に基づくエージェントは、目に見えないエージェントにうまく一般化することができる。 0.56
We empirically demonstrate that our method outperforms existing work in multi-agent tasks when facing unseen agents. 提案手法は,未確認エージェントに直面する場合,既存のマルチエージェントタスクよりも優れていることを示す。 0.52
Introduction In recent years, deep reinforcement learning (RL) achieved tremendous success in a range of complex tasks, such as Atari games (Mnih et al 2015), Go (Silver et al 2016, 2017), and StarCraft (Vinyals et al 2019). はじめに 近年、deep reinforcement learning(rl)はatari games(mnih et al 2015)、go(silver et al 2016 2017)、starcraft(vinyals et al 2019)といった複雑なタスクで大きな成功を収めている。
訳抜け防止モード: はじめに 近年、深層強化学習 (deep reinforcement learning, rl) は様々な複雑なタスクで大きな成功を収めている。 例えば、atari games (mnih et al 2015)、go (silver et al 2016 2017) などがある。 そしてstarcraft(vinyals et al 2019)だ。
0.68
However, real-world scenarios often requires multiple agents instead of one. しかし、現実のシナリオでは、複数のエージェントが必要となることが多い。 0.57
With the introduction of other agents, the environment is no longer stationary in the view of each individual agent in the multiagent system, when the joint policy of other agents is changing. 他のエージェントの導入により、他のエージェントのジョイントポリシーが変更されている場合、マルチエージェントシステム内の個々のエージェントの視点では、環境はもはや静止しない。 0.76
The non-stationary nature and the explosion of dimensions pose many challenges to learning in multi-agent environments. 非定常な性質と次元の爆発は、マルチエージェント環境での学習に多くの課題をもたらす。 0.63
To address these challenges, centralized and decentralized algorithms (Lowe et al 2017; Zhang et al 2018), communication (Foerster et al 2016; Sukhbaatar, Fergus et al 2016; Peng et al 2017; Jiang and Lu 2018), value decomposition (Sunehag et al 2018; Rashid et al 2018; Foerster et al 2018b; Son et al 2019) and agent modeling (He et al 2016; Hong et al 2018; Raileanu et al 2018) are proposed successively in attempts to improve the performance of deep RL これらの課題に対処するために、集中型および分散型アルゴリズム(lowe et al 2017; zhang et al 2018)、コミュニケーション(foerster et al 2016; sukhbaatar, fergus et al 2016; peng et al 2017; jiang and lu 2018)、価値分解(sunehag et al 2018; rashid et al 2018; foerster et al 2018b; son et al 2019)、エージェントモデリング(he et al 2016; hong et al 2018; raileanu et al 2018)が、deep rlのパフォーマンスを改善する試みとして提案されている。 0.86
*Equal contribution †Correspondence to Zongqing Lu <zongqing.lu@pku.edu. cn> ※『宗慶』と『宗慶』との対等貢献 0.35
algorithms in various multi-agent settings, such as competition and cooperation, from different perspectives. 競争や協力などの様々なマルチエージェント設定におけるアルゴリズムは、異なる視点からである。 0.75
One way to address non-stationarity is to distinguish between the invariant dynamics of the environment and the influence of other agents’ joint policy, and consider them separately in order to learn an effective policy. 非定常性に対処する一つの方法は、環境の不変ダイナミクスと他のエージェントの合同ポリシーの影響を区別し、効果的なポリシーを学ぶためにそれらを別々に考えることである。 0.73
In this way, agent modeling has become one of the main research directions, in which the goals, policies or actions of other agents are predicted or represented as auxiliary tasks of the RL algorithms (He et al 2016; Hong et al 2018; Grover et al 2018). このように、エージェントモデリングは、他のエージェントの目標、ポリシー、アクションをrlアルゴリズムの補助タスクとして予測または表現する主要な研究方向の1つとなっている(he et al 2016; hong et al 2018; grover et al 2018)。 0.70
Thus, the agent’s decision takes into account the dynamics of the environment and other agents separately, leading to improved performance during training and execution. したがって、エージェントの決定は、環境と他のエージェントのダイナミクスを別々に考慮し、トレーニングと実行におけるパフォーマンスの向上につながる。 0.79
In this paper, we focus on the multi-agent learning problem that one agent learns while interacting with other agents (collectively termed as opponents for convenience, whether collaborators or competitors), whose policies are sampled from a set of fixed policies at the beginning of each episode during training. 本稿では、あるエージェントが他のエージェントと対話しながら学習するマルチエージェント学習問題(協力者や競合者など)に焦点を当て、トレーニング中の各エピソードの開始時に設定された一連のポリシーから、そのポリシーをサンプリングする。 0.73
To perform well, the learning agent should be able to distinguish different opponents’ policies and adopt its corresponding policy. そのため,学習エージェントは,異なる相手の方針を識別し,対応する方針を採用することができる必要がある。 0.74
More importantly, we expect this agent to be immediately generalizable, i.e., to adapt quickly and achieve high performance when facing unseen opponents during execution without updating parameters. さらに重要なことは、このエージェントがすぐに一般化できること、すなわちパラメータを更新せずに実行中に目に見えない相手に対して素早く適応し、高いパフォーマンスを達成することを期待することです。 0.56
Note that this setting is different from the continuous adaptation problem (Al-Shedivat et al 2018; Foerster et al 2018a; Kim et al 2020), where both the agent and opponents learn continuously. この設定は、エージェントと対戦相手の両方が継続的に学習する継続的適応問題(al-shedivat et al 2018; foerster et al 2018a; kim et al 2020)とは異なることに注意してください。
訳抜け防止モード: この設定は継続的適応問題(Al - Shedivat et al 2018 ; Foerster et al 2018a ; Kim et al 2020 )とは異なることに注意。 エージェントも 対戦相手も 継続的に学び続ける。
0.82
Similarity can be defined as the distance in physical space or in mental space (Shepard 1957), and plays an important role in problem solving, reasoning, social decision making, etc. 類似性は、物理的空間や精神空間における距離(shepard 1957)として定義することができ、問題解決、推論、社会的意思決定などにおいて重要な役割を果たす。 0.79
(Hahn, Chater, and Richardson 2003). (Hahn, Chater, and Richardson 2003)。 0.80
Some cognitive and social science theories suggest that the observer constructs mental representations for persons. いくつかの認知科学と社会科学の理論は、観察者が人の精神的表現を構築することを示唆している。 0.48
When encountering a new person, the observer makes judgements and inferences based on the similarity between the new individual and known ones (Smith and Zarate 1992). 新しい人と出会ったとき、観察者は新しい個人と既知の人物の類似性に基づいて判断と推測を行う(Smith and Zarate 1992)。 0.83
Therefore, we believe it is also important to consider the similarity between different opponents’ policies when modeling them, rather than mere distinction. したがって、単に区別するよりも、モデリング時に異なる相手のポリシーの類似性を考慮することも重要であると考える。 0.79
Inspired by this theory, we propose Informative Policy Representations (IPR), a novel method to learn policy representations which are informative in that they reflect both similarities and differences by capturing the distances between different policies of opponents. この理論に触発されて,異なる政策間の距離を捉えることで,類似点と相違点の両方を反映した情報的政策表現を学習する新しい手法であるIPR(Informative Policy Representations)を提案する。 0.89
英語(論文から抽出)日本語訳スコア
In multi-agent tasks, the distance between different agent policies are naturally reflected in the difference between action patterns, and eventually in that of joint-action distributions that can be sampled in interactions with different policies. 多エージェントタスクでは、異なるエージェントポリシー間の距離は、アクションパターンの違いに自然に反映され、最終的には異なるポリシーとの相互作用でサンプル化できる共同アクション分布に反映される。 0.76
IPR exploits these distributions to quantify the policydistance so as to essentially model the policy space, and embeds these information in the corresponding policy representations. iprはこれらの分布を利用して政策距離を定量化し、本質的に政策空間をモデル化し、これらの情報を対応する政策表現に埋め込む。 0.68
In this way, IPR can accomplish quick adaptation and generalization no matter in competitive or cooperative, partially or fully observable settings. このようにして、IPRは、競争的、協力的、部分的に、あるいは完全に観察可能な環境において、迅速な適応と一般化を達成できる。 0.45
Through experiments, we demonstrate that IPR can greatly improve the learning of existing RL algorithms, especially when interacting with opponents with unseen policies. In experiment, we demonstrate that IPR can significantly improve the learning of existing RL algorithm, especially during interacting opponents with unseen policy。 0.74
We further show that the learned policy representations correctly reflect the relations between policies. さらに,学習した政策表現が,政策間の関係を正しく反映していることを示す。 0.67
Related Work In the continuous adaptation problem, the change of opponents’ policies comes from the parameter update. 関連作品 継続的適応問題では、反対者のポリシーの変更はパラメータの更新から生じる。 0.71
LOLA (Foerster et al 2018a) takes opponents’ learning process into consideration, where the agent acquires high rewards by shaping the learning directions of the opponents. lola(foerster et al 2018a)は、相手の学習プロセスを考慮に入れ、エージェントが相手の学習方向を形作ることで高い報酬を得る。 0.57
AlShedivat et al [2018] proposed a method based on meta policy gradient and Kim et al [2020] extends this method by introducing the opponent learning gradient. alshedivat et al [2018] はメタポリシー勾配に基づく手法を提案し、kim et al [2020] は反対学習勾配を導入することでこの方法を拡張した。 0.77
Unlike continuous adaptation, in settings like ours where the opponents act based on fixed policies, direct modeling of opponents becomes effective. 連続的な適応とは異なり、相手が一定のポリシーに基づいて行動するような設定では、相手の直接モデリングが効果的になる。 0.56
One approach is to predict actions or goals of opponents via deep neural networks, which serves as an auxiliary task for RL. ひとつのアプローチは、RLの補助タスクとして機能するディープニューラルネットワークを介して、対戦者の行動や目標を予測することである。 0.61
Based on DQN (Mnih et al 2015), DRON (He et al 2016) and DPIQN (Hong et al 2018) use a secondary network which takes observations as inputs and predicts opponents’ actions. DQN(Mnih et al 2015)、DRON(He et al 2016)、DPIQN(Hong et al 2018)は2次ネットワークを使用して、インプットとして観察を行い、相手の行動を予測する。 0.83
The hidden layer of this network is used by the DQN module to condition on for better policy. このネットワークの隠された層はDQNモジュールによってより良いポリシーを条件に使用される。 0.87
DRON and DPIQN are trained using the RL loss and the loss of the auxiliary task simultaneously. DRONとDPIQNは、RL損失と補助タスクの損失を同時にトレーニングする。
訳抜け防止モード: DRONとDPIQNは訓練されている RL損失と補助タスクの損失を同時に使用する。
0.80
SOM (Raileanu et al 2018) uses its own policy to estimate the goals of opponents, behaving like human’s Theory of Mind (Premack and Woodruff 1978). SOM(Raileanu et al 2018)は独自のポリシーを使って、人間の心の理論(Premack and Woodruff 1978)のように、相手の目標を推定する。 0.80
Representation learning is also explored for agent modeling. エージェントモデリングのための表現学習も検討されている。 0.64
These methods usually use an encoder mapping observations to the representation space.Grover et al [2018] learns policy representation to model and distinguish agents’ policies by predicting their actions and identifying them through triplet loss.In fact, the auxiliary tasks in DRON (He et al 2016) and DPIQN (Hong et al 2018) can also be viewed essentially as representation learning. これらの手法は通常、観察を表現空間にマッピングするエンコーダを使用する。grover et al [2018]は、アクションを予測し、三重項損失によって識別することでエージェントのポリシーをモデル化し、識別するためにポリシー表現を学習する。実際、ddon (he et al 2016) とdpiqn (hong et al 2018) の補助タスクは、本質的には表現学習と見なすこともできる。
訳抜け防止モード: これらの方法は通常、エンコーダマッピングの観測を表現空間に使用する。 Groverらは、エージェントのポリシーをモデル化し、区別するためにポリシー表現を学ぶ 行動の予測と三重項の損失による識別です 実際、DRON(He et al 2016)の補助的タスク DPIQN (Hong et al 2018 ) も基本的に表現学習と見なすことができる。
0.76
Though having achieved high performance in multi-agent tasks, many of the aforementioned methods have limitations or do not specifically consider generalization in execution.SOM (Raileanu et al 2018) and DRON (He et al 2016) require opponents’ observations or actions to do inference, which may be unrealistic in execution. マルチエージェントタスクで高いパフォーマンスを達成したが、前述のメソッドの多くは制限があるか、実行時の一般化を特に考慮していない。SOM (Raileanu et al 2018) と DRON (He et al 2016) は、実行時に非現実的な推論を行うために、相手の観察やアクションを要求する。 0.64
DPIQN (Hong et al 2018) and Grover et al [2018] do use local information only. DPIQN (Hong et al 2018) と Grover et al [2018] はローカル情報のみを使用している。 0.92
However, training with action prediction as a supervision signal makes the performance rely heavily on the unseen policy to be similar enough to training policies.Moreover, Grover et al [2018] captures only differences between op- しかし, 行動予測を監督信号として訓練することで, 性能は未熟な方針に重きを置き, 訓練方針に匹敵するものとなる。 0.55
ponents’ policies, but ignores similarities that we believe are important. ponentsのポリシーは重要ですが、私たちが重要だと考えている類似性は無視します。 0.53
Our proposed IPR avoids these deficiencies by learning representations that reflect distances between opponents’ policies, capturing both similarities and differences between them. 提案するiprは,相手の方針間の距離を反映した表現を学習し,両者の類似性と差異を捉えることにより,これらの欠陥を回避する。 0.63
Thus, IPR essentially models the policy space, so that it adapts immediately when facing unseen policies in execution without parameter updating like continuous learning (Al-Shedivat et al 2018; Kim et al 2020). したがって、IPRは基本的にポリシー空間をモデル化し、連続学習のようなパラメータ更新なしで実行中に見知らぬポリシーに直面するとすぐに適応する(Al-Shedivat et al 2018; Kim et al 2020)。 0.68
Besides, the agent requires no additional information other than its own observations during execution. さらに、エージェントは実行中の自身の観察以外の追加情報を必要としない。 0.71
Preliminaries Multi-Agent Environment We use a setting similar to Hong et al [2018] to model a multi-agent environment E with N + 1 independent agents: one learning agent and the other N agents with any policies. 予科 マルチエージェント環境 N + 1 個の独立したエージェントを持つマルチエージェント環境 E をモデル化するために、Hong et al [2018] に類似した設定を使用します。 0.61
At each timestep, the learning agent selects an action a ∈ A, while the other N agents’ actions form a joint action ao ∈ Ao, where Ao = A1 × A2 × ··· × AN . 各時間ステップにおいて、学習エージェントは作用 a ∈ A を選択し、他の N エージェントの作用は Ao ∈ Ao となり、Ao = A1 × A2 × ··· × AN となる。 0.83
The subscript o denotes “opponents”, and A1, . subscript o は “opponents” と A1, . 0.74
. . ,AN corresponds to each of the N agents’ action space. . . ,AN は N エージェントの各アクション空間に対応する。 0.81
The policies of the N agents form a joint policy denoted by πo(ao|oo), where oo denotes the joint observation of the N agents. N エージェントのポリシーは πo(ao|oo) で表される合同ポリシーを形成し、oo は N エージェントの合同観測を表す。 0.63
The policy of each of the N agents is consistent within the same episode. 各Nエージェントのポリシーは同じエピソード内で一貫性がある。 0.63
We define the learning agent’s policy as π(a|o, πo) to condition on πo. 我々は学習エージェントの方針を πo 上の条件に π(a|o, πo) と定義する。 0.82
We make no assumptions on agents’ relations with each other: each pair of agents in E can be either collaborators or competitors. エージェント同士の関係を仮定することはできません。E内のエージェントのペアは、共同作業者か競合者かのいずれかでもよいのです。
訳抜け防止モード: 我々はエージェント同士の関係を仮定しない E 内の各エージェントは、共同作業者または競合者となることができる。
0.79
The reward of the learning agent at each timestep is given by a reward function R: r = R(s, a, ao, s(cid:48)), and the state transition function is T (s(cid:48), s, a, ao) = Pr(s(cid:48)|s, a, ao). r = R(s, a, ao, s(cid:48)) であり、状態遷移関数は T(s(cid:48), s, a, ao) = Pr(s(cid:48)|s, a, ao) である。
訳抜け防止モード: 各タイムステップにおける学習エージェントの報酬は、報酬関数R : r = R(s, a, ao, s(cid:48 ) ) であり、状態遷移関数は T ( s(cid:48 ) である。 s, a, ao ) = Pr(s(cid:48)|s, a, ao ) である。
0.86
Agent’s Policy Space We notice the number of different possible policies that each of the other agents can take is numerous, if not infinite. エージェントのポリシースペース 他のエージェントが得る可能性のあるさまざまなポリシーの数は、無限ではないとしても数である点に気付きます。 0.76
For generalization to any possible policies, we consider the “policy space” Πi formed by all possible policies of agent i in E. In each episode, agent i acts according to a policy πi which is sampled from a distribution Pi over Πi. 任意の可能なポリシーを一般化するために、エージェント i の E におけるすべての可能なポリシーによって形成される「政治空間」 πi を考える。
訳抜け防止モード: あらゆる可能な政策を一般化するために、各エピソードにおいてエージェントiのすべての政策によって形成される「政策空間」を考察する。 エージェント i は、πi 上の分布 Pi からサンプリングされるポリシー πi に従って作用する。
0.77
Therefore, the joint policy of the N agents πo can be viewed as sampled from the joint distribution P over the joint policy space Πo : Π1 × Π2 × ··· × ΠN . したがって、N エージェント πo の合同ポリシーは、合同ポリシー空間 πo 上の合同分布 P からサンプルとして見ることができる: ^1 × ^2 × ··· ^N である。 0.63
The Multi-Agent Learning Problem In this paper, we focus on the learning problem for the learning agent described as follows. 本稿では,マルチエージェント学習問題について,次の学習エージェントの学習問題に焦点を当てる。 0.78
Given environment E with × N + 1 agents, a training policy set Πtrain × ··· × Πtrain resembles the distribution P over Πtrain resembles the distribution Pi over Πo, where each Πtrain Πi. × n + 1 のエージェントを持つ環境 e が与えられると、訓練ポリシー集合 πtrain × ··· × πtrain は πtrain 上の分布 p に似ており、各 πtrain πi が πo 上の分布 pi に似ている。 0.62
In each episode during training, the learning agent inter, π2 ∈ acts with the other N agents with policy π1 ∈ Πtrain N , respectively. トレーニング中の各エピソードにおいて、学習剤Inter, π2 ∈は、それぞれポリシー π1 ∈ シュトレイン N で他の N エージェントと作用する。 0.75
These policies form Πtrain ∈ Πtrain a joint policy πtrain , on which the learning agent should condition its policy to maximize the expected return. これらのポリシーは、学習エージェントが期待されるリターンを最大化するためにそのポリシーを条件にすべき共同ポリシー πtrain を形成する。 0.69
The learning agent is tested against agents with joint policy 1 ×Πtest 2 × πtest ···×Πtest = ∅. 学習剤は、ジョイントポリシー1 × 2 × πtest ···× πtest = . のエージェントに対して試験される。 0.64
During test, the learning from the test policy set, where Πtest N and Πtest テスト中 学習は テストポリシーセットから, テスト N と テスト 0.52
, . . . , πN ∈ Πtrain , . . . , πn ∈ πtrain 0.83
o ∩Πtrain o = Πtest オ・ピョートレイン o = πtest 0.43
= Πtrain 1 N =πトレイン 1 N 0.75
i 1 2 2 o 私は 1 2 2 おお 0.75
o o o o おお おお おお おお 0.65
英語(論文から抽出)日本語訳スコア
agent has to not only discriminate different (joint) policies in Πo to condition its own policy, but also calibrate the distances between policies through their representations, and thus achieve high return when facing unseen policies. エージェントは、πoの異なる(協力的な)政策を識別するだけでなく、その政策間の距離をその代表を通じて調整し、目に見えない政策に直面すると高いリターンを得る必要がある。
訳抜け防止モード: エージェントはシャオで異なる(共同)ポリシーを識別するだけでなく 独自の方針を定めています 政策間の距離を調整します 目に見えない政策に直面すると 高いリターンが得られます。
0.81
Once again, we assume the learning agent do not update the policy during test, which is different from meta-learning methods, like MAML (Finn, Abbeel, and Levine 2017). 繰り返しになるが、学習エージェントは、MAML(Finn, Abbeel, Levine 2017)のようなメタ学習方法とは異なる、テスト中にポリシーを更新しないと仮定する。 0.82
Method Firstly, we estimate the distances between opponents’ (joint) policies by the distances between the sampled joint-action distributions. 方法 まず、サンプル化された共同行動分布間の距離によって、相手の(関節)ポリシー間の距離を推定する。 0.72
IPR then uses the estimated policy-distances to train an encoder network so that the obtained representationdistan ces correctly reflect the distances between opponents’ policies. iprは推定ポリシー距離を使用してエンコーダネットワークをトレーニングし、得られた表現距離が相手のポリシー間の距離を正確に反映するようにします。
訳抜け防止モード: IPRは推定ポリシを使用する - 距離 得られた表現距離が相手のポリシー間の距離を正しく反映するようにエンコーダネットワークを訓練する。
0.74
As a general framework, IPR can function with any RL algorithms as an auxiliary module, providing informative representation of opponents’ (joint) policy. 一般的なフレームワークとして、IRPは任意のRLアルゴリズムを補助モジュールとして機能し、相手の(結合した)ポリシーの情報表現を提供する。 0.69
Policy-Distance Estimation via Joint-Action Distributions Intuitively, the distances between policies are naturally reflected in the differences of respective action patterns. 協調行動分布による政策距離推定 直感的には、政策間の距離はそれぞれの行動パターンの違いに自然に反映される。 0.73
From the learning agent’s perspective, fixing its own policy and exploration, the different (joint) policies of opponents can be captured in the different distributions of (a, ao, s) in interactions. 学習エージェントの観点からは、自身のポリシーと探索を修正することで、相手の異なる(結合)ポリシーを相互作用における(a, ao, s)の異なる分布で捉えることができる。 0.85
However, it is impractical to iterate over all possible tuples and collect enough samples to estimate the distribution of (a, ao, s), given a large state space or continuous action space. しかし、全ての可能なタプルを反復し、(a, ao, s) の分布を推定するのに十分なサンプルを収集することは非現実的である。
訳抜け防止モード: しかし、すべての可能なタプルを反復することは現実的ではない。 十分なサンプルを採取して (a, ao, s) の分布を推定します 大きな状態空間や連続作用空間が与えられる。
0.71
Instead, we propose to use the differences in the sampled distributions of (a, ao) in interactions with different (joint) policies as an approximate estimate of the distances between these policies. 代わりに, (a, ao) のサンプル分布の違いを, 異なる (ジョイント) ポリシーとの相互作用に利用し, これらのポリシー間の距離を近似的に推定することを提案する。 0.85
Given sufficient samples, the sampled frequency of (a, ao) can be used as an approximation to the actual Es [p(a, ao)] which is the expected probability of (a, ao) over all states. 十分なサンプルが与えられた場合、 (a, ao) のサンプル周波数は、すべての状態における (a, ao) の予測確率である実際の Es [p(a, ao)] の近似として用いられる。 0.91
As we will show in Figure 6, this gives a good enough measurement to estimate the policy-distance. 図6で示すように、これは政策距離を推定するのに十分な測定値になります。 0.76
Concretely, we fix the learning agent’s own policy and exploration for sampling. 具体的には、学習エージェントのポリシーとサンプルの探索を修正します。 0.67
The corresponding samples of (a, ao) are taken by interacting with each πi o in training policy set Πtrain For an environment E with discrete action spaces, in which A,A1, . 対応する (a, ao) のサンプルは、A,A1, の離散的な作用空間を持つ環境 E に対して、訓練方針集合 >train において各 πi o と相互作用して取る。 0.74
. . ,AN are all discrete spaces, we calculate the frequency distribution f i of all possible pairs of (a, ao) using the samples taken with πi o as an estimate of the real probability distribution pi. . . ,an は離散空間であり,実確率分布 pi の推定として πi o を用いたサンプルを用いて (a, ao) のすべての可能な対の周波数分布 fi を計算する。 0.86
Then we use the KullbackLeibler (KL) divergence between these distributions as a measure for the distance between the policies πi o) = DKL(pi||pj) + DKL(pj||pi) ≈ DKL(f i||f j) + DKL(f j||f i). 次に、これらの分布間のKullbackLeibler (KL) の偏差を、ポリシー πi o) = DKL(pi||pj) + DKL(pj||pi) + DKL(f i||f j) + DKL(f j||f i) の間の距離の測度として用いる。 0.78
in the environment E. in the environment E 0.63
o and πj o, o, πj o と πj o, o, πj 0.95
d(πi (1) o d(πi) (1) おお 0.76
For an environment with continuous action space, in which at least one of A,A1, . A,A1の少なくとも一方が連続的な作用空間を持つ環境の場合。 0.76
. . ,AN is continual, we propose to use Wasserstein distance as a measurement for the distance between πi o. . . ,AN は連続であり,ワッサーシュタイン距離を πi o 間の距離の測定に用いることを提案する。 0.84
The reason for using Wasserstein distance is that the sampled data points can be used to compute the distance directly without estimating the empirical distributions of samples, which is intractable in contin- wasserstein距離を使用する理由は、サンプルデータポイントがサンプルの経験的分布を推定せずに直接距離を計算するために使うことができるためである。 0.83
o and πj Figure 1: Intuitive illustration of policy representations reflecting their relations in policy space. o と πj 図1: 政策空間における関係を反映した政策表現の直感的な図示。 0.85
uous action space, d(πi 荒れ果てた行動空間 d(πi) 0.66
o, πj o) = W (pi, pj) ≈ W (yi, yj) o, πj o) = W (pi, pj) = W (yi, yj) 0.86
(2) where yi is the set of (a, ao) samples taken with πi o. 2) yi は πi o で取り出された (a, ao) サンプルの集合である。 0.73
While computationally demanding in high-dimensional space, the Wasserstein distance in one-dimensional space can be computed easily. 計算上は高次元空間で要求されるが、一次元空間におけるワッサーシュタイン距離は容易に計算できる。 0.65
So an alternative metric, sliced Wasserstein distance (Rabin et al 2011), is used to approximate the Wasserstein distance, which is obtained by projecting the raw m-dimensional data points into one-dimensional space and computing one-dimensional Wasserstein distance, したがって、スライスド・ワッサースタイン距離(rabin et al 2011)は、生のm次元データポイントを1次元空間に投影し、1次元ワッサースタイン距離を計算することによって得られるワッサースタイン距離を近似するために用いられる。 0.66
(cid:90) SW (X, Y ) = (cid:90) SW (X, Y ) = 0.82
(3) where Sm−1 is the unit sphere in m-dimensional space. 3) sm−1 は m-次元空間の単位球面である。 0.80
In practice, the sliced Wasserstein distance is usually approximated by summation over randomly projections (Deshpande, Zhang, and Schwing 2018), 実際には、スライスされたワッサーシュタイン距離は通常ランダムな射影上の和によって近似される(Deshpande, Zhang, Schwing 2018)。 0.61
W (σT X, σT Y )dσ W (σT X, σT Y )dσ 0.90
σ∈Sm−1 ˜SW (X, Y ) = σ・Sm-1 シュSW(X, Y ) = 0.55
1 |Ω| W (σT X, σT Y ) 1 |Ω| W (σT X, σT Y ) 0.91
(4) (cid:88) (4) (cid:88) 0.82
σ∈Ω where Ω is the set of randomly generated projections. σ∈Ω Ω はランダムに生成された射影の集合である。 0.72
We use the approximated sliced Wasserstein distance in practice to reduce the computational overhead. 計算のオーバーヘッドを減らすために、実際に近似スライスされたwaserstein距離を用いる。 0.63
Informative Representations Learning based on Policy-Distance Inspired by the theory on similarity and optimization objective setting in Ghosh et al [2019], IPR tries to learn informative representations that reflect the distances between policies, thus can well generalize to unseen policy with a good estimate of its relations to known policies using the policy-distance measure. Informative Representations Learning based on Policy-Distance Inspireed by the theory on similarity and optimization objective setting in Ghosh et al [2019], IPR try to learn informationative representations that reflects between policys, so can be well generalize to unseen Policy with a good estimated of its relevant to known Policy using the policy-Distance measure。 0.84
Such representations are generated through an encoder network φ parameterized by θ, minimizing the following loss function Lembed: そのような表現はθ でパラメータ化されたエンコーダネットワーク φ を通じて生成され、次の損失関数を最小化する。 0.65
(cid:2)(cid:0)Dist(c id:0)φ(πi −d(cid:0)πi (cid:2)(cid:0)Dist(c id:0)φ(πi −d(cid:0)πi 0.75
o; θ)(cid:1) (cid:1)(cid:1)2(cid: 105) o; θ (cid:1) (cid:1) (cid:1)2 (cid: 105) 0.82
o; θ), φ(πj o; θ) φ(πj) 0.91
Lembed(θ) = E Lembed(θ) = E 0.85
πi o,πj o∼Πtrain πi o,πj オオトレイン 0.65
o (5) Dist(·,·) is a distance function between two output representations of φ network (e g , L2 distance). おお (5) Dist(·,·) は、φネットワークの2つの出力表現(例えば、L2距離)の間の距離関数である。 0.74
The rhs of (5) optimizes the encoder network φ such that the distance between the representations of each pair of πi o converges to d(πi (5) のrhs はエンコーダネットワーク φ を最適化し、それぞれ πi o の表現間の距離が d(πi) に収束する。 0.82
o and πj o, πj o o と πj o, πj o 0.95
Intuitively, for an agent in a certain environment where its policy can be offensive, defensive or halfway in the middle (50-50), the policy representations that we try to learn 直観的には、その政策が攻撃的、防御的、または中間(50〜50)の中間にある特定の環境において、我々が学習しようとする政策代表者 0.75
o, πj o). . o, πj だ)。 . 0.81
Policy Space50% off.+50% def.offensivedefensi ve ポリシースペース50%オフ+50%def.offensivedefe nsivedefensive 0.52
英語(論文から抽出)日本語訳スコア
err 翻訳エラー 0.00
英語(論文から抽出)日本語訳スコア
Figure 3: Illustration of (a) Push, (b) Keep. 図3: (a) Push, (b) Keepの図示。 0.73
needs to be calculated once, where the estimation time is insignificant compared to the overall training time. 総合的なトレーニング時間に比べて見積時間が重要でない場合、一度計算する必要がある。 0.72
Experiments We evaluate our method’s performance in two multi-agent environments: Push with discrete action space and Keep with continuous action space. 実験 我々は,2つのマルチエージェント環境 – 離散的なアクション空間のプッシュと連続的なアクション空間の維持 – において,提案手法の性能を評価する。
訳抜け防止モード: 実験 2つのマルチエージェント環境における手法の性能評価を行う。 個別のアクション空間でプッシュし、連続的なアクション空間でキープする。
0.74
The former is partially observable, while the latter is fully observable. 前者は部分的に可観測であり、後者は完全に可観測である。 0.59
Push Task and Setting Our Push environment is modified based on the original simple-push scenario of MultiAgent Particle Environment (Mordatch and Abbeel 2018; Lowe et al 2017). Push Task and Setting Our Push Environment is modified on the original simple-push scenario of MultiAgent Particle Environment (Mordatch and Abbeel 2018; Lowe et al 2017)。 0.85
As shown in Figure 3(a), Push contains no boarders, one landmark (“target”) fixed at origin (0, 0), and two competitive agents—a learning agent (“attacker”) which tries to approach and touch the target, and a defensive opponent (“defender”) which tries to stop the attacker from approaching the target and push it away. 図3(a)に示すように、Pushには搭乗者はなく、1つの目印(「ターゲット」)が原点(0、0)に固定され、2つの競合エージェント(「攻撃者」)が目標に接近して接触しようとする。
訳抜け防止モード: 図3(a)に示すように、Pushには搭乗者がいない。 1つの目印("ターゲット" )が原点 (0, 0 ) に固定されている そして、2つの競合エージェント ― 学習エージェント(“攻撃者”)がターゲットに接近して触ろうとする。 そして、防御的相手(“ディフェンダー”) 攻撃者が目標に近づくのを阻止して 追い払おうとする
0.78
Each agent has a discrete action space consists of 5 actions and corresponds to applying a zero force, or a unit force on four directions. 各エージェントは5つのアクションからなる離散的なアクション空間を持ち、4つの方向にゼロ力または単位力を適用することに対応する。
訳抜け防止モード: 各エージェントは 5 つのアクションからなる離散アクション空間を持つ ゼロフォースまたは4方向の単位力の 適用に対応しています
0.87
The defender has a larger size and mass but a smaller acceleration and maximum velocity than the attacker. ディフェンダーのサイズと質量は大きいが、攻撃者よりも加速と最大速度が小さい。 0.73
Each timestep, the attacker receives a negative reward of its distance to the landmark, +2 reward if it touches the landmark, and −2 reward if it is collided with the defender. 各タイムステップでは、攻撃者はランドマークまでの距離の負の報酬、ランドマークに触れると+2の報酬、ディフェンダーと衝突すると−2の報酬を受け取る。 0.64
The learning agent’s observation at each timestep consists of the agent’s relative positions with target and defender, and its own velocity. 各タイムステップにおける学習エージェントの観察は、ターゲットとディフェンダーによるエージェントの相対的な位置とその速度から成っている。 0.79
The opponent’s velocity is unknown to the learning agent, thus making Push partially observable. 相手の速度は学習エージェントに不明であり、プッシュが部分的に観測可能である。 0.65
The defender’s policy is set with scripted rule-based policy. 被告のポリシーは、スクリプト化されたルールベースのポリシーで設定されている。 0.53
Each timestep, the defender calculates the attacker’s distance to the target using its observation. それぞれのタイムステップで、ディフェンダーは、その観察を使用して攻撃者から目標への距離を計算する。 0.62
If the distance is larger than a threshold parameter d, the defender moves towards the target, otherwise it moves towards the attacker. 距離が閾値パラメータdよりも大きい場合、ディフェンダーは目標に向かって動き、そうでなければ攻撃者に向かって動く。 0.78
Its output action is a unit force on the direction towards its current target. その出力動作は、現在の目標に向かう方向の単位力である。 0.80
The maximum timestep in each episode is set to 50. 各エピソードの最大時間ステップを50に設定する。 0.71
In this experiment, the training policy set consists of 4 different policies with different threshold parameter d for the defender: d = 0.1, 0.3, 0.75, 1.0. この実験では、トレーニングポリシーセットはディフェンダーの閾値パラメータdが異なる4つの異なるポリシーからなる:d = 0.1, 0.3, 0.75, 1.0。 0.78
The testing policy is set with d = 0.5. 試験方針は d = 0.5 とする。 0.79
We combined our IPR method with DQN (Mnih et al 2015), and compared the performance when interacting with the test opponent of our method (DQN+IPRNoRS and DQN+IPR-RS) with DPIQN (Hong et al 2018) which uses the same architecture as DQN+IPR but trains DQN+IPR-RSとDQN+IPR-RS(DQN+IPR-RSとDQN+IPR-RS)とDPIQN(Hong et al 2018)を併用し、DQN+IPRと同じアーキテクチャで列車を駆動する。
訳抜け防止モード: IPR法をDQN(Mnih et al 2015)と組み合わせた。 DQN+IPR-RS と DQN+IPR - RS と DQN+IPR と同じアーキテクチャを用いるDPIQN ( Hong et al 2018 ) との比較を行った。
0.70
Figure 4: Moving average of test rewards in Push. 図4: プッシュでテスト報酬の平均を移動します。 0.72
The moving average is taken by the mean of recent 20 tests, one per each 1000 training steps. 移動平均は、1000のトレーニングステップに1つずつ、最近の20回の試験平均で測定される。 0.79
Each curve corresponds to the mean value of 5 trials with different random seeds, and shaded regions indicate 95% CI. 各曲線は無作為種子の異なる5つの試行の平均値に対応し、シェード領域は95%ciを示す。 0.84
Figure 5: Moving average of test rewards in Push. 図5: プッシュでテスト報酬の平均を移動します。 0.75
The versions with RL loss gradients back-propagated to encoders are denoted with additional suffix “Grad” to the original methods. エンコーダにバックプロパレートされたRL損失勾配を持つバージョンは、元のメソッドに接尾辞 "Grad" を追加して表示される。 0.63
the IPR network with cross-entropy loss to predict the opponents’ actions and with RL loss gradients back-propagated to the encoder, DQN+Triplet which uses the same architecture as DQN+IPR but trains the IPR network with triplet loss that resembles Grover et al [2018] and only distinguishes between different opponents’ policies, and vanilla DQN without the encoder network of IPR. クロスエントロピー損失を持つiprネットワークは、相手の行動を予測し、rl損失勾配をエンコーダにバックプロパゲーションする。dqn+tripletは、dqn+iprと同じアーキテクチャを使用しているが、グローバーとal [2018]に類似した三重項損失でiprネットワークを訓練し、異なる相手のポリシーを区別する。
訳抜け防止モード: 相手の行動を予測するクロスエントロピー損失を持つIPPネットワーク そして、RL損失勾配が戻り、エンコーダに伝播する。 DQN+IPRと同じアーキテクチャを使うDQN+Tripletは、Groverらに類似した三重項損失でIPRネットワークを訓練する[2018年] IPRのエンコーダネットワークなしでは、異なる相手のポリシーとバニラDQNを区別するだけでよい。
0.79
More details about the networks and hyperparameters are available in Appendix. ネットワークとハイパーパラメータの詳細は、Appendixで確認できる。 0.65
Quantitive Results Figure 4 shows the moving average reward when testing against the test policy (d = 0.5) of our method and the baselines. 定量的結果 図4は、我々のメソッドとベースラインのテストポリシー(d = 0.5)に対してテストする場合の移動平均報酬を示しています。 0.73
The tests are run every 1000 steps during training, and the moving average reward is taken by the mean of recent 20 tests. テストはトレーニング中に1000ステップごとに実行され、移動平均報酬は最近の20回のテスト平均で取得される。 0.80
As the result shows, DQN+IPRNoRS and DQN+IPR-RS outperform the compared methods when facing the unseen policy, thus proving the effectiveness of our proposed method. その結果,dqn+iprnors と dqn+ipr-rs が比較法を上回り,提案手法の有効性を実証した。 0.62
IPR-NoRS performs sightly better than IPR-RS in this environment, which might be the result of the moving target problem and also of the learned policy limits the re-sampling from capturing as much infor- IPR-NoRSは、移動目標問題の結果であり、学習方針の結果として、この環境ではIPR-RSよりも目覚ましい性能を発揮する。 0.62
targetthreshold ddefender(opponent)a ttacker(agent)approa ch targetstop attackerapproaching targetxforce 1 (learning agent)force 2 (opponent)angledista nceballtarget(a)(b)2 468Steps (×104)40302010010Movin g Average RewardDQN+IPR-NoRSDQN+IPR-RSDPIQNDQN+TripletDQN2468Steps (×104)40302010010Movin g Average RewardDQN+IPR-NoRSDQN+IPR-NoRS-GradDQN+TripletDQN+Triplet-Grad targetthreshold ddefender(opponent) attacker(agent)appro ach targettop targetxforce 1 (learning agent)force 2 (opponent)angledista nceballtarget(a)(b)2 468Steps (×104)40302010010 Moving Average RewardDQN+IPR-NoRSDQN+IPR-RSDPIQNDQN+TripletDQN2468Steps (×104)403010010 Moving Average RewardDQN+IPR-NoRSDQN+TripletDQN+TripletDQN+TripletDQN+TripletDQN+ 0.67
英語(論文から抽出)日本語訳スコア
Figure 6: Heatmaps of the initial sampling results against the four training opponent policies under one random seed in Push, where x-axis indicates the opponent’s action and y-axis the (random) agent’s. 図6: 最初のサンプリング結果のヒートマップは、プッシュで1つのランダムシード下の4つのトレーニング対象ポリシーに対して、x軸は相手のアクションを示し、y軸は(ランダム)エージェントのものです。 0.75
Colors and values indicate the frequency of the corresponding joint-action pairs. 色と値は対応するジョイントアクションペアの頻度を示す。 0.78
Action 0 exerts zero force, and actions 1-4 each exerts unit force towards one of the four directions. アクション0はゼロフォース、アクション1-4はユニットフォースを4つの方向の1つに向ける。 0.70
mation of different policies as random sampling. ランダムサンプリングとしての異なるポリシーのmation。 0.68
Regarding the other compared methods, we infer that because of the threshold settings, DPIQN can hardly learn useful predictions on opponent’s actions through observed history, from which can hardly deduce which of the two acting patterns the opponent will act on. 他の比較手法では、DPIQNは閾値設定のため、観測履歴を通して相手の行動に関する有用な予測をほとんど学べず、相手が行動する2つの行動パターンのどれかが推測できない。 0.65
DQN essentially views the different policies as one, and triplet loss maximizes the difference between policy representations regardless of their relations. DQNは基本的に異なる政策を一つとみなし、三重項損失は関係に関係なく政策表現の違いを最大化する。 0.73
Thus all compared methods perform worse than IPR. したがって、すべての比較手法はiprよりも悪くなる。 0.52
In the results above, the IPR methods (DQN+IPR-NoRS and DQN+IPR-RS) and DQN+Triplet method do not backpropagate RL loss gradients to the encoders. 以上の結果から、IPR法(DQN+IPR-NoRSおよびDQN+IPR-RS)とDQN+Triplet法はエンコーダへのRL損失勾配をバックプロパレートしない。 0.72
This choice is based on experimental results showing that doing such backpropagation significantly harms the performance of these methods, as shown in Figure 5. この選択は、図5に示すように、そのようなバックプロパゲーションを行うことがこれらの手法の性能を著しく損なうことを示す実験結果に基づいている。 0.67
The suffix “Grad” corresponds to the versions that the RL loss gradients are backpropagated to encoders. 接尾辞 “Grad” は、RL損失勾配がエンコーダに逆転しているバージョンに対応する。 0.75
We infer that the gradients from RL loss will interfere with the encoder’s embedding loss to make it hard to learn useful embeddings of the opponent policies, causing the decrease in test reward and increase in variance. 我々は、RL損失からの勾配がエンコーダの埋め込み損失に干渉し、相手ポリシーの有用な埋め込みを学習しにくくし、テスト報酬の減少とばらつきの増加を引き起こすと推測する。 0.66
Empirical Joint-Action Distribution As described in Method, we empirically use the sampled frequency of (a, ao) as an approximation to the actual Es [p(a, ao)]. 実験的結合摩擦分布法では, (a, ao) のサンプル周波数を実Es [p(a, ao)] の近似として経験的に用いた。 0.71
Figure 6 illustrates this estimation. 図6はこの推定を例示します。 0.63
The four heatmaps show the initial sampling results using random policy against the four training opponent policies d = 0.1, 0.3, 0.75, 1.0 in order, 4つのヒートマップは、4つのトレーニング相手ポリシー d = 0.1, 0.3, 0.75, 1.0 に対してランダムポリシーを用いて初期サンプリング結果を示す。
訳抜け防止モード: 4つのヒートマップは、ランダムポリシーを用いた最初のサンプリング結果を示す。 0.3 , 0.75 , 1.0 順 ,
0.73
Figure 7: Opponent policy embeddings generated by IPR network in last 10 timesteps in an episode on Push. 図7: pushのエピソードで、iprネットワークが過去10回の時間ステップで生成した、反対ポリシーの埋め込み。 0.57
Dimension reduced by multidimensional scaling (MDS) to 2. 多次元スケーリング(mds)による次元の削減。 0.71
and the colors and values on each square of the heatmaps indicate the frequency of the corresponding joint-action pair composed by the agent’s action (y-axis) and the opponent’s (x-axis). そして、ヒートマップの各平方形の色と値は、エージェントのアクション(y軸)と相手(x軸)によって構成される対応するジョイントアクションペアの頻度を示しています。 0.75
It is easy to see that the frequency of every jointaction pair (except for the opponent taking 0) increases or decreases monotonically across the four heatmaps, which corresponds to the orderly change of the parameter d. This monotonic change is essentially caused by the different distributions p(a, ao) under different opponent policies. この単調な変化は本質的に異なる分布p(a, ao)によって引き起こされる。 この単調な変化は、(0を取る相手を除く)すべての共同作用対の周波数が、パラメータdの秩序的な変化に対応する4つのヒートマップをまたいで単調に増加するか減少する。 0.78
When d = 1.0, the opponent is more aggressive and chases after the learning agent everywhere, while when d = 0.1, the opponent stays around the origin for the most time. d = 1.0 の場合、対戦相手はより攻撃的になり、学習エージェントを至るところで追いかけるが、d = 0.1 の場合、相手は原点の周りにとどまる。 0.75
The different acting patterns cause the difference in p(a, ao) that is reflected in (a, ao) frequencies, thus allow our sampling to have a good estimation. 異なる作用パターンは (a, ao) 周波数で反射されるp(a, ao) の差を生じさせるので, サンプリングの精度は良好である。 0.72
Visualization of Learned Embeddings In Figure 7, we visualize the learned policy embeddings (dimension reduced by MDS from 32 to 2) output by the encoder of one learned DQN+IPR-NoRS model on Push. 学習した埋め込みの可視化 図7では、Push上で学習したDQN+IPR-NoRSモデルのエンコーダにより、学習したポリシー埋め込み(MDSを32から2に減らした次元)を可視化する。 0.68
The training policy embeddings (d = 0.1, 0.3, 0.75, 1.0) are generated by the IPR encoder network from histories that are randomly taken from the final replay buffer. トレーニングポリシー埋め込み(d = 0.1, 0.3, 0.75, 1.0)は、最終再生バッファからランダムに取られた履歴からIPRエンコーダネットワークによって生成される。 0.71
The test policy embeddings (d = 0.5) are generated in actual test. テストポリシー埋め込み(d = 0.5)は実際のテストで生成される。 0.79
Each shown embeddings correspond to one of the last 10 timesteps in an episode. それぞれの埋め込みは、エピソードの最後の10ステップの1つに対応する。 0.61
The result shows that the learned embedding, including training and testing policies, can reflect to their relations (essentially the relations between different d), thus validate our method’s hypothesis of policy embeddings reflecting the policy space, resemble the expected result in Figure 1. その結果、トレーニングやテストのポリシーを含む学習された埋め込みは、それぞれの関係(基本的には異なるdの関係)を反映し、ポリシー空間を反映したポリシー埋め込みの方法の仮説を検証することができ、図1の期待結果に似ています。 0.79
Keep Task and Setting In order to verify the effectiveness of our method in continuous action space, we implement a simple two-agent environment named Keep. タスクと設定 連続的なアクション空間におけるメソッドの有効性を検証するために、Keepというシンプルな2エージェント環境を実装します。 0.75
At the beginning of each episode, a ball is initialized around the origin (0, 0). 各エピソードの始めに、原点(0,0)を中心にボールが初期化される。 0.69
As illustrated in Figure 3(b), the learning agent tries to keep the ball close to the origin, while the opponent tries to pull the ball away from the origin. 図3(b)に示すように、学習エージェントはボールを原点に近づけようとしますが、相手は原点からボールを引き離そうとします。 0.61
The opponent’s policy can be described as a triple (angle, distance, force). 相手のポリシーはトリプル(角度、距離、力)と表現できる。 0.56
For example, (45.0, 1.0, 0.5) means that the target is located at a dis- 例えば (45.0, 1.0, 0.5) は、ターゲットがdis-にあることを意味する。 0.66
01234012340.00000.09 970.09880.00130.0013 0.00000.09880.09620. 00140.00130.00000.09 890.09830.00120.0015 0.00000.10020.09830. 00140.00130.00000.10 010.09720.00150.0012 01234012340.00000.09 400.09360.00590.0062 0.00000.09340.09390. 00590.00600.00000.09 570.09390.00590.0053 0.00000.09550.09300. 00590.00620.00000.09 400.09350.00610.0060 01234012340.00000.07 040.07220.02800.0285 0.00000.07150.07190. 02840.02910.00000.07 040.07210.02810.0292 0.00000.07080.07210. 02840.02900.00000.07 110.07260.02760.0286 01234012340.00000.05 650.05620.04210.0429 0.00000.05550.05740. 04370.04390.00000.05 500.05780.04280.0438 0.00000.05600.05660. 04400.04380.00000.05 620.05830.04330.0441 0.20.00.20.4Dimensio n 10.60.40.20.00.20.40 .60.8Dimension 2d = 0.1d = 0.3d = 0.75d = 1.0d = 0.5 (test) 01234012340.00000.09 970.09880.00130.0013 0.00000.09880.09620. 00140.00130.00000.09 890.09830.00120.0015 0.00000.10020.09830. 00140.00130.00000.10 010.09720.00150.0012 01234012340.00000.09 400.09360.00590.0062 0.00000.09340.09390. 00590.00600.00000.09 570.09390.00590.0053 0.00000.09550.09300. 00590.00620.00000.09 400.09350.00610.0060 01234012340.00000.07 040.07220.02800.0285 0.00000.07150.07190. 02840.02910.00000.07 040.07210.02810.0292 0.00000.07080.07210. 02840.02900.00000.07 110.07260.02760.0286 01234012340.00000.05 650.05620.04210.0429 0.00000.05550.05740. 04370.04390.00000.05 500.05780.04280.0438 0.00000.05600.05660. 04400.04380.00000.05 620.05830.04330.0441 0.20.00.20.4Dimensio n 10.60.40.20.00.20.40 .60.8Dimension 2d = 0.1d = 0.3d = 0.75d = 1.0d = 0.5 (test) 0.08
英語(論文から抽出)日本語訳スコア
Figure 8: Average rewards against random testing opponent on Keep. 図8:keep上のランダムなテスト相手に対する平均的な報酬。 0.68
At each checkpoint, rewards are averaged over 100 episodes. 各チェックポイントでは、報酬は100回を超える。 0.65
Each curve shows the mean value of 5 trials with different random seeds, and shaded regions indicate 95% CI. 各曲線は、異なるランダムシードの5つの試行の平均値を示し、陰影領域は95%CIを示す。 0.78
tance of 1.0 from the origin and its angle from the x-axis is 45 degrees, same as polar coordinate, and the opponent will pull the ball towards the target with a force of 0.5. 原点からの1.0のタンスとX軸からの角度は極座標と同じ45度であり、相手は0.5の力で目標に向かってボールを引っ張る。 0.80
To make the task not too easy, we add some noise to the opponent’s action. タスクを簡単すぎないように、私たちは相手のアクションにいくつかのノイズを加えます。 0.69
The agent’s observation includes the coordinate and velocity of the ball, and the action is the magnitude and direction of the force exerted on the ball. エージェントの観察には、ボールの座標と速度が含まれており、アクションはボールに作用する力の大きさと方向である。 0.74
Each timestep, the learning agent receives a negative reward of the distance between the ball and the origin. 学習エージェントは、各時間ステップ毎に、ボールと原点との間の距離の負の報奨を受ける。 0.65
The length of each episode is set to 200. 各エピソードの長さは200に設定されている。 0.73
In this experiment, the training policy set contains 4 different opponent policies: (45.0, 1.0, 0.5), (170.0, 2.0, 1.0), (−90.0, 1.5, 0.7), and (0.0, 1.0, 0.3). この実験では、トレーニングポリシーセットは4つの異なる方針(45.0, 1.0, 0.5), (170.0, 2.0, 1.0), (−90.0, 1.5, 0.7), (0.0, 1.0, 0.3)を含む。 0.72
In test phase, the opponent policy is generated randomly at the beginning of each episode, where the ranges of angle, distance and force are [−180, 180), [0, 1) and [0.2, 1.7), respectively. テストフェーズでは、各エピソードの開始時に、それぞれ[−180,180), [0, 1), [0.2, 1.7]の角度、距離、力の範囲をランダムに生成する。
訳抜け防止モード: テストフェーズでは、各エピソードの開始時に、相手ポリシーをランダムに生成する。 角度、距離、力の範囲は [-180] である。 180 ), [ 0, 1 ) and [ 0.2, 1.7) であった。
0.77
Considering the continuous action space, the RL algorithm we chooses to combine with IPR is Proximal Policy Optimization (PPO) (Schulman et al 2017). 連続的な行動空間を考えると、我々がIPRと組み合わせることを選んだRLアルゴリズムはPPO(Proximal Policy Optimization)である(Schulman et al 2017)。 0.83
Because the updates of policy network and value network are not simultaneous, we set separate IPR networks for them. ポリシーネットワークとバリューネットワークの更新は同時ではないため、個別のIPRネットワークを設定した。 0.68
As mentioned before, the difference between two opponent policies is estimated by the sliced Wasserstain distance between two sets of joint-action samples. 前述したように、2つの対向ポリシーの差は、2組の合同作用サンプル間のスライスされたワッサーステン距離によって推定される。 0.63
A more detailed description of PPO+IPR will be given in Appendix. PPO+IPRのより詳細な説明は、Appendixで提供される。 0.74
We compare our method (PPO+IPR-NoRS and PPO+IPR-RS) with PPO+ActPred (training the IPR network by predicting opponents’ actions, like DPIQN), PPO+Triplet (like (Grover et al 2018)), and vanilla PPO without the encoder network. 提案手法(PPO+IPR-NoRS,PPO+IPR-RS)とPPO+ActPred(DPIQN,PPO+Triplet(Grover et al 2018),バニラPPOをエンコーダネットワーク無しで比較した。 0.67
No gradients from policy network or value network are backpropagated to the IPR module. ポリシーネットワークやバリューネットワークからの勾配は IPR モジュールにバックプロパガンダされない。 0.77
Quantitive Results Figure 8 shows the average reward against training phase. 定量化結果 図8は、トレーニングフェーズに対する平均報酬を示しています。 0.64
The result suggests that PPO+IPR-NoRS and PPO+IPR-RS greatly outperform other methods. その結果, PPO+IPR-NoRSとPPO+IPR-RSは, 他の手法よりも優れていた。 0.47
Although PPO+ActPred achieves almost the same reward as the former two early in the training, it shows high variance and its reward declines with training. PPO+ActPredは、トレーニングの初期段階で前者とほぼ同じ報酬を得られるが、高いばらつきを示し、トレーニングによって報酬は減少する。 0.67
PPO+IPR-NoRS and PPO+IPR-RS are more stable and continuously improve in the later stage of training, which implies our method’s effec- PPO+IPR-NoRSとPPO+IPR-RSは、訓練後期においてより安定し、継続的に改善されている。 0.67
the random testing opponent ランダムテストの相手は 0.73
throughout Figure 9: Opponent policy embeddings generated by IPR network on Keep, including four training opponents and three unseen test opponents. 至る所で 図9: IPRネットワークがKeep上に生成した反対ポリシーの埋め込み。
訳抜け防止モード: 至る所で 図9:ITPネットワークがKeep上に生成した対向ポリシー埋め込み 練習相手が4人 テスト相手が3人。
0.54
Dimension reduced by MDS to 2. MDSにより次元を2。 0.64
tiveness and better generalization to unseen opponents also in continuous action space. 連続的な行動空間においても、目立たない相手に対する攻撃性とより良い一般化。 0.50
In addition, IPR-RS performs sightly better than IPR-NoRS in this environment, possibly because the initial sampling has interference from action pairs that sampled when the ball is far from the origin, while the later learned policy avoids such interference so different opponents’ policies show more individual characteristics. さらに、IPR-RSはこの環境ではIPR-NoRSよりもはるかに優れており、おそらく最初のサンプリングは、ボールが原点から遠く離れたときにサンプリングされたアクションペアからの干渉であり、後続のポリシーはそのような干渉を避けるため、異なる相手のポリシーはより個々の特性を示す。 0.61
Visualization of Learned Embeddings To demonstrate the interpretability of the embedding learned by PPO+IPRRS on Keep, we select three unseen opponents for test: (−45.0, 1.0, 0.5), (90.0, 1.0, 0.4) and (0.0, 1.0, 1.0). 学習埋め込みの可視化 Keep上でPPO+IPRRSが学習した埋め込みの解釈可能性を示すために、テストのために3つの見えない相手を選択します: (-45.0, 1.0, 0.5), (90.0, 1.0, 0.4) および (0.0, 1.0, 1.0)。
訳抜け防止モード: 学習埋め込みの可視化 テストのために3つの見えない相手を選択します。 (-45.0, 1.0, 0.5 ) ( 90.0, 1.0, 0.4 ) and ( 0.0, 1.0, 1.0 ) .
0.71
MDS on the embeddings is shown as Figure 9. 埋め込みに関するMDSは図9に示す。 0.71
Each point represents the average embedding over one episode. それぞれのポイントは1つのエピソードの平均埋め込みを表す。 0.71
Among training opponent policies, the distance between the embeddings of (45.0, 1.0, 0.5) and (0.0, 1.0, 0.3) is the smallest, because their angle parameters are the closest. 対向政策の訓練中、(45.0, 1.0, 0.5) と (0.0, 1.0, 0.3) の埋め込み距離は、その角度パラメータが最も近いため最小である。 0.75
As for unseen opponents, we can see the embeddings of (−45.0, 1.0, 0.5) are located near (−90.0, 1.5, 0.7) and (0.0, 1.0, 0.3), which is consistent with the physical meaning that −45.0 is greater than −90.0 but less than 0.0 and 0.5 is less than 0.7 but greater than 0.3, even though the learning agent has not met (−45.0, 1.0, 0.5) during training. 目に見えない相手については、(-45.0, 1.0, 0.5) の埋め込みが (−90.0, 1.5, 0.7) と (0.0, 1.0, 0.3) の近くにあり、-45.0 が −90.0 より大きいが 0.0, 0.5 は 0.7 より小さいが 0.3 より大きいという物理的意味と一致する。 0.83
Other meaningful points include the embeddings of (0.0, 1.0, 1.0) are quite close to (0.0, 1.0, 0.3), and (90.0, 1.0, 0.4) are near (45.0, 1.0, 0.5) and (170, 2.0, 1.0). 他の意味のある点は (0.0, 1.0, 1.0) の埋め込みが (0.0, 1.0, 0.3) に非常に近いことと (90.0, 1.0, 0.4) が (45.0, 1.0, 0.5) と (170, 2.0, 1.0) に近いことである。 0.54
Conclusion In this paper, we propose a general framework that learns informative policy representations that capture both the similarities and differences of other agents’ policies via jointaction distributions in multi-agent scenarios. 結論 本稿では,マルチエージェントシナリオにおける協調行動分布を通じて,他のエージェントのポリシーの類似性と相違を捉えた,有益なポリシー表現を学習する汎用フレームワークを提案する。 0.71
Combining with existing RL algorithms, the policy takes actions conditioned on the learned policy representations of other agents. 既存のrlアルゴリズムと組み合わせることで、ポリシーは他のエージェントの学習したポリシー表現に基づいたアクションを取る。 0.73
Through experiments, we demonstrate that the proposed framework can generalize better to unseen policies than existing methods, and the visualizations of the learned policy embeddings verify they can reflect the relations between policies in the policy space. 実験により,提案手法が既存の手法よりも見つからない政策を一般化し,学習された政策埋め込みの可視化により,政策空間における政策間の関係を反映できることを確認した。 0.84
06121824Steps (×106)200150100500Rewa rdPPO+IPR-NoRSPPO+IPR-RSPPO+ActPredPPO+TripletPPO2010010Dim ension 110010203040Dimensio n 2(45.0, 1.0, 0.5)(170.0, 2.0, 1.0)(-90.0, 1.5, 0.7)(0.0, 1.0, 0.3)(-45.0, 1.0, 0.5) (test)(90.0, 1.0, 0.4) (test)(0.0, 1.0, 1.0) (test) 06121824Steps (×106) 200150100500RewardPP O+IPR+IPR+RSPPO+ActPredPPO+TripletPPO2010010Dim ension 110010203040Dimensio n 2(45.0, 1.0, 0.5)(170.0, 2.0, 1.0)(-90.0, 1.5, 0.7)(0.0, 1.0, 0.3)(-45.0, 1.0, 0.5) (test)(90.0, 1.0, 0.4) (test)(0.0, 1.0) 0.66
英語(論文から抽出)日本語訳スコア
References Al-Shedivat, M.; Bansal, T.; Burda, Y.; Sutskever, I.; Mordatch, I.; and Abbeel, P. 2018. 参考文献 Al-Shedivat, M.; Bansal, T.; Burda, Y.; Sutskever, I.; Mordatch, I.; Abbeel, P. 2018 0.75
Continuous adaptation via meta-learning in nonstationary and competitive environments. 非定常および競争環境におけるメタラーニングによる継続的適応 0.63
In ICLR. Deshpande, I.; Zhang, Z.; and Schwing, A. G. 2018. ICLR。 Deshpande, I.; Zhang, Z.; and Schwing, A. G. 2018 0.69
Generative Modeling Using the Sliced Wasserstein Distance. スライスワッサースタイン距離を用いた生成モデル 0.60
In CVPR. Finn, C.; Abbeel, P.; and Levine, S. 2017. CVPR。 Finn, C., Abbeel, P.; and Levine, S. 2017 0.66
Model-agnostic meta-learning for fast adaptation of deep networks. 深層ネットワークの高速適応のためのモデル非依存メタラーニング 0.60
In ICML. Foerster, J.; Assael, I. ICML。 Foerster, J.; Assael, I. 0.71
A.; De Freitas, N.; and Whiteson, S. 2016. A.; De Freitas, N.; and Whiteson, S. 2016 0.83
Learning to communicate with deep multi-agent reinforcement learning. 深層多エージェント強化学習とコミュニケーションをとること。 0.74
In NeurIPS. NeurIPSに登場。 0.80
Foerster, J.; Chen, R. Y.; Al-Shedivat, M.; Whiteson, S.; Abbeel, P.; and Mordatch, I. Foerster, J., Chen, R. Y., Al-Shedivat, M., Whiteson, S., Abbeel, P., Mordatch, I。 0.83
2018a. Learning with opponent-learning awareness. 2018年。 対人学習による学習。 0.63
In AAMAS. Foerster, J.; Farquhar, G.; Afouras, T.; Nardelli, N.; and Whiteson, S. 2018b. AAMAS所属。 Foerster, J.; Farquhar, G.; Afouras, T.; Nardelli, N.; Whiteson, S. 2018b 0.76
Counterfactual multi-agent policy gradients. カウンターファクトなマルチエージェントポリシーグラデーション。 0.65
In AAAI. Ghosh, D.; Gupta, A.; and Levine, S. 2019. AAAI所属。 Ghosh, D., Gupta, A., Levine, S. 2019 0.69
Learning Actionable Representations with Goal Conditioned Policies. 目標条件付きポリシーによる行動表現の学習 0.81
In ICLR. Grover, A.; Al-Shedivat, M.; Gupta, J. K.; Burda, Y.; and Edwards, H. 2018. ICLR。 Grover, A.; Al-Shedivat, M.; Gupta, J. K.; Burda, Y.; Edwards, H. 2018 0.71
Learning Policy Representations in Multiagent Systems. マルチエージェントシステムにおける学習政策表現 0.80
In ICML. Hahn, U.; Chater, N.; and Richardson, L. B. ICML。 Hahn, U.; Chater, N.; and Richardson, L. B. 0.73
2003. Similarity as transformation. 2003. 変換と類似性。 0.80
Cognition 87(1): 1 – 32. コグニション87(1):1~32。 0.63
He, H.; Boyd-Graber, J.; Kwok, K.; and Daum´e III, H. 2016. He, H.; Boyd-Graber, J.; Kwok, K.; Daum ́e III, H. 2016 0.95
Opponent modeling in deep reinforcement learning. 深部強化学習における対向モデル 0.74
In ICML. Hong, Z.-W.; Su, S.-Y. ICML。 Hong, Z.-W.; Su, S.-Y. 0.69
; Shann, T.-Y. Shann, T.-Y。 0.91
; Chang, Y.-H.; and Lee, C.-Y. ; Chang, Y.-H., and Lee, C.-Y. 0.86
2018. A deep policy inference q-network for multiagent systems. 2018. マルチエージェントシステムのための深いポリシー推論qネットワーク 0.83
In AAMAS. Jiang, J.; and Lu, Z. AAMAS所属。 江、J、Lu、Z。 0.64
2018. Learning attentional communication for multi-agent cooperation. 2018. マルチエージェント協調のための注意コミュニケーション学習 0.81
In NeurIPS. NeurIPSに登場。 0.80
Kim, D.-K.; Liu, M.; Riemer, M.; Sun, C.; Abdulhai, M.; Habibi, G.; Lopez-Cot, S.; Tesauro, G.; and How, J. P. 2020. Kim, D.-K.; Liu, M.; Riemer, M.; Sun, C.; Abdulhai, M.; Habibi, G.; Lopez-Cot, S.; Tesauro, G.; How, J. P. 2020 0.93
A Policy Gradient Algorithm for Learning to Learn in Multiagent Reinforcement Learning. マルチエージェント強化学習における学習のためのポリシー勾配アルゴリズム 0.75
arXiv:2011.00382 . arXiv:2011.00382。 0.47
Lowe, R.; Wu, Y.; Tamar, A.; Harb, J.; Abbeel, P.; and Mordatch, I. Lowe, R., Wu, Y., Tamar, A., Harb, J., Abbeel, P., Mordatch, I。 0.75
2017. Multi-Agent Actor-Critic for Mixed Cooperative-Competit ive Environments. 2017. 複合協調型環境のためのマルチエージェントアクター臨界 0.75
In NeurIPS. NeurIPSに登場。 0.80
Mnih, V.; Kavukcuoglu, K.; Silver, D.; Rusu, A. Mnih, V.; Kavukcuoglu, K.; Silver, D.; Rusu, A。 0.84
A.; Veness, J.; Bellemare, M. G.; Graves, A.; Riedmiller, M.; Fidjeland, A. K.; Ostrovski, G.; et al 2015. A.; Veness, J.; Bellemare, M. G.; Graves, A.; Riedmiller, M.; Fidjeland, A. K.; Ostrovski, G.; et al 2015 0.87
Human-level control through deep reinforcement learning. 深層強化学習による人間レベルの制御 0.82
Nature 518(7540): 529–533. 518(7540): 529-533。 0.68
Mordatch, I.; and Abbeel, P. 2018. Mordatch, I.; and Abbeel, P. 2018 0.79
Emergence of Grounded Compositional Language in Multi-Agent Populations. マルチエージェント集団における接地合成言語の出現 0.77
In AAAI. Peng, P.; Yuan, Q.; Wen, Y.; Yang, Y.; Tang, Z.; Long, H.; and Wang, J. AAAI所属。 Peng, P.; Yuan, Q.; Wen, Y.; Yang, Y.; Tang, Z.; Long, H.; Wang, J.
訳抜け防止モード: AAAI所属。 Peng, P. ; Yuan, Q. ; Wen, Y. ; Yang, Y. ; Tang, Z. ; Long, H. ; とWang , J。
0.78
2017. Multiagent bidirectionallycoord inated nets for learning to play starcraft combat games. 2017. マルチエージェント双方向コーディネートネットは、スタークラフト戦闘ゲームを学べる。 0.75
arXiv:1703.10069 . arXiv:1703.10069。 0.46
Premack, D.; and Woodruff, G. 1978. Premack, D.; and Woodruff, G. 1978 0.82
Does the chimpanzee have a theory of mind? チンパンジーには心の理論がありますか。 0.67
Behavioral and brain sciences 1(4): 515–526. 行動・脳科学 1(4):515-526。 0.77
Rabin, J.; Peyr´e, G.; Delon, J.; and Bernot, M. 2011. Rabin, J.; Peyr ́e, G.; Delon, J.; Bernot, M. 2011 0.85
Wasserstein Barycenter and Its Application to Texture Mixing. wasserstein barycenterとそのテクスチャ混合への応用 0.72
In International Conference on Scale Space & Variational Methods in Computer Vision. international conference on scale space & variational methods in computer vision(英語) 0.77
Raileanu, R.; Denton, E.; Szlam, A.; and Fergus, R. 2018. Raileanu, R.; Denton, E.; Szlam, A.; and Fergus, R. 2018 0.83
Modeling Others using Oneself in Multi-Agent Reinforcement Learning. マルチエージェント強化学習における自己を用いた他者モデリング 0.70
In ICML. Rashid, T.; Samvelyan, M.; De Witt, C. S.; Farquhar, G.; Foerster, J.; and Whiteson, S. 2018. ICML。 Rashid, T.; Samvelyan, M.; De Witt, C. S.; Farquhar, G.; Foerster, J.; Whiteson, S. 2018 0.70
QMIX: Monotonic value function factorisation for deep multi-agent reinforcement learning. QMIX: 深層多エージェント強化学習のための単調値関数分解 0.81
In ICML. Schulman, J.; Wolski, F.; Dhariwal, P.; Radford, A.; and Klimov, O. ICML。 Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O。 0.66
2017. Proximal Policy Optimization Algorithms. 2017. 近似ポリシー最適化アルゴリズム。 0.84
arXiv:1707.06347 . arXiv:1707.06347。 0.47
Shepard, R. N. 1957. 1957年、r・n・シェパード。 0.48
Stimulus and response generalization: A stochastic model relating generalization to distance in psychological space. 刺激と反応の一般化 : 心理学空間における距離への一般化に関する確率モデル 0.68
Psychometrika 22(4): 325–345. サイコメトリカ 22(4): 325-345。 0.67
Silver, D.; Huang, A.; Maddison, C. J.; Guez, A.; Sifre, L.; Van Den Driessche, G.; Schrittwieser, J.; Antonoglou, I.; Panneershelvam, V.; Lanctot, M.; et al 2016. Silver, D.; Huang, A.; Maddison, C. J.; Guez, A.; Sifre, L.; Van Den Driessche, G.; Schrittwieser, J.; Antonoglou, I.; Panneershelvam, V.; Lanctot, M.; et al 2016 0.85
Mastering the game of Go with deep neural networks and tree search. ディープニューラルネットワークとツリー検索でGoのゲームをマスターする。 0.71
Nature 529(7587): 484–489. 自然 529(7587): 484-489。 0.84
Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; et al 2017. Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; al 2017
訳抜け防止モード: Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou I. ; Huang, A. ; Guez, A. ; Hubert, T. ; Baker, L. ; Lai, M. ; Bolton, A. ; et al 2017
0.92
Mastering the game of go without human knowledge. 人間の知識なしに囲いのゲームをマスターする。 0.78
Nature 550(7676): 354–359. 自然550(7676):354-359。 0.85
Smith, E. R.; and Zarate, M. A. Smith, E. R., and Zarate, M. A. 0.99
1992. Exemplar-based model of social judgment. 1992. 社会的判断の模範的モデル。 0.78
Psychological review 99(1): 3. 心理学的考察 99: 3。 0.60
Son, K.; Kim, D.; Kang, W. J.; Hostallero, D. E.; and Yi, Y. Son, K., Kim, D., Kang, W. J., Hostallero, D. E., Yi, Y 0.80
2019. Qtran: Learning to factorize with transformation for cooperative multi-agent reinforcement learning. 2019. Qtran: 協調型マルチエージェント強化学習のための変換による分解の学習。 0.79
In ICML. Sukhbaatar, S.; Fergus, R.; et al 2016. ICML。 Sukhbaatar, S.; Fergus, R.; et al 2016 0.66
Learning multiagent communication with backpropagation. バックプロパゲーションを用いたマルチエージェントコミュニケーションの学習 0.59
In NeurIPS. NeurIPSに登場。 0.80
Sunehag, P.; Lever, G.; Gruslys, A.; Czarnecki, W. M.; Zambaldi, V. F.; Jaderberg, M.; Lanctot, M.; Sonnerat, N.; Leibo, J. Sunehag, P.; Lever, G.; Gruslys, A.; Czarnecki, W. M.; Zambaldi, V. F.; Jaderberg, M.; Lanctot, M.; Sonnerat, N.; Leibo, J。 0.89
Z.; Tuyls, K.; et al 2018. Z; Tuyls, K; et al 2018。 0.76
Value-Decomposition Networks For Cooperative Multi-Agent Learning Based On Team Reward. チームリワードに基づく協調型マルチエージェント学習のための価値分解ネットワーク 0.75
In AAMAS. Vinyals, O.; Babuschkin, I.; Czarnecki, W. M.; Mathieu, M.; Dudzik, A.; Chung, J.; Choi, D. H.; Powell, R.; Ewalds, T.; Georgiev, P.; et al 2019. AAMAS所属。 Vinyals, O.; Babuschkin, I.; Czarnecki, W. M.; Mathieu, M.; Dudzik, A.; Chung, J.; Choi, D. H.; Powell, R.; Ewalds, T.; Georgiev, P.; et al 2019 0.77
Grandmaster level in StarCraft II using multi-agent reinforcement learning. 多エージェント強化学習を用いたStarCraft IIのグランドマスターレベル。 0.75
Nature 575(7782): 350–354. 575(7782):350-354。 0.62
Zhang, K.; Yang, Z.; Liu, H.; Zhang, T.; and Bas¸ar, T. 2018. Zhang, K.; Yang, Z.; Liu, H.; Zhang, T.; and Bas sar, T. 2018 0.83
Fully decentralized multi-agent reinforcement learning with networked agents. ネットワークエージェントを用いた完全分散マルチエージェント強化学習 0.79
arXiv:1802.08757 . arXiv:1802.08757。 0.46
英語(論文から抽出)日本語訳スコア
Additional Details on Push Experiments Here we describe the specifications of networks and hyperparameters for training the compared methods in the experiments on Push. プッシュ実験のさらなる詳細 ここでは、プッシュ実験における比較方法のトレーニングのためのネットワークとハイパーパラメータの仕様について説明する。 0.77
For all the methods, the Q-network consists of 4 fully connected layers, with 128 hidden units and ReLU activation function in each layer. すべての方法において、qネットワークは4つの完全連結層で構成され、128個の隠れユニットと各層にreluアクティベーション関数を持つ。 0.69
For all the methods except DQN, the encoder network consists of a 2-layer LSTM with the concatenated history of a 50-timestep episode as the input, and an embedding layer that outputs 32-dimensional embeddings. DQN以外のすべての方法において、エンコーダネットワークは、入力として50ステップエピソードの連結履歴を持つ2層LSTMと、32次元埋め込みを出力する埋め込み層からなる。 0.81
DPIQN’s encoder has an additional prediction layer that outputs the predicted action for the opponent. DPIQNのエンコーダには、予測されたアクションを相手に出力する追加の予測層がある。 0.76
The number of hidden units in each layer is 128. 各層に隠されたユニットの数は128である。 0.81
The output 32-dimensional embeddings are then feed to the Q-network where they are concatenated with the hidden state generated by the observation forwarded through the first fully connected layer of the Q-network. 出力32次元埋め込みはQネットワークに供給され、Qネットワークの第1の完全連結層を介して転送された観測によって生成された隠れ状態と連結される。 0.77
The concatenation is then forwarded through the rest 3 fully connected layers. その後、連結は残りの3層を通して前進する。 0.66
For training, the learning rate is set to 1e-3, batch size is set to 64, and the discount factor is 0.99. トレーニングでは、学習率を1e-3に、バッチサイズを64に、割引率を0.99に設定する。 0.62
In the IPR experiments, 200 episodes are collected for the initial random sampling of joint action distributions. In the IPR experiment, 200 episodes are collected for the initial random sample of joint action distributions。 0.78
Additional Details on Keep Experiments Our implementation of PPO+IPR is modified based on PPOClip in Spinning Up, which have some difference in detail from Algorithm 1. 保持実験のさらなる詳細 PPO+IPRの実装は、Spinning UpにおけるPPOClipに基づいて修正され、アルゴリズム1と若干の違いがある。 0.77
The training process is described in Algorithm 2. トレーニングプロセスはアルゴリズム2に記述されている。 0.77
PPO is an on-policy algorithm so that a large amount of samples are required. PPOは、大量のサンプルを必要とするように、オンデマンドのアルゴリズムである。 0.70
In order to sample more efficiently, we implement parallel rollouts for sampling. より効率的にサンプリングするために,サンプリングのための並列ロールアウトを実装した。 0.63
Calculating Wasserstain distance requires each sample set to be the same size, so we simplify the task setting by sampling with N different opponent policies in parallel. Wasserstain 距離を計算するには、各サンプルセットが同じサイズである必要があるので、N 個の異なる反対ポリシーを並列にサンプリングすることでタスク設定を単純化する。 0.70
Concretely, each opponent policy is assigned to M rollouts of length T . 具体的には、各相手ポリシーを長さTのMロールアウトに割り当てる。 0.65
In other words, there are N M rollouts in parallel, and we collect M T samples with each opponent policy (lines 3). 言い換えれば、N M のロールアウトが並列に存在し、M T のサンプルを各反対ポリシー(ライン3)で収集する。 0.71
Sliced Wasserstain distances are re-calculated every iteration in PPO+IPR-RS, while PPO+IPR-NoRS only uses sliced Wasserstain distances calculated at the first iteration (lines 4-6). Sliced Wasserstain distances are re-calculated every iteration in PPO+IPR-RS while PPO+IPR-NoRS only using sliceed Wasserstain distances in the first iteration (line 4-6)。 0.77
The parameters of policy network and its IPR network are updated using the surrogate objective of PPOClip and Lembed, respectively. ポリシネットワークのパラメータとIPRネットワークは,それぞれPPOClipとLembedの代理目的を用いて更新される。 0.65
The parameters of value function network and its IPR network are updated using the value function loss in PPO and Lembed, respectively. 値関数ネットワークとそのIPPネットワークのパラメータは、それぞれPPOとLembedの値関数損失を用いて更新される。 0.80
We do not back-propagate the gradient from policy and value function to the IPR networks. 我々は、ポリシーと価値関数からiprネットワークへの勾配をバックプロパゲーションしない。 0.75
For all methods, we set N = 4, M = 2, T = 1000 and K = 3000. すべてのメソッドに対して、n = 4, m = 2, t = 1000 と k = 3000 をセットする。 0.88
For PPO, both policy network and value network consist of 2 fully connected layers with 32 hidden units and Tanh activation function. PPOでは、ポリシネットワークとバリューネットワークは、32個の隠れユニットとTanhアクティベーション機能を持つ2つの完全に接続されたレイヤから構成される。 0.60
For other methods, the encoder network consists of a LSTM layer and an embedding layer that outputs 32-dimensional embedding and optimized via truncated back-propagation through time with a truncation of 10 timesteps. 他の方法では、エンコーダネットワークはLSTM層と、32次元の埋め込みを出力する埋め込み層から成り、時間の経過とともに10のタイムステップで切り離されたバックプロパゲーションによって最適化される。 0.65
PPO+ActPred has 2 additional fully connected layers that outputs the predicted action distribution for the opponent. PPO+ActPredはさらに2つの完全に接続されたレイヤーを持ち、相手に対して予測されたアクション分布を出力する。 0.54
Then the embedding is concatenated with the 32-dimensional hidden state generated by the observation forwarded through the first fully connected layer. そして、埋め込みは、第1の完全連結層を介して転送された観察によって生成された32次元隠れ状態と連結される。 0.66
The =(cid:8)π1 =(cid:8)π1 0.55
o (cid:9) おお (cid:9) 0.72
o Algorithm 2 Joint Training of IPR and PPO Require: Training policy set Πtrain o, π2 1: Initialize E, policy parameters ϑπ, value function parameters ϑv, IPR network parameters θπ for policy and θv for value function おお アルゴリズム2 iprとppoの合同トレーニングには, トレーニングポリシーセット πtrain o, π2 1: 初期化e, ポリシーパラメータθπ, 値関数パラメータθv, iprネットワークパラメータθπ, 値関数θv 0.73
o, . . . , πN ああ... . . , πn 0.75
2: for iteration k = 0, 1, . 2: 反復 k = 0, 1, である。 0.76
. . , K do 3: . . , K do 3: 0.85
Collect sets of trajectories D1,D2, . 軌道の集合 D1,D2, を収集する。 0.72
. . ,DN with all training policies in parallel. . . すべてのトレーニングポリシを並行して実行する。 0.75
if IPR-RS or k == 0 then ipr-rs または k == 0 ならば 0.67
(cid:1) for all (i, j) using Di,Dj (cid:1) di,djを用いた全(i,j)について 0.60
Calculate d(cid:0)πi 計算 d(cid:0)πi 0.78
o, πj o end if Update θπ and ϑπ by Lembed(θπ) + LCLIP (ϑπ) Update θv and ϑv by Lembed(θv) + LV(ϑv) o, πj o end if update θπ and θπ by lembed(θπ) + lclip(θπ) update θv and θv by lembed(θv) + lv(θv) 0.95
4: 5: 6: 7: 8: 9: end for 4: 5: 6: 7: 8: 9: end for 0.85
Figure 10: Learning curves on Keep. 図10: Keepでの学習曲線。 0.81
The four charts shows average rewards against different training opponent policies. 4つのチャートは、異なるトレーニング相手ポリシーに対する平均的な報酬を示しています。 0.50
At each checkpoint, rewards are averaged on 100 episodes. 各チェックポイントにおいて、報酬は100回平均される。 0.70
Each curve corresponds to the mean value of 5 trials with different random seeds, and shaded regions indicate 95% CI. 各曲線は無作為種子の異なる5つの試行の平均値に対応し、シェード領域は95%ciを示す。 0.84
concatenation is then forwarded through the rest 2 fully connected layers with 32 hidden units and Tanh activation function. その後、連結は32個の隠れユニットとTanhアクティベーション機能を持つ残りの2層を通して転送される。 0.70
Other hyperparameters are the same as the default settings in Spinning Up. その他のハイパーパラメータは、Spinning Upのデフォルト設定と同じである。 0.75
Experimental Results Against Training Opponent Policies The learning curves of the compared methods against training opponent policies on Keep are shown in Figure 10. 対向政策の訓練に対する実験結果 図10に、対向政策の練習に対する比較方法の学習曲線を示す。 0.77
The result suggests that PPO+IPR-NoRS, PPO+IPR-RS and PPO+ActPred outperform PPO+Triplet and PPO significantly on training set. その結果,PPO+IPR-NoRS,PPO+IPR-RS,PPO+ActPredはトレーニングセットにおいてPPO+Triplet,PPOよりも有意に優れていた。
訳抜け防止モード: その結果は PPO+IPR - NoRS, PPO+IPR - RS, PPO+ActPredはトレーニングセットにおいてPPO+Triplet, PPOを大きく上回った。
0.56
The curves of the former three methods on training set are close, but we can see PPO+IPR-NoRS and PPO+IPR-RS show less variance and keep reward high and stable in the later stage of training. トレーニングセットの3つの方法の曲線は近いが、ppo+ipr-norsとppo+ipr-rsはばらつきが少なく、トレーニングの後半では報酬が高く安定している。
訳抜け防止モード: トレーニングセットの以前の3つのメソッドの曲線は近い。 しかし PPO+IPR - NoRS と PPO+IPR - RS の差は小さい 報酬を高く安定させ 訓練の後半の段階で
0.83
On Push, the learning curves of the compared methods against training opponent policies are similar and close, thus omitted. Pushでは、比較手法の学習曲線と反対ポリシーの学習曲線は類似しており、近いので省略される。 0.62
06121824200150100500 RewardTraing opponent 1PPO+IPR-NoRSPPO+IPR-RSPPO+ActPredPPO+TripletPPO0612182420 0150100500Traing opponent 206121824Steps (×106)200150100500Rewa rdTraing opponent 306121824Steps (×106)200150100500Trai ning opponent 4 06121824 200150100500 RewardTraing opponent 1PPO+IPR-NoRSPPO+IPR-RSPPO+ActPredPPO+TripletPPO0618242001 50500Traing opponent 206121824Steps (×106) 200150100500 RewardTraing opponent 306121824Steps (×106) 200150500Training opponent 4 0.49
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。