論文の概要、ライセンス

# (参考訳) Alchemy:メタ強化学習のための構造化タスク分布 [全文訳有]

Alchemy: A structured task distribution for meta-reinforcement learning ( http://arxiv.org/abs/2102.02926v1 )

ライセンス: CC BY 4.0
Jane X. Wang, Michael King, Nicolas Porcel, Zeb Kurth-Nelson, Tina Zhu, Charlie Deck, Peter Choy, Mary Cassin, Malcolm Reynolds, Francis Song, Gavin Buttimore, David P. Reichert, Neil Rabinowitz, Loic Matthey, Demis Hassabis, Alexander Lerchner, Matthew Botvinick(参考訳) 強化学習の柔軟性とサンプル効率を高める方法としてメタ学習への関心が急速に高まっている。 しかし、この研究領域の1つの問題は、適切なベンチマークタスクが不足していることである。 一般に、過去のベンチマークの基盤となる構造は、本質的に興味をそそるには単純すぎるか、原則分析をサポートするには不明確すぎるかのどちらかである。 本稿では,構造的豊かさと構造的透明性を組み合わせたメタrl研究の新しいベンチマークを紹介する。 AlchemyはUnityで実装された3Dビデオゲームで、エピソードからエピソードに段階的に再サンプリングされる潜伏因果関係構造を含み、構造学習、オンライン推論、仮説テスト、および抽象ドメイン知識に基づくアクションシークエンスを可能にする。 Alchemy上の強力なRLエージェントのペアを評価し、これらのエージェントの1つを詳細に分析します。 結果は、メタラーニングの率直で具体的な失敗を明確に示し、メタRLの難しいベンチマークとしてAlchemyの検証を提供します。 このレポートと並行して、Alchemyを公開リソースとして、分析ツールやサンプルエージェントのトラジェクトリとともにリリースしています。

There has been rapidly growing interest in meta-learning as a method for increasing the flexibility and sample efficiency of reinforcement learning. One problem in this area of research, however, has been a scarcity of adequate benchmark tasks. In general, the structure underlying past benchmarks has either been too simple to be inherently interesting, or too ill-defined to support principled analysis. In the present work, we introduce a new benchmark for meta-RL research, which combines structural richness with structural transparency. Alchemy is a 3D video game, implemented in Unity, which involves a latent causal structure that is resampled procedurally from episode to episode, affording structure learning, online inference, hypothesis testing and action sequencing based on abstract domain knowledge. We evaluate a pair of powerful RL agents on Alchemy and present an in-depth analysis of one of these agents. Results clearly indicate a frank and specific failure of meta-learning, providing validation for Alchemy as a challenging benchmark for meta-RL. Concurrent with this report, we are releasing Alchemy as public resource, together with a suite of analysis tools and sample agent trajectories.
公開日: Thu, 4 Feb 2021 23:40:44 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Alchemy: A structured task distribution for Alchemy: 構造化されたタスク分布 0.82
meta-reinforcement learning Jane X. Wang* † 1 , Michael King* 1, Nicolas Porcel1, Zeb Kurth-Nelson1,2, Tina Zhu1, Charlie Deck1, Peter Choy1, Mary Cassin1, Malcolm Reynolds1, メタ強化学習 Jane X. Wang* > 1 , Michael King* 1, Nicolas Porcel1, Zeb Kurth-Nelson1,2, Tina Zhu1, Charlie Deck1, Peter Choy1, Mary Cassin1, Malcolm Reynolds1, 0.81
Francis Song1, Gavin Buttimore1, David P. Reichert1, Neil Rabinowitz1, Francis Song1, Gavin Buttimore1, David P. Reichert1, Neil Rabinowitz1 0.91
Loic Matthey1, Demis Hassabis1, Alexander Lerchner1, Matthew Botvinick‡1,2 Loic Matthey1, Demis Hassabis1, Alexander Lerchner1, Matthew Botvinick 1,2 0.76
1 2 0 2 b e F 4 1 2 0 2 b e F 4 0.85
] G L . ] G L。 0.79
s c [ 1 v 6 2 9 2 0 sc [ 1 v 6 2 9 2 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
1DeepMind, London, UK 1DeepMind, London, UK 0.99
2University College London, London, UK 2University College London, London, UK 0.96
February 8, 2021 Abstract 2021年2月8日 概要 0.58
There has been rapidly growing interest in metalearning as a method for increasing the flexibility and sample efficiency of reinforcement learning. 強化学習の柔軟性とサンプル効率を高める方法としてメタラーニングへの関心が急速に高まっている。 0.74
One problem in this area of research, however, has been a scarcity of adequate benchmark tasks. しかし、この研究領域の1つの問題は、適切なベンチマークタスクが不足していることである。 0.54
In general, the structure underlying past benchmarks has either been too simple to be inherently interesting, or too ill-defined to support principled analysis. 一般に、過去のベンチマークの基盤となる構造は、本質的に興味をそそるには単純すぎるか、原則分析をサポートするには不明確すぎるかのどちらかである。 0.51
In the present work, we introduce a new benchmark for meta-RL research, which combines structural richness with structural transparency. 本稿では,構造的豊かさと構造的透明性を組み合わせたメタrl研究の新しいベンチマークを紹介する。 0.71
Alchemy is a 3D video game, implemented in Unity, which involves a latent causal structure that is resampled procedurally from episode to episode, affording structure learning, online inference, hypothesis testing and action sequencing based on abstract domain knowledge. AlchemyはUnityで実装された3Dビデオゲームで、エピソードからエピソードに段階的に再サンプリングされる潜伏因果関係構造を含み、構造学習、オンライン推論、仮説テスト、および抽象ドメイン知識に基づくアクションシークエンスを可能にする。 0.71
We evaluate a pair of powerful RL agents on Alchemy and present an in-depth analysis of one of these agents. Alchemy上の強力なRLエージェントのペアを評価し、これらのエージェントの1つを詳細に分析します。 0.65
Results clearly indicate a frank and specific failure of meta-learning, providing validation for Alchemy as a challenging benchmark for meta-RL. 結果は、メタラーニングの率直で具体的な失敗を明確に示し、メタRLの難しいベンチマークとしてAlchemyの検証を提供します。 0.51
Concurrent with this report, we are releasing Alchemy as public resource, together with a suite of analysis tools and sample agent trajectories. このレポートと並行して、Alchemyを公開リソースとして、分析ツールやサンプルエージェントのトラジェクトリとともにリリースしています。 0.72
1. Introduction Techniques for deep reinforcement learning have matured rapidly over the last few years, yielding high levels of performance in tasks ranging from chess and Go (Schrittwieser 1. 導入 深層強化学習のテクニックはここ数年で急速に成熟しており、チェスやGo(Schrittwieser)などのタスクで高いパフォーマンスを発揮しています。 0.78
*Equal contribution †Correspondence to: wangjane@google.com ‡Correspondence to: botvinick@google.com ※貢献度: wangjane@google.com </correspondence to: botvinick@google.com 0.65
1 et al., 2020) to realtime strategy (Vinyals et al., 2019; OpenAI, 2018) to first person 3D games (Jaderberg et al., 2019; Wydmuch et al., 2018). 1 リアルタイム戦略(Vinyals et al., 2019; OpenAI, 2018)から1人称3Dゲーム(Jaderberg et al., 2019; Wydmuch et al., 2018)へ。 0.78
However, despite these successes, poor sample efficiency, generalization, and transfer remain widely acknowledged pitfalls. しかし、これらの成功にもかかわらず、サンプル効率、一般化、および転送は広く認められている落とし穴のままです。 0.53
To address those challenges, there has recently been growing interest in the topic of metalearning (Brown et al., 2020; Vanschoren, 2019), and how meta-learning abilities can be integrated into deep RL agents (Wang, 2020; Botvinick et al., 2019). これらの課題に対処するため、最近メタラーニング(Brown et al., 2020; Vanschoren, 2019)のトピックと、メタラーニングの能力をディープRLエージェントに統合する方法(Wang, 2020; Botvinick et al., 2019)への関心が高まっています。 0.75
Although a bevy of interesting and innovative techniques for meta-reinforcement learning have been proposed (e.g., Finn et al., 2017; Xu et al., 2018; Rakelly et al., 2019; Stadie et al., 2018), research in this area has been hindered by a ‘problem problem,’ that is, a dearth of ideal task benchmarks. メタ強化学習の面白く革新的な手法が提案されているが(例:Finn et al., 2017; Xu et al., 2018; Rakelly et al., 2019; Stadie et al., 2018)、この分野の研究は「問題」、すなわち理想的なタスクベンチマークの絶望によって妨げられている。 0.79
In the present work, we contribute toward a remedy, by introducing and publicly releasing a new and principled benchmark for meta-RL research. 本研究は,メタRL研究のための新しい,原則化されたベンチマークを導入し,公開することにより,治療に貢献する。 0.58
Where deep RL requires a task, meta-RL instead requires a task distribution, a large set of tasks with some form of shared structure. 深いrlがタスクを必要とする場合、meta-rlはタスク分散と何らかの共有構造を持つ大きなタスクセットを必要とする。 0.65
Meta-RL is then defined as any process that yields faster learning, on average, with each new draw from the task distribution (Thrun & Pratt, 1998). その後、メタRLは、タスク分布からそれぞれ新たな引き分け(Thrun & Pratt, 1998)によって、平均してより高速な学習をもたらすプロセスとして定義される。 0.66
A classic example, leveraged in numerous meta-RL studies (e.g., Wang et al., 2016; Duan et al., 2016) is a distribution of bandit problems, each with its own sampled set of actioncontingent reward probabilities. 古典的な例は、多くのメタRL研究(例えば、Wang et al., 2016; Duan et al., 2016)で活用され、それぞれが独自のサンプル化されたアクションコンテント報酬確率を持つバンディット問題の分布である。 0.76
A straightforward way to generalize the problem setting for meta-RL is in terms of an underspecified partially observable Markov decision problem (UPOMDP; Dennis et al., 2020). メタRLの問題を一般化する簡単な方法は、非特定部分可観測マルコフ決定問題(UPOMDP; Dennis et al., 2020)の観点である。 0.70
This enriches the standard POMDP tuple (cid:104)S, A, Ω, T, R, O(cid:105), respectively a set of states, actions, and observations, together with state-transition, reward and observation functions (Sutton & Barto, 1998), adding a set of parameters Θ which govern the latter three functions. これは標準の POMDP タプル (cid:104)S, A, Ω, T, R, O(cid:105) をそれぞれ強化し、状態遷移、報酬、観測関数 (Sutton & Barto, 1998) とともに状態、行動、観察の集合を加味し、後者の3つの関数を管理するパラメータの集合を加味する。 0.84
Importantly, Θ is understood as a random variable, governed 重要なのは θ は確率変数として理解され 0.64
英語(論文から抽出)日本語訳スコア
by a prior distribution and resulting in a corresponding distribution of POMDPs. 前の分布によって、そして、対応するPOMDPの分布をもたらす。 0.76
In this setting, meta-RL can be viewed in terms of hierarchical Bayesian inference, with a relatively slow process, spanning samples, gradually inferring the structure of the parameterization Θ, and in turn supporting a rapid process which infers the specific parameters underlying each new draw from the task distribution (Ortega et al., 2019; Grant et al., 2018; Duff, 2003; Baxter, 1998). この設定では、メタRLは階層的ベイズ推論の観点で見ることができ、比較的遅いプロセスでサンプルを分散し、パラメータ化の構造を徐々に推論し、タスク分布から各新しいパラメーターを推論する高速なプロセスをサポートすることができる(Ortega et al., 2019; Grant et al., 2018; Duff, 2003; Baxter, 1998)。 0.76
In meta-RL, the latter process is an active one, involving strategic gathering of information or experimentation (Fedorov, 2013; Dasgupta et al., 2019). meta-rlでは、後者のプロセスは、戦略的情報収集や実験を含むアクティブなプロセスである(fedorov, 2013; dasgupta et al., 2019)。 0.81
This perspective brings into view two further desiderata for any benchmark meta-RL task distribution. この視点は、任意のベンチマークメタRLタスク配布のためのさらに2つのデジラタを視野に入れます。 0.40
First, the ground-truth parameterization of the distribution should ideally be accessible. まず、分布の地層パラメータ化は、理想的にはアクセス可能であるべきである。 0.57
This allows agent performance to be compared directly against an optimal baseline, which is precisely a Bayesian learner, sometimes referred to as an ‘ideal observer’ (Geisler, 2003; Ortega et al., 2019). これにより、エージェントのパフォーマンスを最適なベースラインと直接比較することができ、これは正確にベイズ学習者であり、「理想的オブザーバー」と呼ばれることもある(Geisler, 2003; Ortega et al., 2019)。 0.67
Second, the structure of the task distribution should be interesting, in that it displays properties comparable to those involved in many challenging real-world tasks. 第二に、タスク分散の構造は興味深いもので、多くの挑戦的な実世界のタスクに匹敵するプロパティを表示する。 0.68
Intuitively, in the limit, interesting structure should feature compositionality, causal relationships, and opportunities for conceptual abstraction (Lake et al., 2017), and result in tasks whose diagnosis and solutions require strategic sequencing of actions. 直感的には、興味深い構造は構成性、因果関係、概念的抽象化の機会を特徴とすべきであり(Lake et al., 2017)、その結果、診断と解決策が行動の戦略的シークエンシングを必要とするタスクとなる。 0.65
Unfortunately, the environments employed in previous metaRL research have tended to satisfy one of the above desiderata at the expense of the other. 残念ながら、以前のメタRL研究で採用された環境は、他方を犠牲にして上記のデジラタのいずれかを満たす傾向にある。
訳抜け防止モード: 残念ながら 以前のmetarl研究で使われた環境は 上記のうちの一方を他方を犠牲にして満足させる。
0.56
Task distributions such as bandit problems have furnished accessibility, allowing for principled analysis and interpretation of meta-learning performance (Wang et al., 2016; Duan et al., 2016; Ortega et al., 2019), but have failed on the interestingness front by focusing on very simple task parameterization structures. バンディット問題などのタスク分布はアクセシビリティを提供し、メタラーニングのパフォーマンス(Wang et al., 2016; Duan et al., 2016; Ortega et al., 2019)の原則分析と解釈を可能にしたが、非常に単純なタスクパラメータ化構造に焦点を当てることによって、面白さ面で失敗している。 0.70
At the other end of the spectrum, tasks with more interesting and diverse structure (e.g., Atari games) have been grouped together as task distributions, but the underlying structure or parameterization of those distributions is not transparent (Bellemare et al., 2013; Parisotto et al., 2015; Rusu et al., 2016; Nichol et al., 2018; Cobbe et al., 2019; Yu et al., 2020). 一方、より興味深く多様な構造を持つタスク(例えば、アタリゲーム)はタスク分布としてグループ化されているが、それらの分布の基盤となる構造やパラメータ化は透明ではない(Bellemare et al., 2013; Parisotto et al., 2015; Rusu et al., 2016; Nichol et al., 2018; Cobbe et al., 2019; Yu et al., 2020)。 0.80
This makes it difficult to be confident (beyond human intuition) whether any sample from the task distribution in fact supports transfer to further sampled tasks, let alone to construct Bayes-optimal performance baselines for such transfer. これは、実際にタスク分布のサンプルがさらなるサンプル化されたタスクへの転送をサポートするかどうか(人間の直感を超えて)自信を持つことを困難にします。 0.67
In the present work, we introduce a task distribution that checks both boxes, offering both accessibility and interestingness, and thus a best-of-both-worlds benchmark for meta-RL research. 本研究では,両ボックスのチェックを行うタスク分布を導入し,アクセシビリティと面白さを両立させ,メタRL研究のためのベスト・オブ・ワールドベンチマークを提案する。 0.65
Alchemy is a 3D, first-person perspective video game implemented in the Unity game engine (www.unity.com). AlchemyはUnityゲームエンジン(www.unity.com)で実装された3D、一人称視点ビデオゲームである。 0.71
It has a highly structured and non-trivial latent causal structure which is resampled every time the game is played, requiring knowledge-based experimentation 高度に構造化された非自明な因果構造を持ち、ゲームがプレイされるたびに再サンプリングされ、知識に基づく実験を必要とする。 0.62
and strategic action sequencing. 戦略的な行動シークエンシングです 0.70
Because Alchemy levels are procedurally created based on a fully accessible generative process with a well-defined parameterization, we are able to implement a Bayesian ideal observer as a gold standard for performance. アルケミーレベルは、適切に定義されたパラメータ化を持つ、完全にアクセス可能な生成プロセスに基づいて手続き的に生成されるため、ベイズ理想オブザーバをパフォーマンスのゴールド標準として実装することができる。 0.64
In addition to introducing the Alchemy environment, we evaluate it on two recently introduced, powerful deep RL agents, demonstrating a striking failure of structure learning. alchemy環境の導入に加えて,最近導入された2つの強力な深層rlエージェントによる評価を行い,構造学習の著しい失敗を実証した。 0.77
Applying a battery of performance probes and analyses to one agent, we provide evidence that its performance reflects a superficial, structure-blind heuristic strategy. 性能調査と分析のバッテリを1つのエージェントに適用することにより,その性能が表面的かつ構造的なヒューリスティック戦略を反映していることを示す。 0.68
Further experiments show that this outcome is not purely due to the sensorimotor complexities of the task, nor to the demands of multi-step decision making. さらなる実験により、この結果は単にタスクの複雑なセンサーや、複数ステップの意思決定の要求によるものではないことが示されている。 0.67
In sum, the limited metalearning performance appears to be specifically tied to the identification of latent structure, validating the utility of Alchemy as an assay for this particular ability. 要約すると、限られたメタラーニングのパフォーマンスは、特に潜在構造の同定と関連しており、Alchemyの有用性をこの特定の能力のアッセイとして検証している。 0.69
2. The Alchemy environment Alchemy is a 3D environment created in Unity (Juliani et al., 2018; Ward et al., 2020), played in a series of ‘trials’, which fit together into ‘episodes.’ Within each trial, the goal is to use a set of potions to transform each in a collection of visually distinctive stones into more valuable forms, collecting points when the stones are dropped into a central cauldron. 2. アルケミー(Alchemy)は、ユニティで作られた3D環境(Juliani et al., 2018; Ward et al., 2020)で、一連の「試行錯誤(episodes)」で演奏される。それぞれの試行では、一組のポチオンを使って、視覚的に特徴的な石の集合体をより価値の高い形に変換し、石が中央のカルドロンに落下するポイントを集める。 0.79
The value of each stone is tied to its perceptual features, but this relationship changes from episode to episode, as do the potions’ transformative effects. それぞれの石の価値はその知覚的特徴と結びついているが、この関係はポティオンの変形的な効果と同様に、エピソードごとに変化する。 0.73
Together, these structural aspects of the task constitute a ‘chemistry’ that is fixed across trials within an episode, but which is resampled at the start of each episode, based on a highly structured generative process (see Figure 1). このタスクの構造的側面は、エピソード内の試行錯誤で固定される「化学」を構成するが、各エピソードの開始時に、高度に構造化された生成過程に基づいて再サンプリングされる(図1参照)。 0.73
The implicit challenge within each episode is thus to diagnose, within the available time, the current chemistry, leveraging this diagnosis to manufacture the most valuable stones possible. したがって、各エピソード内の暗黙的な課題は、利用可能な時間内に現在の化学を診断し、この診断を利用して可能な限り最も貴重な石を製造することです。 0.60
2.1. Observations, actions, and task logic At the beginning of each trial, the agent views a table containing a cauldron together with three stones and twelve potions, as sampled from Alchemy’s generative process (Figure 1a). 2.1. 観察、行動、タスクロジック 各試験の開始時に、エージェントは、アルチェミーの生成過程から採取した3つの石と12のポチオンと一緒にカルドロンを含むテーブルを見る(図1a)。 0.70
Stone appearance varies along three feature dimensions: size, color and shape. 石の外観はサイズ、色、形状の3つの特徴によって異なる。 0.67
Each stone also displays a marker whose brightness signals its point value (-3, -1, +1 or +15). 各石は、その輝度が点値(-3, -1, +1, +15)を示すマーカーも表示する。 0.73
Each potion appears in one of six hues. それぞれの薬は6つの色合いのうちの1つに現れる。 0.51
The agent receives pixel-level (96x72 RGB) observations from an egocentric perspective, together with proprioceptive information (acceleration, distance of and force on the hand, and whether the hand is grasping an object). エージェントは、自我中心の視点からピクセルレベル(96x72 RGB)の観察と、推進的情報(手の加速、距離、力、手が物体をつかんでいるかどうか)を受信する。 0.67
It selects actions from a nine-dimensional set (consisting of navigation, object manipulation actuators, and a discrete grab action). 9次元セット(ナビゲーション、オブジェクト操作アクチュエータ、離散的なグラブアクションで構成される)からアクションを選択します。 0.78
When a stone comes into contact with a potion, the latter is completely consumed and, depending on the current chemistry, the stone appearance and value may change. 石がポーションと接触すると、後者は完全に消費され、現在の化学によっては石の外観と価値が変化する可能性があります。 0.73
Each trial 裁判ごとに 0.61
英語(論文から抽出)日本語訳スコア
Figure 1. a) Visual observation for Alchemy, RGB, rendered at higher resolution than is received by the agent (96x72). 図1.a)Alchemy、RGBの視覚観察は、エージェント(96x72)によって受信されるよりも高解像度でレンダリングされます。
訳抜け防止モード: 図1.a) Alchemy, RGB, の視覚的観察 エージェント (96x72 ) よりも高分解能でレンダリングされる。
0.84
b) Temporal depiction of the generative process, indicating when chemistries and trial-specific instances (stones, potions, placement, lighting) are resampled. b) 生成過程の一時的な描写、化学および試験固有のインスタンス(石、ポーション、配置、照明)が再サンプリングされた時期を示す。 0.70
c) A high-level depiction of the generative process for sampling a new task, in plate notation. c) プレート表記において,新しいタスクをサンプリングするための生成過程の高レベルな描写 0.85
Certain structures are fixed for all episodes, such as the constraint rules governing the possible graphs, the way rewards are calculated from stone latent properties, and the fact that potions are paired into opposites. 特定の構造は、可能なグラフを管理する制約ルール、報酬の計算方法は石の潜伏特性から、そしてポジオンが反対にペアリングされているという事実など、すべてのエピソードのために固定されています。
訳抜け防止モード: ある構造は、可能なグラフを管理する制約規則など、すべてのエピソードに対して固定されている。 報酬の計算方法は 石の潜伏特性と ポチオンが対になるという事実から
0.64
Every episode, a graph and a set of variables determining the way potions and stones are mapped between latent and perceptual space are sampled to form a new chemistry. 毎回、グラフと、ポチオンと石のマッピング方法を決定する変数のセットが、潜伏空間と知覚空間の間でサンプリングされ、新しい化学が形成される。 0.67
Conditioned on this chemistry, for each of Ntrial = 10 trials, Ns = 3 specific stones and Np = 12 potions are sampled, as well as random position and lighting conditions, to form the perceptual observation for the agent. この化学に基づいて、ntrial = 10 の試験ごとに ns = 3 個の特定の石と np = 12 個の薬液をサンプリングし、ランダムな位置と照明条件を観測し、エージェントの知覚観察を形成する。 0.79
See Appendix A.1 and Figure 5 for a detailed description of all elements. すべての要素の詳細な説明については、Appendix A.1と図5を参照してください。 0.61
d) Four example chemistries, in which the latent axes are held constant (worst stone is at the origin). d) 潜伏軸が一定に保たれている4つの化学例(最も強い石が起源である)。 0.72
e) The same four chemistries, this time with perceptual axes held constant. e)同じ4つの化学者、今度は知覚軸が一定である。 0.78
Note that the edges of the causal graph need not be axis aligned with the perceptual axes. 因果グラフのエッジは、知覚軸に沿って軸を揃える必要はないことに注意してください。 0.67
lasts sixty seconds, simulated at 30 frames per second. 60秒で、30フレーム/秒でシミュレートされます。 0.72
A visual indicator in each corner of the workspace indicates time remaining. ワークスペースの各コーナーの視覚表示器は残り時間を示します。 0.79
Each episode comprises ten trials, with the chemistry fixed across trials but stone and potion instances, spatial positions, and lighting resampled at the onset of each trial (Figure 1b). 各エピソードは10回の試行で構成され、化学は試行中に固定されるが、石や薬品のケース、空間的な位置、そして各試行の開始時に再サンプリングされる照明(図1b)。 0.58
See https://youtu.be/k2z iWeyMxAk for a video illustration of game play. ゲームプレイの動画イラストはhttps://youtu.be/k2z iWeyMxAkを参照。 0.58
2.2. The chemistry As noted earlier, the causal structure of the task changes across episodes. 2.2. 化学 先に述べたように、タスクの因果構造はエピソード間で変化します。 0.70
The current ‘chemistry’ determines the particular stone appearances that can occur, the value at- 現在の「化学」は、起こり得る特定の石の外観、値を決定する。 0.80
tached to each appearance, and, crucially, the transformative effects that potions have on stones. 各外観に適応し、そして最も重要なことに、ポイオンが石にもたらす変換効果。 0.56
The specific chemistry for each episode is sampled from a structured generative process, illustrated in Figure 1c-e and fully described in the Appendix. 各エピソードの特異な化学は、図1c-eで示される構造的生成過程からサンプリングされ、Appendixで完全に説明されている。 0.63
For brevity, we limit ourselves here to a high-level description. 簡潔さのために、私たちはここでハイレベルな記述に制限します。 0.57
To foreground the meta-learning challenge involved in Alchemy, it is useful to distinguish between (1) the aspects of the task that can change across episodes and (2) the abstract principles or regularities that span all episodes. Alchemyに関わるメタラーニングの課題を先導するには、(1)エピソード間で変化するタスクの側面と、(2)すべてのエピソードにまたがる抽象的な原則または規則を区別することが有用である。 0.72
As we have noted, the former, changeable aspects include stone 前者の変更可能な側面には石が含まれています。 0.57
a)c)b)Resample stones, potions, etc.Resample chemistryTrial123123 d)e)SizeColorShapeyx zChemistryNEpisodeNt rialConstraint rulesPotioncolor pairingsReward rulesVariables determining potion/stone mappings between perceptual and latent spaceGraphsPotions12 StonesPlacementLight ing3Episode 1Episode 2 a)c)resample stones, potions etc.Resample chemistryTrial123123 d)e)SizeColorShapeyx zChemistryNEpisodeNt rialConstraint rules Potioncolor pairings Reward rulesVariables determine potion/stone mappings between perceptual and latent spaceGraphsPotions12 StonesPlacementLight ing3Episode 1Episode 2 0.55
英語(論文から抽出)日本語訳スコア
appearances, stone values, and potion effects. 出現、石の価値およびpotionの効果。 0.64
Given all possible combinations of these factors, there exist a total of 167,424 possible chemistries (taking into account that stone and potion instances are also sampled per trial yields a total set of possible trial initializations on the order of 124 billion, still neglecting variability in the spatial positioning of objects, lighting, etc).1 The principles that span episodes are, in a sense, more important, since identifying and exploiting these regularities is the essence of the meta-learning problem. Given all possible combinations of these factors, there exist a total of 167,424 possible chemistries (taking into account that stone and potion instances are also sampled per trial yields a total set of possible trial initializations on the order of 124 billion, still neglecting variability in the spatial positioning of objects, lighting, etc).1 The principles that span episodes are, in a sense, more important, since identifying and exploiting these regularities is the essence of the meta-learning problem. 0.90
The invariances that characterize the generative process in Alchemy can be summarized as follows: アルケミーにおける生成過程を特徴づける不変性は、次のように要約できる。 0.65
1. Within each episode, stones with the same visual features have the same value and respond identically to potions. 1. 各エピソードでは、同じ視覚的特徴を持つ石は同じ価値を持ち、ポーションに同じ反応をします。 0.77
Analogously, potions of the same color have the same effects. 対照的に、同じ色のカチオンは同じ効果がある。 0.73
2. Within each episode, only eight stone appearances can occur, and these correspond to the vertices of a cube in the three-dimensional appearance space. 2. 各エピソードでは8つの石の出現しか起こり得ず、これらは3次元の出現空間における立方体の頂点に対応する。 0.77
Potion effects run only along the edges of this cube, effectively making it a causal graph. ポティオン効果は、この立方体の端に沿ってのみ実行され、効果的に因果グラフとなる。 0.65
3. Each potion type (color) ‘moves’ stone appearances in only one direction in appearance space. 3. 各鉢のタイプ(色)は出現スペースの1つの方向だけ石の出現を「動く」。 0.79
That is, each potion operates only along parallel edges of the cubic causal graph. すなわち、各ポティオンは立方体因果グラフの平行辺に沿ってのみ作用する。 0.73
4. Potions come in fixed pairs (red/green, yellow/orange, pink/turquoise) which always have opposite effects. 4. ポチオンは、常に反対の効果を持つ固定対(赤/緑、黄/オレンジ、ピンク/ターコイズ)を持つ。 0.68
The effect of the red potion, for example, varies across episodes, but whatever its effects, the green potion will have the converse effects. 赤いポットの効果は、例えば、エピソードごとに異なりますが、その効果が何であれ、緑のポットには逆の効果があります。 0.71
5. In some chemistries, edges of the causal graph may be missing, i.e., no single potion will effect a transition between two particular stone appearances.2 However, the topology of the underlying causal graph is not arbitrary; it is governed by a generative grammar that yields a highly structured distribution of topologies (see Appendix A.1 and Figure 6). 5. いくつかの化学では、因果グラフのエッジが欠落している可能性があり、すなわち、2つの特定の石の出現の間の遷移を1つも及ぼさない。2 しかし、基礎となる因果グラフのトポロジーは任意のものではなく、位相の高度に構造化された分布をもたらす生成的文法によって制御される(付録A.1および図6を参照)。 0.75
Because these conceptual aspects of the task remain invariant across episodes, experience gathered from across a large set of episodes affords the opportunity for an agent to discover them, tuning into the structure of the generative process giving rise to each episode and trial. このタスクの概念的な側面はエピソード全体にわたって不変であり、多数のエピソードから集めた経験は、エージェントがそれらを発見する機会を与え、それぞれのエピソードと試行を生じさせる生成過程の構造をチューニングする。 0.67
It is the ability to learn at this level, and to exploit what it learns, that corresponds to an agent’s meta-learning performance. このレベルで学習し、それが学習したものを利用する能力であり、それはエージェントのメタラーニングのパフォーマンスに相当します。 0.71
1Note that this corresponds to the sample space for the parame- 1 パラメのサンプル空間に対応することに注意。 0.68
ter set Θ mentioned in the Introduction. ter set θ は序文で言及されている。 0.50
2When this is the case, in order to anticipate the effect of some potions the player must attend to conjunctions of perceptual features. 2 この場合、ポティオンの効果を予測するためには、プレイヤーは知覚的特徴の結合に従わなければならない。 0.71
Missing edges can also create bottlenecks in the causal graph, which make it necessary to first transform a stone to look less similar to a goal appearance before it is feasible to attain that goal state. 欠落したエッジは因果グラフにボトルネックを作ることもできます。これにより、最初にその目標状態を達成する前に、目標の外観にあまり似ていないように石を変換する必要があります。 0.60
2.3. Symbolic version As a complement to the canonical 3D version of Alchemy, we have also created a symbolic version of the task. 2.3. シンボリックバージョン Alchemyの標準3Dバージョンを補完するものとして、私たちはタスクのシンボリックバージョンを作成しました。 0.70
This involves the same underlying generative process and preserves the challenge of reasoning and planning over the resulting latent structure, but factors out the visuospatial and motor complexities of the full environment. これは、同じ根底にある生成過程を含み、結果として生じる潜在構造に対する推論と計画の難しさを保ちながら、完全な環境の視覚とモーターの複雑さを要因とする。 0.61
Symbolic Alchemy returns as observation a concatenated vector indicating the features of all sampled potions and stones, and entails a discrete action space, specifying a stone and a container (either potion or cauldron) in which to place it, plus a no-op action. シンボリック錬金術は、すべてのサンプルされたポビオンと石の特徴を示す連結ベクトルを観察として戻り、それを配置する石と容器(ポビオンまたはキャドロンのいずれか)とノーオプアクションを指定し、離散的なアクションスペースを伴います。 0.74
Full details are presented in the Appendix. 詳細はAppendixに記載されている。 0.66
2.4. Ideal-observer reference agent As noted in the Introduction, when a task distribution is fully accessible, this makes it possible to construct a Bayesoptimal ‘ideal observer’ benchmark agent as a gold standard for evaluating the meta-learning performance of any agent. 2.4. ideal-observer reference agent 導入で述べたように、タスクディストリビューションが完全にアクセス可能である場合、任意のエージェントのメタラーニングパフォーマンスを評価するためのゴールド標準として、bayesoptimal ‘ideal observer’ベンチマークエージェントを構築することができる。 0.75
We constructed just such an agent for Alchemy, as detailed in the Appendix (Algorithm 1). 付録 (algorithm 1) に詳述したように, 錬金術のエージェントを製作した。 0.60
This agent maintains a belief state over all possible chemistries given the history of observations, and performs an exhaustive search over both available actions (as discretized in symbolic Alchemy) and possible outcomes in order to maximize reward at the end of the current trial. このエージェントは、観察の歴史を考えると、可能なすべての化学に関する信念状態を維持し、現在の試験の終わりに報酬を最大化するために、利用可能なアクション(象徴的錬金術で識別されるように)と可能な結果の両方を徹底的に検索します。 0.57
The resulting policy both marks out the highest attainable task score (in expectation) and exposes minimum-regret action sequences, which optimally balance exploration or experimentation against exploitation.3 Any agent matching the score of the ideal observer demonstrates, in doing so, both a thorough understanding of Alchemy’s task structure and strong action-sequencing abilities. 結果として得られた方針は、最も達成可能なタスクスコア(期待)を示し、最小レグレットのアクションシーケンスを公開し、探索や実験を最適にバランスさせる。3 理想的なオブザーバーのスコアにマッチするエージェントは、錬金術のタスク構造と強力なアクションシーケンス能力の完全な理解の両方を実証する。 0.71
As further tools for analysis, we devised two other reference agents. 分析のためのさらなるツールとして、他の2つの参照エージェントを考案した。 0.55
An oracle benchmark agent is always given privileged access to a full description of the current chemistry, and performs a brute-force search over the available actions, seeking to maximizing reward (see Appendix, Algorithm 2). オラクルベンチマークエージェントは、常に現在の化学の完全な記述への特権的アクセスを与えられ、利用可能なアクションをブルートフォースで探索し、報酬を最大化する(Appendix, Algorithm 2)。 0.71
A random heuristic benchmark agent chooses a stone at random, using potions at random until that stone reaches the maximum value of +15 points. ランダムヒューリスティックベンチマークエージェントは、石が+15点の最大値に達するまでランダムにポチオンを使用してランダムに石を選択する。 0.75
It then deposits the stone into the cauldron, chooses a new stone and repeats (Appendix, Algorithm 3). その後、石をカルドロンに堆積し、新しい石を選択して繰り返す(Appendix, Algorithm 3)。 0.79
The resulting policy yields a score reflecting what is possible in the absence of any guiding understanding of the latent structure of the Alchemy task. 結果として得られた方針は、錬金術タスクの潜在構造を導くような理解がなければ、何ができるかを反映するスコアを与える。 0.52
3Our ideal observer does not account for optimal inference over the entire length of the episode, which would be computationally intractable to calculate. 3理想的なオブザーバーは、計算が困難になるエピソードの全長に対する最適な推論を考慮に入れていません。 0.67
However, in general, we find that a single trial is enough to narrow down the number of possible world states to a much smaller number, and thus searching for more than one trial does not confer significant benefits. しかし、一般的には、単一の試行が可能な世界の状態の数をはるかに小さい数に絞り込むのに十分であり、したがって、複数の試行を探すことは大きな利点を与えません。 0.71
英語(論文から抽出)日本語訳スコア
3. Experiments 3.1. Agent architectures and training As a first test of Alchemy’s utility as a meta-RL benchmark, we tested two strong distributed deep RL agents. 3. 実験3.1。 エージェントアーキテクチャとトレーニング AlchemyのメタRLベンチマークとしての最初のテストとして、強力な分散RLエージェントを2つテストしました。 0.76
VMPO agent: As described in (Song et al., 2019) and (Parisotto et al., 2019), this agent centered on a gated transformer XL network. VMPOエージェント: (Song et al., 2019) と (Parisotto et al., 2019) で説明されているように、このエージェントはゲートトランスフォーマーXLネットワークを中心にしている。 0.79
Image-frame observations were passed through a residual-network encoder and fully connected layer, with proprioceptive observations, previous action and reward then concatenated. 画像フレーム観察は、残差ネットワークエンコーダと完全連結層を通過し、前回の動作と報酬が連結された。 0.67
In the symbolic task, observations were passed directly to the transformer core. シンボリックタスクでは、観測は直接トランスフォーマーコアに渡された。 0.63
Losses were included for policy and value heads, pixel control (Jaderberg et al., 2017b), kickstarting (Schmitt et al., 2018; Czarnecki et al., 2019) and latent state prediction (see Section 3.3) weighted by βloss type. 政策と価値の頭文字、ピクセルコントロール(Jaderberg et al., 2017b)、キックスタート(Schmitt et al., 2018; Czarnecki et al., 2019)、潜在状態予測(第3条3項参照)などが含まれていた。 0.74
Where kickstarting was used (see below), the loss was KL(πstudent(cid:107)πteacher) and the weighting was set to 0 after 5e8 steps. キックスタート(後述)では、KL(πstudent(cid:107)πteacher)が減少し、重み付けは5e8ステップ後に0に設定された。 0.73
Further details are presented in Appendix Table 2. 詳細はAppendix Table 2に記載されている。 0.74
IMPALA agent: This agent is described by (Espeholt et al., 2018), and used population-based training as presented by (Jaderberg et al., 2017a). IMPALA エージェント: このエージェントは (Espeholt et al., 2018) によって説明され, (Jaderberg et al., 2017a) によって提示された人口ベースのトレーニングを用いている。 0.73
Pixel observations passed through a residual-network encoder and fully connected layer, and proprioceptive observations were concatenated to the input at every spatial location before each residual-network block. 残差ネットワークエンコーダと完全連結層を通過した画素観測を行い、各残差ネットワークブロックの前の各空間位置の入力に固有観測を結合した。 0.81
The resulting output was fed into the core of the network, an LSTM.4 Pixel control and kickstarting losses were used, as in the VMPO agent. 結果として出力はネットワークのコアに供給され、VMPOエージェントのようにLSTM.4 Pixelコントロールとキックスタート損失が使用された。 0.85
See Appendix Table 3 for details. 詳細はAppendix Table 3を参照。 0.84
Both agents were trained for 2e10 steps (˜4.44e6 training episodes; 1e9 episodes for the symbolic version of the task), and evaluated without weight updates on 1000 test episodes. 両方のエージェントは2e10ステップ(4.44e6トレーニングエピソード、象徴的なバージョンのタスクのための1e9エピソード)で訓練され、1000のテストエピソードで重量更新なしで評価された。 0.56
Note that to surpass a zero score, both agents required kickstarting (Schmitt et al., 2018), with agents first trained on a fixed chemistry with shaping rewards included for each potion use. ゼロスコアを超えるためには、両方のエージェントはキックスタート(Schmitt et al., 2018)が必要であり、エージェントはまず各ポーションの使用に含まれた報酬を形成する固定化学で訓練された。 0.65
Agents trained on the symbolic version of the task were trained from scratch without kickstarting. タスクの象徴的なバージョンで訓練されたエージェントは、キックスタートなしでゼロから訓練された。 0.53
3.2. Agent performance Mean episode scores for both agents are shown in Table 1. 3.2. 両方のエージェントのエージェントパフォーマンス平均エピソードスコアを表1に示します。 0.75
Both fell far short of the gold-standard ideal observer benchmark, implying a failure of meta-learning. どちらも、メタ学習の失敗を暗示する、ゴールドスタンダードの理想的なオブザーバーベンチマークには、はるかに及ばなかった。 0.48
In fact, scores for both agents fell close to that attained by the random heuristic reference policy. 実際、両方のエージェントのスコアはランダムなヒューリスティックな基準ポリシーによって達成されたスコアに近づいた。 0.56
In order to better understand these results, we conducted a series of additional analyses, focusing on the VMPO agent given its slightly higher baseline score. これらの結果をよりよく理解するために,vmpoエージェントのベースラインスコアが若干高いことに着目し,追加分析を行った。 0.66
A first question was whether this agent’s poor performance is due either to the difficulty of discerning task structure through the complexity of high-dimensional pixel observa- 最初の質問は、このエージェントの低パフォーマンスは、高次元ピクセルオブザーバの複雑さを介してタスク構造を識別することが困難であるかどうかであった。 0.68
4Recurrent state was set to zero at episode boundaries, but not between trials, enabling the agents (in principle) to utilise knowledge of the chemistry accumulated over previous trials. 4 Recurrent state was set to zero at episode boundary, not not trial, which the agent (in principle) toutilize the knowledge of the chemistry accumulated over previous trial。 0.73
Table 1. Benchmark and baseline-agent evaluation episode scores (mean ± standard error over 1000 episodes). 表1。 ベンチマークとベースラインエージェント評価エピソードスコア(平均±標準エラー1000回以上)。 0.74
AGENT IMPALA VMPO VMPO (SYMBOLIC) IDEAL OBSERVER ORACLE RANDOM HEURISTIC Impala VMPO VMPO(シンボリック)IDEAL OBSERVER ORACLE RANDOM HEURISTICを投与する。 0.72
EPISODE SCORE 140.2 ± 1.5 156.2 ± 1.6 155.4 ± 1.6 284.4 ± 1.6 288.5 ± 1.5 145.7 ± 1.5 EPISODE SCORE 140.2 ± 1.5 156.2 ± 1.6 155.4 ± 1.6 284.4 ± 1.6 288.5 ± 1.5 145.7 ± 1.5 0.55
tions, or to the challenge of sequencing actions in order to capitalize on inferences concerning the task’s latent state. タスクの潜入状態に関する推論を活用するために、アクションを順序付けすることに挑戦すること。
訳抜け防止モード: 行為、または順番に行動を順序づけすることに挑戦すること タスクの潜伏状態に関する推論を活用する。
0.66
A clear answer is provided by the scores from a VMPO agent trained and tested on the symbolic version of Alchemy, which lifts both of these challenges while continuing to impose the task’s more fundamental requirement for structure learning and latent-state inference. 明確な答えは、Alchemyのシンボリックバージョンで訓練およびテストされたVMPOエージェントのスコアによって提供され、これらの課題の両方を浮き彫りにし、構造学習と潜伏状態推論のためのタスクのより基本的な要件を課し続けます。 0.66
As shown in Table 1, performance was no better in this setting than in the canonical version of the task, again only slightly surpassing the score from the random heuristic policy. 表1に示すように、この設定ではパフォーマンスは通常のタスクよりも優れておらず、ランダムなヒューリスティックな方針によるスコアをわずかに上回っていた。 0.74
Informal inspection of trajectories from the symbolic version of the task was consistent with the conclusion that the agent, like the random heuristic policy, was dipping stones in potions essentially at random until a high point value happened to be attained. タスクの象徴的なバージョンからの軌道の非公式な検査は、エージェントがランダムなヒューリスティック・ポリシーのように、ハイポイント値に達するまで本質的にランダムに石をポチオンに浸しているという結論と一致した。 0.71
To test this impression more rigorously, we measured how many potions the agent consumed, on average, during the first and last trials within an episode. この印象をより厳密にテストするために,第1回および第2回の試験において,エージェントが平均で摂取したポチオン数を測定した。 0.67
As shown in Figure 3a, the agent used more potions during episode-initial trials than the ideal observer benchmark. 図3aに示すように、エージェントは理想的なオブザーバーベンチマークよりも、エピソード初期試験でより多くのポチオンを使用した。 0.50
From Figure 3b, we can see that the ideal observer used a smaller number of potions in the episode-final trial than in the initial trial, while the VMPO baseline agent showed no such reduction (see Appendix Figure 9 for more detailed results). 図3bから、理想的なオブザーバがエピソードファイナルトライアルで最初のトライアルよりも少ないポチオンを使用したのが分かる一方、VMPOベースラインエージェントはそのような削減を示さなかった(詳細はAppendix Figure 9を参照)。 0.70
By selecting diagnostic actions, the ideal observer progressively reduces its uncertainty over the current latent state of the task (i.e., the set of chemistries possibly currently in effect, given the history of observations). 診断行動を選択することにより、理想的なオブザーバーはタスクの現在の潜在状態に対する不確実性を段階的に減少させる(すなわち、観測の歴史を考えると、現在有効な化学の集合)。 0.75
This is shown in Figure 3c-d, in units of posterior entropy, calculated as the log of the number of possible states. これは図3c-dで表され、後続エントロピーの単位で、可能な状態の数のログとして計算される。 0.64
The VMPO agent’s actions also effectively reveal the chemistry, as indicated in the figure. VMPOエージェントのアクションは、図に示すように、化学を効果的に明らかにする。 0.79
The fact that the agent is nonetheless scoring poorly and overusing potions implies that it is failing to make use of the information its actions have inadvertently revealed about the task’s latent state. それでもエージェントが成績が悪く、ポティオンを過大に活用しているという事実は、アクションが不注意にタスクの潜在状態に関する情報を活用できていないことを示している。 0.60
The behavior of the VMPO agent suggests that it has not tuned into the consistent principles that span chemistries in Alchemy, as enumerated in Section 2.2. VMPOエージェントの振る舞いは、2.2節に列挙されているように、アルケミーの化学にまたがる一貫した原理にチューニングされていないことを示唆している。 0.57
One way of probing the agent’s ‘understanding’ of individual principles is to test how well its behavior is fit by synthetic models that either do or do not leverage one relevant aspect of the task’s structure, a technique frequently used in cognitive 個々の原則に対するエージェントの‘理解’を探究する方法の1つは、その振る舞いが、そのタスクの構造の1つの関連する側面を活用または利用しない合成モデルにどの程度適合しているかをテストすることである。 0.81
英語(論文から抽出)日本語訳スコア
Figure 2. Episode reward averaged over 1000 evaluation episodes, for VMPO agent, on 3D Alchemy, symbolic Alchemy, and 3D Alchemy with additional symbolic observations, for a) no auxiliary tasks and b) feature prediction auxiliary tasks. 図2。 エピソード報酬は、VMPOエージェントに対して、3D錬金術、シンボリック錬金術、および追加のシンボリック観察を伴う3D錬金術について、1000以上の評価エピソードの平均値であり、a)補助タスクおよびb)特徴予測補助タスク。
訳抜け防止モード: 図2。 エピソード報酬はVMPOエージェントで平均1000回以上評価された。 3D Alchemy, symbolic Alchemy, and 3D Alchemy with additional symbolic observed。 a) 補助タスクがなく、b) 特徴予測補助タスク。
0.75
The gray dashed line indicates reward achieved by the ideal observer; the dotted line indicates that achieved by the random heuristic benchmark agent. 灰色の線は理想の観察者によって達成された報酬を表し、点線はランダムなヒューリスティックなベンチマークエージェントによって達成されたものである。
訳抜け防止モード: 灰色の破線は理想のオブザーバーが達成した報酬を示す 点線はランダムヒューリスティックベンチマークエージェントによって達成されたことを示す。
0.71
Filled black circles indicate individual replicas (5-8 per condition). 充填された黒い円は個々のレプリカ(条件5-8)を示す。 0.63
science to analyze human learning and decision making. 人間の学習と意思決定を分析する科学です 0.86
We applied this strategy to evaluate whether agents trained on the symbolic version of Alchemy was leveraging the fact that potions come in consistent pairs with opposite effects (see Section 2.2). 我々はこの戦略を適用し、アルケミーの象徴的バージョンで訓練されたエージェントが、対向効果と一貫した対になるという事実を活用しているかどうかを評価した(第2部2節参照)。 0.49
Two models were devised, both of which performed single-step look-ahead to predict the outcome (stones and potions remaining) for each currently available action, attaching to each outcome a value equal to the sum of point-values for stones present, and selecting the subsequent action based on a soft-max over the resulting state values. 2つのモデルが考案され、いずれも現在利用可能な各アクションの結果(石と陰イオン)を予測し、各結果に現在存在する石の点値の和に等しい値を付加し、その結果の値に対してソフトマックスに基づいてその後のアクションを選択する。 0.80
In both models, predictions were based on a posterior distribution over the current chemistry. どちらのモデルも、予測は現在の化学に対する後方分布に基づいている。 0.73
However, in one model this posterior was updated in knowledge of the potion pairings, while the other model ignored this regularity of the task. しかし、あるモデルではこの後方はポティオンペアリングの知識で更新され、別のモデルではタスクの規則性を無視された。 0.61
As shown in Figure 4, when the fit of these two models was compared for the behavior of the ideal observer reference agent, in terms of relative likelihood, the result clearly indicated a superior fit for the model leveraging knowledge of the potion pairings. 図4に示すように、これらの2つのモデルの適合性が理想的なオブザーバ参照エージェントの動作に比較されたとき、相対可能性の観点から、結果は明らかにポビオンペアリングの知識を活用するモデルに優れた適合性を示した。 0.80
In contrast, for the random heuristic reference agent, a much better fit was attained for the model operating in ignorance of the pairings. 対照的に、ランダムなヒューリスティック参照エージェントでは、ペアリングの無知で動作するモデルに対してはるかに優れた適合性が達成された。 0.58
Applying the same analysis to the behavior of the baseline VMPO agent yielded results mirroring those for the random heuristic agent (see Figure 4), consistent with the conclusion that the VMPO agent’s policy made no strategic use of the existence of consistent relationships between the potions’ effects. ベースラインVMPOエージェントの動作に同じ分析を適用すると、ランダムなヒューリスティックエージェントの動作を反映した結果が得られました(図4参照)。
訳抜け防止モード: 同じ解析をベースラインVMPOエージェントの挙動に適用する ランダム・ヒューリスティック・エージェントの 結果を反映して (図4参照) VMPOエージェントのポリシーがポチオンの効果間の一貫性のある関係の存在を戦略的に利用しなかったという結論と一致している。
0.85
3.3. Augmentation studies A standard strategy in reinforcement learning research is to analyze the operation of a performant agent via a set of ablations, in order to determine what factors are causal in the agent’s success. 3.3. 強化研究 強化学習研究における標準的な戦略は、エージェントの成功にどのような要因があるかを決定するために、一連のアブレーションを通してパフォーマンスエージェントの操作を分析することである。 0.76
Confronted with a poorly performing agent, we inverted this strategy, undertaking a set of augmentations (additions to either the task or the agent) in order to identify パフォーマンスの悪いエージェントに向かい、私たちはこの戦略を逆転させ、識別するために一連の増強(タスクまたはエージェントへの追加)を実施しました。 0.74
what factors might be holding the agent back. どんな要因がエージェントを 押さえているのかも 0.68
Given the failure of the VMPO agent to show signs of identifying the latent structure of the Alchemy task, one question of clear interest is whether the agent’s performance would improve if the task’s latent state were rendered observable. VMPOエージェントがAlchemyタスクの潜時構造を特定する兆候を示しなかったことを考えると、そのタスクの潜時状態が観測可能になった場合、エージェントのパフォーマンスが改善するかどうかという明確な疑問がある。 0.74
In order to study this, we trained and tested on a version of symbolic Alchemy which supplemented the agent’s observations with a binary vector indicating the complete current chemistry (see Appendix for details). これを調べるために、我々は、完全な現在の化学を示すバイナリベクトルでエージェントの観察を補完するシンボリック錬金術のバージョンを訓練し、テストしました(詳細は付録を参照)。 0.73
When furnished with this side information, the agent’s average score jumped dramatically, landing very near the score attained by the ideal observer reference (Figure 2a ‘Symbolic’). このサイド情報を備えた場合、エージェントの平均スコアは劇的に上昇し、理想的なオブザーバー参照によって達成されたスコアに非常に近づいた(図2a ‘symbolic’)。 0.68
Note that this augmentation gives the agent privileged access to an oraclelike indication of the current ground-truth chemistry. この拡張により、エージェントは現在の基底構造化学のオラクル的な表示に特権を与えることに注意されたい。 0.49
In a less drastic augmentation, we replaced the side-information input with a vector indicating not the ground-truth chemistry, but instead the set of chemistries consistent with observations made so far in the episode, corresponding to the Bayesian belief state of the ideal observer reference model. より劇的な拡張では, 副次的な情報入力を基底構造化学ではなく, 理想的な観測基準モデルのベイズ的信念状態に対応して, これまでの観察と一致した化学薬品の集合を示すベクトルに置き換えた。 0.72
While the resulting scores in this setting were not quite as high as those in the ground-truth augmentation experiment, they were much higher than those observed without augmentation (Figure 2a ‘Symbolic’). この設定で得られたスコアは、地上の増倍実験ほど高くなかったが、増倍なしで観察したスコアよりもはるかに高かった(第2a図「象徴的」)。 0.69
Furthermore, the agent furnished with the belief state resembled the ideal observer agent in showing a clear reduction in potion use between the first and last trials in an episode (Figure 3a-b).5 Model fits also indicated the agent receiving this input made use of the opposite-effects pairings of potions, an ability not seen さらに、信念状態を備えたエージェントは、エピソードの最初の試験と最後の試験の間のポビオン使用の明確な減少を示すのに理想的なオブザーバエージェントに似ていました(図3a-b)。5モデル適合はまた、ポビオンの反対効果ペアリングを使用して入力を受けたエージェントも示しました。 0.62
5In contrast, when the agent was furnished with the full ground truth, it neither reduced its potion use over time nor so effectively narrowed down the set of possible chemistries. 5) 対照的に, 接地真理に満ちたエージェントは, 経時的に薬剤の使用量を減らしたり, 可能な化学薬品のセットを効果的に絞り込んだりしなかった。 0.67
This makes sense, however, given that full knowledge of the current chemistry allows the agent to be highly efficient in potion use from the start of the episode, and relieves it from having to perform diagnostic actions to uncover the current latent state. しかし、これは、現在の化学の完全な知識が、エピソードの開始時から薬剤の使用を効果的にし、現在の潜伏状態を明らかにするために診断を行う必要がなくなることを考慮すれば、理にかなっている。 0.72
a)b)No auxiliary tasksInput: NoneInput: Belief stateInput: Ground truthAuxiliary task Predict: FeaturesEpisode rewardEpisode reward3DSymbolic3D with symbolicobservations 3DSymbolic3D with symbolicobservations a) 補助的なタスク入力: NoneInput: Belief stateInput: Ground truthAuxiliary task Predict: FeaturesEpisode rewardEpisode reward3DSymbolic3D with symbolicobservations 3DSymbolic3D with symbolicobservations 0.88
英語(論文から抽出)日本語訳スコア
Figure 3. Behavioral metrics for different agents trained in symbolic alchemy (top) and 3D alchemy with symbolic observations (bottom). 図3。 記号的錬金術(トップ)と3次元錬金術(ボトム)で訓練された異なるエージェントの行動指標。 0.68
a) Number of potions used in Trial 1. b) Difference between number of potions used in trial 10 vs trial 1. c) Posterior entropy over world states, conditioned on agent actions, at end of trial 1. d) Posterior entropy over world states at the end of the episode. a) 試行1.b) 試行10対試行1.c) 試行1.c) 試行1.dの終わりに、エージェントの行動に基づいて調整された世界状態に対する後部エントロピー(英語版) エピソードの終わりに世界の状態に対する後部エントロピー(英語版)
訳抜け防止モード: a) 試用1.bで用いるポーションの数) 試用10と試用1で用いるポーションの数の違い。 c) エージェントの行動によって調節された世界状態に対する後部エントロピー。 裁判の終わりに 1 . d ) エピソードの終わりに世界の状態上の後部エントロピー。
0.74
The gray dashed line indicates the result of the Bayes ideal observer; the solid line indicates the result of the oracle benchmark. 灰色の破断線はベイズの理想観測者の結果を表し、固体線はオラクルのベンチマークの結果を示している。 0.74
Filled black circles are individual replicas. 満たされた黒い円は個々のレプリカです。 0.54
in the baseline VMPO agent (Figure 4). ベースラインVMPOエージェント(図4)で。 0.56
The impact of augmenting the input with an explicit representation of the chemistry implies that the VMPO agent, while evidently unable to identify Alchemy’s latent structure, can act adaptively if that latent structure is helpfully brought to the surface. 化学の明示的な表現で入力を増強する影響は、VMPOエージェントが明らかにアルケミーの潜伏構造を識別できないが、潜伏構造が表面へ有効に持ち込まれた場合、適応的に作用できることを意味している。 0.72
Since this observation was made in the setting of the symbolic version of Alchemy, we tested the same question in the full 3D version of the task. この観察はAlchemyのシンボリックバージョンの設定で行われたため、タスクの完全な3Dバージョンで同じ質問をテストしました。 0.68
Interestingly, the results here were somewhat different: While appending a representation of either the ground-truth chemistry or belief state to the agent’s observations did increase scores, the effect was not as categorical as in the symbolic setting (Figure 2a ‘3D’). 興味深いことに、結果は多少違っていた: エージェントの観察に基調化学または信念状態の表現を追加するとスコアが上がるが、その効果は象徴的な設定ほどカテゴリー的ではなかった(図2a ‘3D’ 図)。 0.74
Two hypotheses suggest themselves as explanations for this result. 2つの仮説は、この結果の説明として自身を示唆している。 0.46
First, the VMPO agent might have more trouble capitalizing on the given side information in the 3D version of Alchemy because doing so requires composing much longer sequences of action than does the symbolic version of the task. まず、VMPOエージェントは、Alchemyの3Dバージョンで与えられた側面情報を活用するのに苦労するかもしれません。なぜなら、タスクのシンボリックバージョンよりもずっと長いアクションシーケンスを構成する必要があるからです。 0.67
Second, the greater complexity of the agent’s perceptual observations might make it harder to map the side information onto the structure of its current perceptual inputs. 第二に、エージェントの知覚観察の複雑さが大きいほど、サイド情報を現在の知覚入力の構造にマッピングするのが難しくなるかもしれない。 0.74
As one step toward adjudicating between these possibilities, we augmented the inputs to the agent in the 3D task with the observations that the symbolic version of the task would provide in the same state. これらの可能性の調整に向けての一歩として、3Dタスクにおけるエージェントへの入力を、そのタスクのシンボリックバージョンが同じ状態を提供するという観察で拡張する。 0.72
In the absence of side information about the currently prevailing chemistry, this augmentation did not change the agent’s behavior; the resulting score still fell close to the 現在普及している化学についての副作用情報がなければ、この増強はエージェントの行動を変えませんでした。
訳抜け防止モード: 現在普及している化学の副次的な情報がない場合。 この増強はエージェントの行動を変えなかった。 結果のスコアは依然としてスコアに近づいています
0.64
random reference policy (Figure 2a ‘3D with symbolic observations’). ランダム参照ポリシー(図2a ‘3D with symbolic observed’)。 0.82
However, adding either the ground-truth or belief-state input raised scores much more dramatically than when those inputs were included without symbolic state information, elevating them to levels comparable to those attained in the symbolic task itself and approaching the ideal observer model, with parallel effects on potion use (Figure 3a-b). しかし、接地的あるいは信念的状態の入力を加えることで、それらの入力が象徴的状態情報を持たない場合よりも劇的にスコアを上げ、それらを象徴的タスク自身で達成されたものと同等のレベルに上昇させ、理想のオブザーバモデルに接近させ、ポティションの使用に平行な効果を与える(図3a-b)。 0.59
These results suggest that the failure of the agent to fully utilize side information about the current chemistry was not due to challenges of action sequencing in the full 3D version of Alchemy, but stemmed instead from an inability to effectively map such information onto internal representations of the current perceptual observation. これらの結果から,現在の化学に関するサイド情報を完全に活用できないのは,alchemyのフル3d版におけるアクションシークエンシングの問題ではなく,その情報を現在の知覚観察の内部表現に効果的にマッピングできないことに起因することが示唆された。 0.77
While augmenting the agent’s inputs is one way to impact its representation of current visual inputs, the recent deep RL literature suggests a different method for enriching internal representations, which is to add auxiliary tasks to the agent’s training objective (see, e.g., Jaderberg et al., 2017b). エージェントの入力を強化することは現在の視覚入力の表現に影響を与える1つの方法ですが、最近の深いRL文献では、エージェントのトレーニング目標に補助タスクを追加する内部表現を強化する別の方法が示唆されています(例: Jaderberg et al., 2017b)。 0.75
As one application of this idea, we added to the RL objective a set of supervised tasks, the objectives of which were to produce outputs indicating (1) the total number of stones present in each of a set of perceptual categories, (2) the total number of potions present of each color, and (3) the currently prevailing ground-truth chemistry (see Appendix B.1 for further details of this augmentation).6 このアイデアの1つの応用として、RLの目的に監督されたタスクのセットを追加し、(1)知覚的カテゴリの集合のそれぞれに存在する石の総数、(2)各色に存在するポチオンの総数、(3)現在普及している基底構造化学の総数を示すアウトプットを生成した(この拡張の詳細については、Appendix B.1を参照)。 0.72
6Prediction tasks (1) and (2) were always done in conjunction and are collectively referred to as ‘Predict: Features’, while (3) is 6Prediction Task (1) と (2) は常に共同で行われ、「Predict: Features」と総称され、(3) 0.76
BaselineInput: Belief stateInput: Ground truthPredict: Featuresa)b)c)d)Symb olicAlchemy3D Alchemyw/symbolicobs ervations BaselineInput: Belief stateInput: Ground truthPredict: Featuresa(b)c)d)Symb olicAlchemy3D Alchemyw/symbolicobs ervations 0.96
英語(論文から抽出)日本語訳スコア
ing and latent-state inference, the core abilities at stake in meta-learning. ingと潜在状態推論は、メタラーニングにおいて重要な能力だ。 0.50
In short, our first-step experiments provide strong validation for Alchemy as a sensitive and specific assay for meta-learning ability in RL. まとめると、我々の第一段階の実験は、RLにおけるメタ学習能力の感度と特異的なアッセイとして、Alchemyの強力な検証を提供する。 0.56
4. Discussion We have introduced Alchemy, a new benchmark task environment for meta-RL research. 4. メタRL研究のための新しいベンチマークタスク環境であるAlchemyを紹介した。 0.79
Alchemy is novel among existing benchmarks in bringing together two desirable features: (1) structural interestingness, due to its abstract, causal and compositional latent organization, which demands experimentation, structured inference and strategic action sequencing; and (2) structural accessibility, conferred by its explicitly defined generative process, which furnishes an interpretable prior and supports construction of a Bayesoptimal reference policy, alongside many other analytical maneuvers. Alchemy is novel among existing benchmarks in bringing together two desirable features: (1) structural interestingness, due to its abstract, causal and compositional latent organization, which demands experimentation, structured inference and strategic action sequencing; and (2) structural accessibility, conferred by its explicitly defined generative process, which furnishes an interpretable prior and supports construction of a Bayesoptimal reference policy, alongside many other analytical maneuvers. 0.87
With the hope that Alchemy will be useful to the larger community, we are releasing, open-source, both the full 3D and symbolic versions of the Alchemy environment, along with a suite of benchmark policies, analysis tools, and episode logs (https://github.com/ deepmind/dm_alchemy) . Alchemyがより大きなコミュニティに役立つことを期待して、Alchemy環境の全3Dおよびシンボルバージョンとベンチマークポリシー、分析ツール、エピソードログ(https://github.com/ deepmind/dm_alchemy) をリリースし、オープンソースにしています。 0.82
As a first application and validation of Alchemy, we tested two strong deep RL agents. Alchemyの最初の応用と検証として、2つの強力なRLエージェントを試験した。 0.70
In both cases, despite mastering the basic mechanical aspects of the task, neither agent showed any appreciable signs of meta-learning. どちらの場合も、タスクの基本的な機械的側面を習得しているにもかかわらず、どちらのエージェントもメタ学習の有意義な兆候を示さなかった。 0.48
A series of analyses, which were made possible by the task’s accessible structure, clearly demonstrated a frank absence of structure learning and latent-state inference. タスクのアクセス可能な構造によって可能になった一連の分析は、構造学習と潜伏状態推論の率直な欠如を明らかに示した。 0.73
Whereas a Bayesoptimal reference agent pursued strategic experiments and leveraged the resulting observations to maximize its score, deep RL resulted in a shallow, heuristic strategy, uninformed by the structure of the task distribution. ベイズ最適化の基準エージェントが戦略実験を追求し、その結果の観測結果を利用してスコアを最大化する一方で、深いRLはタスク分布の構造に非インフォームされた浅いヒューリスティックな戦略を導いた。 0.71
Leveraging a symbolic version of Alchemy, we were able to establish that this failure of meta-learning is not due purely to the visual complexity of the task or to the number of actions required to achieve task goals. Alchemyのシンボリックバージョンを活用することで、メタラーニングの失敗は、タスクの視覚的複雑さや、タスク目標を達成するために必要なアクションの数に純粋に起因していないことを確認できます。 0.66
Finally, a series of augmentation studies showed that deep RL agents can in fact perform well if the latent structure of the task is rendered fully observable, especially if auxiliary tasks are introduced to support representation learning. 最後に、一連の強化研究により、タスクの潜伏構造が完全に観察可能である場合、特に表現学習を支援するために補助タスクが導入された場合、ディープRLエージェントは実際にうまく機能することを示した。 0.64
These insights may, we hope, be useful in developing deep RL agents that are capable of solving Alchemy without access to privileged information. これらの知見は、特権情報にアクセスせずにAlchemyを解くことができる深いRLエージェントの開発に役立ちたい。 0.74
It is worth stating that, in our view, the main contributions of the present work inhere not in the specific concrete details of Alchemy itself, but rather in the overall scientific agenda and approach. 私たちの見解では、この研究の主な貢献は、錬金術自体の具体的な詳細ではなく、全体的な科学的アジェンダとアプローチにあると述べる価値があります。 0.55
Ascertaining the level of knowledge possessed by deep RL agents is a challenging task, comparable to trying to ascertain the knowledge of real animals, and (as in that latter case) requiring detailed cognitive modeling. 深部RLエージェントが持つ知識のレベルを確認することは、実際の動物の知識を確かめようとするのに匹敵する難題であり、(後者の場合のように)詳細な認知モデルを必要とする。 0.80
Alchemy is designed to make this kind of modeling not only possible, but even central, and we propose that more Alchemyはこのようなモデリングを可能にするように設計されています。
訳抜け防止モード: Alchemyは、このようなモデリングを可能にするだけでなく、中心となるように設計されている。 さらに提案します
0.67
Figure 4. Bayesian model comparison. 図4。 ベイズモデルの比較。 0.76
Maximum likelihood was used to fit two probabilistic models to each agent or benchmark’s actions: (1) a model that does not assume potions come in pairs with opposite effects (blue bars), and (2) a model that does make this assumption (red bars). 最大確率は、各エージェントまたはベンチマークのアクションに2つの確率モデルを適用するために使用された: (1) ポチオンを仮定しないモデルは、反対の効果(青い棒)と対になる; (2) この仮定を行うモデル(赤い棒)。 0.83
Comparing the goodness of fit between these models, we found that the baseline agent was better fit by model (1), which does not know about potion pairs. これらのモデル間の適合性の良さを比較することで、ベースラインエージェントはポティオンペアを知らないモデル(1)により適していることがわかった。 0.82
Similarly, the random heuristic benchmark was also better fit by this model. 同様に、ランダムなヒューリスティックベンチマークもこのモデルにより適していた。 0.66
Meanwhile, the agent which had as input the ideal observer’s belief state, was better fit by model (2), and thus appeared to exploit the existence of potion pairs, in line with the ideal observer benchmark. 一方、理想的なオブザーバの信念状態として入力されたエージェントは、モデル(2)により適合し、したがって理想的なオブザーバベンチマークに従って、ポチオンペアの存在を利用するように見えた。 0.76
All agents were trained on symbolic Alchemy. 全てのエージェントは 象徴的錬金術の訓練を受けた 0.52
Introducing these auxiliary tasks had a dramatic impact on agent performance, especially for (1) and (2) (less so for (3), see Appendix). これらの補助タスクの導入は、(1)と(2)のエージェントのパフォーマンスに劇的な影響を与えました((3)については付録を参照してください)。
訳抜け防止モード: これらの補助的タスクの導入 特に(1)では、エージェントのパフォーマンスに劇的な影響を与えました および (2 ) (3 ) Appendixを参照)。
0.85
This was true even in the absence of augmentations of the agent’s observations, but it also yielded the highest scores observed so far in the full 3D version of Alchemy with input augmentations providing either the ground-truth chemistry or Bayesian belief state (Figure 2b ‘3D’). これはエージェントの観察の強化がなくても事実であったが、alchemyの完全な3dバージョンで観測された最高のスコアとなり、入力された拡張は地上の化学またはベイズ的信念の状態を提供する(図2b ‘3d’)。 0.76
Indeed, in the presence of the auxiliary tasks, further supplementing the inputs with the symbolic version of the perceptual observations added little to the agent’s performance (Figure 2b ‘3D with symbolic observations’). 実際、補助的なタスクが存在する場合、知覚的観察のシンボリックバージョンでさらに入力を補うことは、エージェントのパフォーマンスにほとんど追加されない(図2b ‘3d with symbolic observations’)。 0.71
Adding the auxiliary tasks to the objective for the VMPO agent in symbolic Alchemy had a striking effect on scores even in the absence of any other augmentation. シンボリックアルケミーにおけるVMPOエージェントの目的に補助的なタスクを追加することは、他の拡張がなくてもスコアに顕著な影響を及ぼした。 0.68
In this case, scores approached the ideal observer benchmark (Figure 2b ‘Symbolic’), providing the only case in the present study where the VMPO agent showed respectable meta-learning performance on either version of Alchemy without privileged information at test.7 この場合、スコアは理想的なオブザーバ・ベンチマーク(図2b「シンボリック」)に近づき、VMPOエージェントがテスト時に特権情報なしでAlchemyのどちらのバージョンでも優れたメタラーニング性能を示した唯一の事例である。 0.69
3.4. Conclusions from experiments This first set of agent experiments with Alchemy indicates that the task is hard, and hard for the right reasons. 3.4. 実験からの結論 Alchemyによる最初のエージェント実験は、タスクが難しく、正しい理由で難しいことを示している。 0.71
We found that two otherwise performant deep RL agents displayed little evidence of meta-learning the latent structure of the task despite extensive training. 結果,2名の深部RLエージェントは,広範な訓練にもかかわらず,タスクの潜伏構造をメタラーニングする証拠をほとんど示さなかった。 0.70
Rather than reflecting difficulties in perceptual processing or action sequencing, the agents’ poor performance appears tied to a failure of structure learn- 知覚処理やアクションシークエンシングの難しさを反映するのではなく、エージェントの悪いパフォーマンスは構造学習の失敗に結びついています。 0.69
referred to as ‘Predict: Chemistry’. 予測:化学」と呼ばれます。 0.65
7Potion use in this setting, as well as world state uncertainty, 7この設定での使用、ならびに世界状態の不確実性。 0.67
also showed a reduction over trials (see Figure 3). また、トライアルの削減も示された(図3参照)。 0.68
idealobserverrandomh euristicbeliefstateb aseline0.00.20.40.60 .81.0relative likelihoodno potion pairknowledgepotion pairknowledgemodels idealobserverranheur isticbeliefstatebase line0.00.20.40.60.81 .0relative likelyno potion pairknowledgepotion pairknowledgemodels 0.17
英語(論文から抽出)日本語訳スコア
meta-RL benchmark environments should strive to afford the same granularity of insight into agent behavior. meta-RLベンチマーク環境は、エージェントの振る舞いに関する洞察の粒度が同じであるように努力すべきである。 0.52
As a closing remark, we note that our release of Alchemy includes a human-playable version. 締めくくりとして、Alchemyのリリースには人間再生可能なバージョンが含まれています。 0.66
We have found that many human players find Alchemy interesting and challenging, and our informal tests suggest that motivated players, with sufficient training, can attain to sophisticated strategies and high levels of performance. 私達は多くの人間のプレーヤーがAlchemyが興味深く、挑戦的であると感じ、私達の非公式テストは十分な訓練の動機づけられたプレーヤーが高度の戦略およびハイ レベルに達成できることを示唆します。 0.65
Based on this, we suggest that Alchemy may also be an interesting task for research into human learning and decision making. これに基づいて、Alchemyは人間の学習と意思決定を研究するための興味深いタスクである可能性も示唆している。 0.68
5. Acknowledgements We would like to thank the DeepMind Worlds team – in particular, Ricardo Barreira, Kieran Connell, Tom Ward, Manuel Sanchez, Mimi Jasarevic, and Jason Sanmiya for help with releasing the environment and testing, and Sarah York for her help on testing and gathering human benchmarks. 5. 特に、Ricardo Barreira氏、Kieran Connell氏、Tom Ward氏、Manuel Sanchez氏、Mimi Jasarevic氏、Jason Sanmiya氏が環境とテストのリリースを支援し、Sarah York氏が人間のベンチマークのテストと収集に協力してくれたことに感謝します。
訳抜け防止モード: 5. 特にDeepMind Worldsチームに感謝します。 Ricardo Barreira, Kieran Connell, Tom Ward, Manuel Sanchez, (英語) Mimi Jasarevic氏、Jason Sanmiya氏による環境リリースとテストのサポート。 そして人間のベンチマークをテストし、集めることの彼女の助けのためのサラヨーク。
0.81
We also are grateful to Sam Gershman, Murray Shanahan, Irina Higgins, Christopher Summerfield, Jessica Hamrick, David Raposo, Laurent Sartran, Razvan Pascanu, Alex Cullum, and Victoria Langston for valuable discussions, feedback, and support. また、Sam Gershman、Murray Shanahan、Irina Higgins、Christopher Summerfield、Jessica Hamrick、David Raposo、Laurrent Sartran、Razvan Pascanu、Alex Cullum、Victoria Langstonの貴重な議論、フィードバック、サポートに感謝しています。
訳抜け防止モード: また、Sam Gershman、Maray Shanahan、Irina Higginsにも感謝しています。 Christopher Summerfield, Jessica Hamrick, David Raposo, Laurent Sartran Razvan Pascanu氏、Alex Cullum氏、Victoria Langston氏が貴重な議論、フィードバック、サポートについて語った。
0.79
References Baxter, J. 参照: Baxter, J。 0.84
Theoretical models of learning to learn. 学ぶための学習の理論的モデル。 0.81
In Learn- ing to learn, pp. 学ぶこと- 学ぶためにing、pp。 0.66
71–94. Springer, 1998. 71–94. 1998年、スプリンガー。 0.65
Bellemare, M. G., Naddaf, Y., Veness, J., and Bowling, M. The arcade learning environment: An evaluation platform for general agents. Bellemare, M. G., Naddaf, Y., Veness, J. and Bowling, M. The arcade learning environment: an evaluation platform for general agent。 0.87
Journal of Artificial Intelligence Research, 47:253–279, 2013. Journal of Artificial Intelligence Research, 47:253–279, 2013 0.89
reinforcement learning. arXiv preprint arXiv:1901.08162, 2019. 強化学習。 arXiv preprint arXiv:1901.08162, 2019 0.74
Dennis, M., Jaques, N., Vinitsky, E., Bayen, A., Russell, S., Critch, A., and Levine, S. Emergent complexity and zero-shot transfer via unsupervised environment design. Dennis, M., Jaques, N., Vinitsky, E., Bayen, A., Russell, S., Critch, A., and Levine, S. Emergent complexity and zero-shot transfer via unsupervised environment design。 0.89
arXiv preprint arXiv:2012.02096, 2020. arXiv preprint arXiv:2012.02096, 2020 0.81
Duan, Y., Schulman, J., Chen, X., Bartlett, P. L., Sutskever, I., and Abbeel, P. Rl$ˆ2$: Fast reinforcement learning via slow reinforcement learning. Duan, Y., Schulman, J., Chen, X., Bartlett, P.L., Sutskever, I., and Abbeel, P. Rl$の2$: 遅い強化学習による迅速な強化学習。 0.88
arXiv preprint arXiv:1611.02779, 2016. arXiv preprint arXiv:1611.02779, 2016 0.80
Duff, M. O. Design for an optimal probe. ダフ、M.O。 最適なプローブの設計。 0.65
In Proceedings of the 20th International Conference on Machine Learning (ICML-03), pp. 第20回機械学習に関する国際会議(ICML-03)に出席。 0.69
131–138, 2003. 131–138, 2003. 0.84
Espeholt, L., Soyer, H., Munos, R., Simonyan, K., Mnih, V., Ward, T., Doron, Y., Firoiu, V., Harley, T., Dunning, I., et al. Espeholt, L., Soyer, H., Munos, R., Simonyan, K., Mnih, V., Ward, T., Doron, Y., Firoiu, V., Harley, T., Dunning, I., et al。 0.85
Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. impala: 重要度の高いアクタリーナーアーキテクチャを備えたスケーラブルな分散deep-rl。 0.50
arXiv preprint arXiv:1802.01561, 2018. arXiv preprint arXiv:1802.01561, 2018 0.80
Fedorov, V. V. Theory of optimal experiments. Fedorov, V. V. 最適実験の理論 0.87
Elsevier, 2013. Elsevier 2013. 0.67
Finn, C., Abbeel, P., and Levine, S. Model-agnostic metalearning for fast adaptation of deep networks. Finn, C., Abbeel, P., Levine, S. Model-Agnostic metalearning for fast adapt of deep network。 0.84
arXiv preprint arXiv:1703.03400, 2017. arXiv preprint arXiv:1703.03400, 2017 0.80
Geisler, W. S. Ideal observer analysis. Geisler, W. S. IdealObserver Analysis (英語) 0.64
The visual neuro- sciences, 10(7):12–12, 2003. 視覚神経- 科学, 10(7):12–12, 2003。 0.74
Grant, E., Finn, C., Levine, S., Darrell, T., and Griffiths, T. Recasting gradient-based meta-learning as hierarchical bayes. Grant, E., Finn, C., Levine, S., Darrell, T., Griffiths, T. Recasting gradient-based meta-learning ashierarchical bayes。 0.89
arXiv preprint arXiv:1801.08930, 2018. arXiv preprint arXiv:1801.08930, 2018 0.79
Botvinick, M., Ritter, S., Wang, J. X., Kurth-Nelson, Z., Blundell, C., and Hassabis, D. Reinforcement learning, fast and slow. Botvinick, M., Ritter, S., Wang, J. X., Kurth-Nelson, Z., Blundell, C., and Hassabis, D. Reinforcement Learning, fast and slow。 0.94
Trends in cognitive sciences, 23(5):408– 422, 2019. 認知科学の動向, 23(5):408– 422, 2019。 0.80
Jaderberg, M., Dalibard, V., Osindero, S., Czarnecki, W. M., Donahue, J., Razavi, A., Vinyals, O., Green, T., Dunning, I., Simonyan, K., Fernando, C., and Kavukcuoglu, K. Population based training of neural networks, 2017a. Jaderberg, M., Dalibard, V., Osindero, S., Czarnecki, W.M., Donahue, J., Razavi, A., Vinyals, O., Green, T., Dunning, I., Simonyan, K., Fernando, C., Kavukcuoglu, K. ニューラルネットワークの人口ベーストレーニング, 2017a。 0.85
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. Brown, T.B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al。 0.86
Language models are few-shot learners. 言語モデルは少数の学習者です。 0.70
arXiv preprint arXiv:2005.14165, 2020. arXiv preprint arXiv:2005.14165, 2020 0.81
Cobbe, K., Klimov, O., Hesse, C., Kim, T., and Schulman, J. Quantifying generalization in reinforcement learning. Cobbe, K., Klimov, O., Hesse, C., Kim, T., Schulman, J. 強化学習における一般化の定量化。 0.92
In International Conference on Machine Learning, pp. 英語) international conference on machine learning, pp. 0.80
1282–1289. 1282–1289. 0.71
PMLR, 2019. 2019年、PMLR。 0.72
Czarnecki, W. M., Pascanu, R., Osindero, S., Jayakumar, S. M., Swirszcz, G., and Jaderberg, M. Distilling policy distillation, 2019. Czarnecki, W. M., Pascanu, R., Osindero, S., Jayakumar, S. M., Swirszcz, G., and Jaderberg, M. Distilling Policy distillation, 2019 0.89
Dasgupta, I., Wang, J., Chiappa, S., Mitrovic, J., Ortega, P., Raposo, D., Hughes, E., Battaglia, P., Botvinick, M., and Kurth-Nelson, Z. Causal reasoning from meta- Dasgupta, I., Wang, J., Chiappa, S., Mitrovic, J., Ortega, P., Raposo, D., Hughes, E., Battaglia, P., Botvinick, M., and Kurth-Nelson, Z. Causal reasoning from meta-- 0.92
Jaderberg, M., Mnih, V., Czarnecki, W. M., Schaul, T., Leibo, J. Jaderberg, M., Mnih, V., Czarnecki, W. M., Schaul, T., Leibo, J。 0.88
Z., Silver, D., and Kavukcuoglu, K. Reinforcement learning with unsupervised auxiliary tasks. Z., Silver, D., and Kavukcuoglu, K. 教師なし補助作業による強化学習 0.80
In International Conference on Learning Representations, 2017b. International Conference on Learning Representationsで、2017b。 0.81
Jaderberg, M., Czarnecki, W. M., Dunning, I., Marris, L., Lever, G., Castaneda, A. G., Beattie, C., Rabinowitz, N. C., Morcos, A. S., Ruderman, A., et al. Jaderberg, M., Czarnecki, W.M., Dunning, I., Marris, L., Lever, G., Castaneda, A.G., Beattie, C., Rabinowitz, N.C., Morcos, A.S., Ruderman, A., et al。 0.90
Human-level performance in 3d multiplayer games with populationbased reinforcement learning. 人口ベース強化学習による3次元マルチプレイヤーゲームにおける人間レベルのパフォーマンス 0.63
Science, 364(6443):859– 865, 2019. 科学、364(6443):859– 865、2019。 0.85
Juliani, A., Berges, V.-P., Vckay, E., Gao, Y., Henry, H., Mattar, M., and Lange, D. Unity: A general platform for intelligent agents. Juliani, A., Berges, V.-P., Vckay, E., Gao, Y., Henry, H., Mattar, M., and Lange, D. Unity: 知的エージェントのための汎用プラットフォーム。 0.88
arXiv preprint arXiv:1809.02627, 2018. arXiv preprint arXiv:1809.02627, 2018 0.79
英語(論文から抽出)日本語訳スコア
Sutton, R. S. and Barto, A. G. Introduction to Reinforcement Sutton, R. S. and Barto, A. G. Introduction to Reinforcement 0.90
Learning. MIT Press, 1998. 学習。 1998年MITプレス入社。 0.69
Thrun, S. and Pratt, L. Learning to learn. Thrun, S. and Pratt, L. Learning to learn。 0.97
Springer Science & Business Media, 1998. スプリング科学 1998年、ビジネス・メディア。 0.69
Vanschoren, J. Meta-learning. Vanschoren, J. Meta-learning 0.80
In Automated Machine Learn- ing, pp. 機械学習の自動化- ing、pp。 0.64
35–61. Springer, Cham, 2019. 35–61. Springer、Cham、2019。 0.68
Vinyals, O., Babuschkin, I., Czarnecki, W. M., Mathieu, M., Dudzik, A., Chung, J., Choi, D. H., Powell, R., Ewalds, T., Georgiev, P., et al. Vinyals, O., Babuschkin, I., Czarnecki, W.M., Mathieu, M., Dudzik, A., Chung, J., Choi, D.H., Powell, R., Ewalds, T., Georgiev, P., et al。 0.87
Grandmaster level in starcraft ii using multi-agent reinforcement learning. マルチエージェント強化学習によるstarcraft iiのグランドマスターレベル 0.80
Nature, 575 (7782):350–354, 2019. Nature, 575 (7782):350–354, 2019。 0.90
Wang, J. X. Meta-learning in natural and artificial intelli- Wang, J. X. Meta-learning in natural and artificial intelli- 0.81
gence. arXiv preprint arXiv:2011.13464, 2020. ジェンス arXiv preprint arXiv:2011.13464, 2020 0.68
Wang, J. X., Kurth-Nelson, Z., Tirumala, D., Soyer, H., Leibo, J. Wang, J. X., Kurth-Nelson, Z., Tirumala, D., Soyer, H., Leibo, J. 0.97
Z., Munos, R., Blundell, C., Kumaran, D., and Botvinick, M. Learning to reinforcement learn. Z., Munos, R., Blundell, C., Kumaran, D., and Botvinick, M. Learning to reinforcement learning。 0.86
In Annual Meeting of the Cognitive Science Society, 2016. 2016年認知科学会年次総会で発表。 0.53
Ward, T., Bolt, A., Hemmings, N., Carter, S., Sanchez, M., Barreira, R., Noury, S., Anderson, K., Lemmon, J., Coe, J., Trochim, P., Handley, T., and Bolton, A. Ward, T., Bolt, A., Hemmings, N., Carter, S., Sanchez, M., Barreira, R., Noury, S., Anderson, K., Lemmon, J., Coe, J., Trochim, P., Handley, T., Bolton, A. 0.83
Using Unity to help solve intelligence, 2020. Unityを知能の解決に役立て、2020年。 0.79
URL https: //arxiv.org/abs/2011 .09294. URL https: //arxiv.org/abs/2011 .09294 0.46
Wydmuch, M., Kempka, M., and Ja´skowski, W. Vizdoom competitions: Playing doom from pixels. wydmuch, m., kempka, m., ja ́skowski, w. vizdoom competitions: playing doom from pixels. (英語) 0.73
IEEE Transactions on Games, 2018. IEEE Transactions on Games、2018年。 0.85
Xu, Z., van Hasselt, H. P., and Silver, D. Meta-gradient reinforcement learning. Xu, Z., van Hasselt, H. P., and Silver, D. Meta-gradient reinforcement learning。 0.94
Advances in neural information processing systems, 31:2396–2407, 2018. 神経情報処理システムの進歩、31:2396–2407、2018。 0.74
Yu, T., Quillen, D., He, Z., Julian, R., Hausman, K., Finn, C., and Levine, S. Meta-world: A benchmark and evaluation for multi-task and meta reinforcement learning. Yu, T., Quillen, D., He, Z., Julian, R., Hausman, K., Finn, C., and Levine, S. Meta-world: マルチタスクおよびメタ強化学習のためのベンチマークと評価。 0.88
In Conference on Robot Learning, pp. ロボット学習に関する会議で、pp。 0.73
1094–1100. 1094–1100. 0.71
PMLR, 2020. PMLR、2020年。 0.88
Lake, B. M., Ullman, T. D., Tenenbaum, J. Lake, B. M., Ullman, T. D., Tenenbaum, J。 0.95
B., and Gershman, S. J. B.とGershman, S. J。 0.83
Building machines that learn and think like people. 人のように学び、考える機械を作る。 0.68
Behavioral and brain sciences, 40, 2017. 行動と脳科学』、2017年。 0.64
Nichol, A., Pfau, V., Hesse, C., Klimov, O., and Schulman, J. Gotta learn fast: A new benchmark for generalization in rl. nichol, a., pfau, v., hesse, c., klimov, o., and schulman, j. gotta learn fast: a new benchmark for generalization in rl. (英語)
訳抜け防止モード: Nichol, A., Pfau, V., Hesse, C. Klimov, O. and Schulman, J. Got ta learn fast : a new benchmark for generalization in rl 。
0.86
arXiv preprint arXiv:1804.03720, 2018. arXiv preprint arXiv:1804.03720, 2018 0.79
OpenAI. Openai five. オープンAI。 第5回オープン。 0.68
https://blog.openai. com/ https://blog.openai. com/ 0.43
openai-five/, 2018. openai-five/, 2018 0.90
Ortega, P. A., Wang, J. X., Rowland, M., Genewein, T., Kurth-Nelson, Z., Pascanu, R., Heess, N., Veness, J., Pritzel, A., Sprechmann, P., et al. Ortega, P.A., Wang, J.X., Rowland, M., Genewein, T., Kurth-Nelson, Z., Pascanu, R., Heess, N., Veness, J., Pritzel, A., Sprechmann, P., et al。 0.92
Meta-learning of sequential strategies. 逐次戦略のメタラーニング。 0.70
arXiv preprint arXiv:1905.03030, 2019. arXiv preprint arXiv:1905.03030, 2019 0.81
Parisotto, E., Ba, J. L., and Salakhutdinov, R. Actor-mimic: Deep multitask and transfer reinforcement learning. Parisotto, E., Ba, J.L., Salakhutdinov, R. Actor-mimic: Deep Multitask and transfer reinforcement learning。 0.90
arXiv preprint arXiv:1511.06342, 2015. arXiv preprint arXiv:1511.06342, 2015 0.80
Parisotto, E., Song, H. F., Rae, J. W., Pascanu, R., Gulcehre, C., Jayakumar, S. M., Jaderberg, M., Kaufman, R. L., Clark, A., Noury, S., et al. Parisotto, E., Song, H.F., Rae, J.W., Pascanu, R., Gulcehre, C., Jayakumar, S.M., Jaderberg, M., Kaufman, R.L., Clark, A., Noury, S., et al。 0.91
Stabilizing transformers for reinforcement learning. 強化学習のための安定化変圧器 0.68
In International Conference on Machine Learning, 2019. 2019年、国際機械学習会議に参加。 0.79
Rakelly, K., Zhou, A., Finn, C., Levine, S., and Quillen, D. Efficient off-policy meta-reinforcement learning via probabilistic context variables. Rakelly, K., Zhou, A., Finn, C., Levine, S. and Quillen, D. Efficient off-policy meta-reinforcement learning through probabilistic context variables。 0.94
In International conference on machine learning, pp. 英語) international conference on machine learning, pp. 0.81
5331–5340. 5331–5340. 0.71
PMLR, 2019. 2019年、PMLR。 0.72
Rusu, A. A., Rabinowitz, N. C., Desjardins, G., Soyer, H., Kirkpatrick, J., Kavukcuoglu, K., Pascanu, R., and Hadsell, R. Progressive neural networks. Rusu, A。 A., Rabinowitz, N. C., Desjardins, G., Soyer, H., Kirkpatrick, J., Kavukcuoglu, K., Pascanu, R., Hadsell, R. Progressive Neural Network。 0.82
arXiv preprint arXiv:1606.04671, 2016. arXiv preprint arXiv:1606.04671, 2016 0.79
Schmitt, S., Hudson, J. J., Zidek, A., Osindero, S., Doersch, C., Czarnecki, W. M., Leibo, J. Schmitt, S., Hudson, J.J., Zidek, A., Osindero, S., Doersch, C., Czarnecki, W.M., Leibo, J. 0.90
Z., Kuttler, H., Zisserman, A., Simonyan, K., et al. Z.、Kuttler、H.、Zisserman、A.、Simonyan、K.、等。 0.86
Kickstarting deep reinforcement learning. 深い強化学習を始める。 0.78
arXiv preprint arXiv:1803.03835, 2018. arXiv preprint arXiv:1803.03835, 2018 0.80
Schrittwieser, J., Antonoglou, I., Hubert, T., Simonyan, K., Sifre, L., Schmitt, S., Guez, A., Lockhart, E., Hassabis, D., Graepel, T., et al. Schrittwieser, J., Antonoglou, I., Hubert, T., Simonyan, K., Sifre, L., Schmitt, S., Guez, A., Lockhart, E., Hassabis, D., Graepel, T., et al。 0.84
Mastering atari, go, chess and shogi by planning with a learned model. 学習したモデルで計画し、アタリ、ゴー、チェス、書ギをマスターします。 0.55
Nature, 588(7839): 604–609, 2020. Nature, 588(7839): 604–609, 2020。 0.96
Song, H. F., Abdolmaleki, A., Springenberg, J. T., Clark, A., Soyer, H., Rae, J. W., Noury, S., Ahuja, A., Liu, S., Tirumala, D., et al. Song, H.F., Abdolmaleki, A., Springenberg, J.T., Clark, A., Soyer, H., Rae, J.W., Noury, S., Ahuja, A., Liu, S., Tirumala, D., et al。 0.89
V-mpo: on-policy maximum a posteriori policy optimization for discrete and continuous control. V-mpo: 離散的かつ連続的な制御のための政策最適化の最大化。 0.68
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
Stadie, B. C., Yang, G., Houthooft, R., Chen, X., Duan, Y., Wu, Y., Abbeel, P., and Sutskever, I. Stadie, B.C., Yang, G., Houthooft, R., Chen, X., Duan, Y., Wu, Y., Abbeel, P., Sutskever, I。 0.84
Some considerations on learning to explore via meta-reinforcement learning. メタ強化学習による探索のための学習に関する一考察 0.60
arXiv preprint arXiv:1803.01118, 2018. arXiv preprint arXiv:1803.01118, 2018 0.80
英語(論文から抽出)日本語訳スコア
A. Alchemy mechanics A.1. A. Alchemy Mechanics A.1。 0.71
The chemistry We consider three perceptual features along which stones can vary: size, color, and shape. 化学私達は石が変わることができる3つの知覚の特徴を検討します:サイズ、色および形。 0.73
Potions are able to change stone perceptual features, but how a specific potion can affect a particular stone’s appearance is determined by the stone’s (unobserved) latent state c. Each potion deterministically transforms stones according to a hidden, underlying transition graph sampled from the set of all connected graphs formed by the edges of a cube (see Figure 6a). ポイションは石の知覚的特徴を変えることができますが、特定のポイオンが特定の石の外観にどのように影響するかは、石の(観察されていない)潜伏状態cによって決定されます。各ポイオンは、立方体のエッジによって形成されたすべての連結グラフのセットからサンプリングされた隠された、基礎的な遷移グラフに従って石を決定的に変換します(図6aを参照)。
訳抜け防止モード: 石の知覚的特徴を変えることができる。 特定のポチオンが特定の石の外観にどのように影響するか それぞれのポチオンは、立方体の端によって形成されたすべての連結グラフの集合からサンプリングされた隠れた基礎となる遷移グラフに従って、石を決定的に変換する。 図6aを参照)。
0.80
The corners of the cube represent different latent states, defined by a 3-dimensional coordinate c ∈ {−1, 1}3. 立方体の角は3次元座標 c ∈ {−1, 1}3 で定義される異なる潜在状態を表す。 0.79
Potion effects align with one axis and direction of the cube, such that one of the coordinates c is modified from -1 to 1 or 1 to -1. 選択効果は立方体の1つの軸と方向に一致し、座標cの1つが-1から1または1から-1に変更される。 0.78
In equations: table to find the color. 方程式: 色を見つけるためにテーブル。 0.77
We call this linear mapping the potion map P : P → P. この線形写像をポティオン写像 P : P → P と呼ぶ。 0.62
P (p) = PreflectPpermutep P (p) = PreflectPpermutep 0.85
(4) where Preflect is drawn from the same distribution as Sreflect and Ppermute is a 3x3 permutation matrix i.e. (4) ここで Preflect は Sreflect と同じ分布から引き出され、Ppermute は 3x3 の置換行列である。 0.82
a matrix of the form [e(π(0)), e(π(1)), e(π(2))]T , π ∼ U (Sym({0, 1, 2})) where Sym({0, 1, 2}) is the set of permutations of {0, 1, 2}. e(π(0)), e(π(1)), e(π(2))]T , π (U (Sym({0, 1, 2})) という形式の行列で、Sym({0, 1, 2}) は {0, 1, 2} の置換の集合である。
訳抜け防止モード: e(π(0 ) ), e(π(1 ) ) という形の行列 e(π(2))]T, π > U ( Sym({0, 1, 2 } ) ) ここで Sym({0, 1, 2 } ) 1, 2 } ) は { 0, 1, 2 } の置換の集合である。
0.77
The directly observable potion colors are then assigned according to: 次に、直接観測可能なポティオン色を次のように割り当てる。 0.61
(e(0),−e(0)) → (green, red) シュ(e(0),−e(0)) → (緑、赤) 0.74
(e(1),−e(1)) → (yellow, orange) (e(2),−e(2)) → (turquoise, pink) (e(1),−e(1)) → (黄色,オレンジ) (e(2),−e(2)) → (ターコイズ,ピンク) 0.74
(5) c = c + 2p1(c,c+2p)∈G(c) (5) c = c + 2p1(c,c+2p)∈G(c) 0.85
(1) Pcolor = (1) Pcolor = 0.85
∈ P is the potion effect P where p := {e(0), e(1), e(2),−e(0),−e(1),−e(2)} where e(i) is the ith basis vector and G is the set of edges which can be traversed in the graph. ∈ Pは p := {e(0), e(1), e(2), e(2),−e(0),−e(1),−e(2)} ここで e(i) は ith 基底ベクトルであり、g はグラフで横断可能な辺の集合である。
訳抜け防止モード: ∈ Pは p : = { e(0 ) である場合のポティオン効果 p e(1 ), e(2),−e(0),−e(1),−e(2 ) } ここで e(i ) は ith 基底ベクトルである。 そして、g はグラフで横断できる辺の集合である。
0.80
The latent state of the stone also determines its reward value R ∈ {−3,−1, 1, 15}, which can be observed via the brightness of the reward indicator (square light) on the stone: 石の潜在的な状態は、その報酬値R ∈ {−3,−1, 1, 15}も決定します。
訳抜け防止モード: 石の潜在状態は、その報酬値 R ∈ { −3, −1, も決定する。 1, 15 } です。 石の報酬インジケーター(正方形の光)の明るさを介して観察することができます。
0.74
(cid:40) (cid:80) (cid:40)(cid:80) 0.73
15, i ci, if(cid:80) 15, I ci, if(cid:80) 0.83
else. R(c) = i ci = 3 他に R(c) = i ci = 3 0.78
(2) The agent only receives a reward for a stone if that stone is successfully placed within the cauldron by the end of the trial, which removes the stone from the game. (2) エージェントは、その石が試験の終わりまでにキャドロン内に正常に配置され、ゲームから石を削除する場合にのみ、石の報酬を受け取ります。 0.78
The latent coordinates c are mapped into the stone perceptual feature space to determine the appearance of the stone. 潜在座標cは、石の外観を決定するために、石の知覚特徴空間にマッピングされる。 0.76
We call this linear mapping the stone map or S and define it as S : {−1, 1}3 → {−1, 0, 1}3: この線形写像をストーンマップまたはSと呼び、S : {−1, 1}3 → {−1, 0, 1}3と定義します。 0.83
S(c) = SrotateSreflectc S(c) = SrotateSreflectc 0.85
(3) rotation possible Formally: (3) 回転 可能 正式には 0.75
Srotate denotes and rescaling. srotateは再スケーリングを意味する。 0.51
where around ∼ 1 axis U ({I3, Rx(45◦), Ry(45◦), Rz(45◦)}), where I is the identity matrix, and Ri(θ) denotes an anti-clockwise rotation transform around axis i by θ = 45◦, followed by √ scaling by 2 on all other axes, in order to normalize values to be in {−1, 0, 1}. ここで、I は I の単位行列であり、Ri(θ) は軸 i の周りを θ = 45 で反時計回りの回転変換を表し、次に他のすべての軸上で 2 のスケーリングをすると、値が {−1, 0, 1} となるように正規化される。
訳抜け防止モード: ここで 1 軸 U ( { I3, Rx(45 ) ) の周り。 Ry(45 s ), Rz(45 s ) } , ここで I は恒等行列である。 は、軸 i の周りの反時計回りの回転変換を表します。 次に、他のすべての軸で 2 のスケーリングを順に実行します。 値を { −1, 0, 1 } に正規化する。
0.81
Sreflect denotes reflection in the x, y and z axes: Sreflect = diag(s) for s ∼ U ({−1, 1}3). Sreflect は x, y, z axes における反射を表す: Sreflect = diag(s) for s y U ({−1, 1}3)。 0.87
The potion effect p is mapped to a potion color by first applying a linear mapping and then using a fixed look-up ポティオン効果pは、まず線形写像を適用し、次に固定ルックアップを用いてポティオン色にマッピングされる。 0.72
Srotate 2 Note that this implies that potion colors come in pairs so that, for example, the red potion always has the opposite effect to the green potion, though that effect may be on color, size, or shape, depending on the particular chemistry of that episode. 回転 2 これは、例えば赤いポティオンが緑色のポティオンと常に反対の効果を持つように、ポティオン色が対になることを意味するが、その影響は、そのエピソードの特定の化学によっては、色、サイズ、形状に影響を及ぼす可能性がある。 0.73
It can also have an effect on two of those three perceptual features simultaneously in the case where Srotate (cid:54)= I3. また、srotate (cid:54)=i3の場合、これら3つの知覚的特徴の2つを同時に持つことができる。 0.71
This color pairing of potions is consistent across all samples of the task, constituting a feature of Alchemy which can be meta-learned over many episodes. この色のポチオンのペアリングは、タスクのすべてのサンプルに一貫性があり、多くのエピソードでメタ学習できるAlchemyの特徴を構成する。 0.67
Importantly, due to the potion map P , the potion effects p in each episode must be discovered by experimentation. 重要なのは、ポティオン写像 p のため、各エピソードにおけるポティオン効果 p は実験によって発見する必要がある。 0.63
G is determined by sampling a graph topology (Figure 6d), which determines which potion effects are possible. Gはグラフトポロジー(図6d)のサンプリングによって決定され、どのポーション効果が可能かを決定する。 0.71
Potions only have effects if certain preconditions on the stone latent state are met, which constitute ‘bottlenecks’ (darker edges in Figure 6d). オプションは、石の潜伏状態に特定の条件が満たされた場合にのみ効果があり、これは'bottlenecks'(図6dのダーカーエッジ)を構成する。 0.57
Each graph consists of the edges of the cube which meet the graph’s set of preconditions. 各グラフは、グラフのプリコンディションセットを満たすキューブの端で構成されています。 0.78
Each precondition says that an edge parallel to axis i exists only if its value on axis j is a where j (cid:54)= i and a ∈ {−1, 1}. 各プリコンディションは、軸 i に平行なエッジが存在するのは、その値が j (cid:54)= i と ∈ {−1, 1} であるときのみである。 0.78
The more preconditions, the fewer edges the graph has. 事前条件が多いほど、グラフのエッジは少なくなります。 0.71
Only sets of preconditions which generate a connected graph are allowed. 連結グラフを生成する前提条件のセットのみが許可される。 0.80
We denote the set of connected graphs with preconditions of this form G. Note that this is smaller than the set of all connected graphs, as a single precondition can rule out 1 or 2 edges of the cube. これはすべての連結グラフの集合よりも小さく、1つの前提条件が立方体の1つまたは2つの辺を除外できるためである。
訳抜け防止モード: この形式 G の前提条件で連結グラフの集合を表すが、これはすべての連結グラフの集合よりも小さいことに注意する。 一つの条件で立方体の1つか2つの端を除外できるのです
0.76
As with the potion color pairs, this structure is consistent across all samples and may be meta-learned. ポティオン色対と同様に、この構造はすべてのサンプルで一貫しており、メタ学習される可能性がある。 0.58
We find that the maximum number of preconditions for any graph G ∈ G is 3. 任意のグラフ G ∈ G のプリコンディションの最大数は 3 であることがわかった。 0.82
We define Gn := {G ∈ G|N (G) = n} where N (G) is the number of preconditions in G. The sampling distribution is n ∼ U (0, 3), G ∼ U (Gn). Gn := {G ∈ G|N (G) = n} ここで、N (G) は G の前提条件の数である。
訳抜け防止モード: Gn : = { G ∈ G|N ( G ) = n } ここで N ( G ) は G の前提条件の数である。 GはU (Gn)。
0.55
Of course, there is only one graph with 0 preconditions and many graphs with 1, 2, or 3 preconditions so the graph with もちろん、0の前置条件のグラフと1, 2, 3, 3の前置条件のグラフは1つしかないので、グラフは0である。 0.71
英語(論文から抽出)日本語訳スコア
0 preconditions is the most common and is sampled 25% of the time. 0の前条件は最も一般的であり、時間の25%をサンプリングされます。 0.66
A ‘chemistry’ is a random sampling of all variables {G, Ppermute, Preflect, Sreflect, Srotate} (subject to the constraint rules described above), which is held constant for an episode (Figure 5). 化学」とは、すべての変数{G, Ppermute, Preflect, Sreflect, Srotate}(上述の制約規則に準じて)のランダムサンプリングであり、エピソードの定数は一定である(図5)。 0.76
Given all of the possible permutations, we calculate that there are 167,424 total chemistries that can be sampled. 可能な置換のすべてを考えると、サンプリングできる全化学数は167,424あると計算します。 0.74
Figure 5. The generative process for sampling a new task, in plate notation. 図5。 プレート表記法における新しいタスクをサンプリングする生成過程。 0.75
Constraint rules G, Pcolor, and R(c) are fixed for all episodes (see Section A.1). 制約規則 G, Pcolor, R(c) はすべてのエピソードで固定される(第 A.1)。 0.70
Every episode, a set {G, Ppermute, Preflect, Sreflect, Srotate} is sampled to form a new chemistry. すべてのエピソード、集合 {G, Ppermute, Preflect, Sreflect, Srotate} は、新しい化学を形成するためにサンプリングされる。 0.85
Conditioned on this chemistry, for each of Ntrial = 10 trials, Ns = 3 stones and Np = 12 potions are sampled, as well as random placement and lighting conditions, to form the perceptual observation for the agent. この化学に基づいて、Ntrial = 10試験のそれぞれに対して、Ns = 3石とNp = 12ポジオンがサンプル化され、ランダムな配置および照明条件がエージェントの知覚的観察を形成する。 0.75
For clarity, the above visualization omits parameters for normal or uniform distributions over variables (such as lighting and placement of stones/potions on the table). 明確にするために、上記の可視化は変数上の正規分布や均一分布のパラメータを省略する(例えば、テーブル上の石や池の照明や配置など)。 0.66
B. Training and hyperparameters B。 トレーニングとハイパーパラメータ 0.79
Table 2. Architecture and hyperparameters for VMPO. 表2。 VMPOのアーキテクチャとハイパーパラメータ。 0.76
SETTING IMAGE RESOLUTION: NUMBER OF ACTION REPEATS: AGENT DISCOUNT: RESNET NUM CHANNELS: TRXL MLP SIZE: TRXL NUMBER OF LAYERS: TRXL NUMBER OF HEADS: TRXL KEY/VALUE SIZE: η: α: TTARGET: βπ: βV : βPIXEL CONTROL: βKICKSTARTING: βSTONE: βPOTION: βCHEMISTRY: SETING Image Resolution: NBER OF ACTION Repeats: Agent Discount: RESNET NUM CHANNELS: TRXL MLP Size: TRXL NUMBER OF LAYERS: TRXL NUMBER OF HEADS: TRXL KEY/VALUE SIZE: shη: tα: TTARGET: βπ: βV : βPIXEL Control: βKICKSTARING: βSTONE: βPOTION: βCHEMISTRY: 0.96
VALUE 96X72X3 4 0.99 64, 128, 128 256 6 8 32 0.5 0.001 100 1.0 1.0 0.001 10.0 2.4 0.6 10.0 VALUE 96X72X3 4 0.99 64, 128, 128 256 6 8 32 0.5 0.001 100 1.0 1.0 0.001 10.0 2.4 0.6 10.0 0.59
Table 3. Architecture and hyperparameters for Impala. 表3。 Impalaのアーキテクチャとハイパーパラメータ。 0.74
SETTING IMAGE RESOLUTION: NUMBER OF ACTION REPEATS: AGENT DISCOUNT: LEARNING RATE: RESNET NUM CHANNELS: LSTM HIDDEN UNITS: βπ: βV : βENTROPY: βPIXEL CONTROL: βKICKSTARTING: 設定画像の解像度: アクションの回数: エージェントの障害: 学習率: RESNET NUM CHANNELS: LSTM HIDDEN UNITS: βπ: βV : βENTROPY: βPIXEL Control: βkickSTARTING。 0.84
VALUE 96X72X3 4 0.99 0.00033 16, 32, 32 256 1.0 0.5 0.001 0.2 8.0 VALUE 96X72X3 4 0.99 0.00033 16, 32, 32 256 1.0 0.5 0.001 0.2 8.0 0.57
PpermutePre(cid:31)e ctSre(cid:31)ectSrot ateGChemistryNEpisod eNtrialConstraint rulesPcolorR(c)Stone sPotionsPlacementLig hting312 PpermutePre(cid:31)e ctSre(cid:31)ectSrot ateGChemistryNEpisod eNtrial制約ルールPcolorR(c)StonesPoti onsPlacementLighting 312 0.48
英語(論文から抽出)日本語訳スコア
Figure 6. a) Depiction of an example chemistry sampled from Alchemy, in which the perceptual features happen to be axis-aligned with the latent feature coordinates (listed beside the stones). 図6.a)Alchemyから抽出されたサンプル化学の描写。その場合、知覚的特徴は潜在特徴座標(石の横にリストされている)と軸整合する。 0.72
Stones transform according to a hidden transition structure, with edges corresponding to the application of corresponding potions, as seen in b). 石は隠れた遷移構造に従って変形し、bに見られるように対応するポティオンの適用に対応する縁を持つ。 0.68
c) For example, applying the green potion to the large purple stone transforms it into a large blue stone, and also increases its value (indicated by the square in center of stone becoming white). c) 例えば,大きな紫の石に緑色の薬を施すことで,それを大きな青の石に変換し,その価値を増加させる(石の中心の正方形が白くなることによる。)。 0.82
d) The possible graph topologies for stone transformation. d) 石の変形の可能なグラフトポロジー。 0.73
Darker edges indicate ‘bottlenecks’, which are transitions that are only possible from certain stone latent states. ダークエッジは、特定の石の潜伏状態からのみ可能な遷移である「ボトルネック」を意味する。 0.67
In topologies with bottlenecks, more potions are often required to reach the highest value stone. ボトルネックを持つトポロジーでは、最も価値の高い石に到達するために、より多くのポーションがしばしば必要です。 0.48
If the criteria for stone states are not met, then the potion will have no effect (e.g. 石の状態の基準が満たされていない場合、ポチオンには効果がない(例)。 0.75
if topology (v) has been sampled, the yellow potion in the example given in (a) will have no effect on the small purple round stone). トポロジー(v)がサンプリングされた場合、(a)に与えられた例の黄色のポポは、小さな紫色の丸い石には影響しません)。 0.80
Note that we can apply reflections and rotations on these topologies, yielding a total of 109 configurations. これらの位相に反射と回転を適用でき、合計で109の配置が得られることに注意。 0.68
Algorithm 1 Ideal Observer アルゴリズム1 理想観察者 0.82
Algorithm 2 Oracle アルゴリズム2 oracle 0.77
Input: stones s, potions p, belief state b Initialise rewards = {} for all si ∈ s do 入力: stone s, potion p, belief state b すべての si ∈ s に対する初期化報酬 = {} 0.82
for all pj ∈ p do すべての pj ∈ p に対して 0.84
sposs, pposs, bposs, bprobs potion(s, p, si, pj, b) r = 0 for all s(cid:48), p(cid:48), b(cid:48), prob ∈ sposs, pposs, bposs, bprobs do sposs, pposs, bposs, bprobs potion(s, p, si, pj, b) r = 0 for all s(cid:48), p(cid:48), b(cid:48), prob ∈ sposs, pposs, bposs, bprobs do 0.90
r = r + prob * Ideal Observer(s(cid:48), p(cid:48), b(cid:48)) r = r + prob * ideal Observer(s(cid:48), p(cid:48), b(cid:48)) 0.98
= simulate = シミュレーション 0.77
use end for rewards[si, pj] = r 利用 end for rewards[si, pj] = r 0.80
end for s(cid:48), r = simulate use cauldron(s, si) rewards[si, cauldron] = r + Ideal Observer(s(cid:48), p, b) end for s(cid:48), r = simulate use cauldron(s, si) rewards[si, cauldron] = r + ideal Observer(s(cid:48), p, b) 0.89
end for return argmax(rewards) end for return argmax(rewards) 0.85
B.1. Auxiliary task losses Auxiliary prediction tasks include: 1) predicting the number of stones currently present that possess each possible perceptual feature (e.g. B.1。 補助タスク損失 補助タスクには、1)現在存在する各可能な知覚特徴を有する石の数を予測することが含まれる。 0.67
small size, blue color etc), 2) predicting the 小さいサイズ、青い色等)、2)予測します。 0.72
Input: stones s, potions p, chemistry c Initialise rewards = {} for all si ∈ s do 入力:stones s, potions p, chemistry c initialise rewards = {} for all si ∈ s do 0.78
for all pj ∈ p do すべての pj ∈ p に対して 0.84
s(cid:48), p(cid:48) = simulate use potion(s, p, si, pj, c) rewards[si, pj] = Oracle(s(cid:48), p(cid:48), c) end for s(cid:48), r = simulate use cauldron(s, si) rewards[si, cauldron] = r + Oracle(s(cid:48), p, c) s(cid:48), p(cid:48), p(cid:48) = simulate use potion(s, p, si, pj, c) rewards[si, pj] = Oracle(s(cid:48), p(cid:48), c) end for s(cid:48), r = simulate use cauldron(s, si) rewards[si, cauldron] = r + Oracle(s(cid:48), p, c) 0.98
end for return argmax(rewards) end for return argmax(rewards) 0.85
number of potions of each color, or 3) predicting the ground truth chemistry. 各色のポチオンの数、または3)基底の真理化学を予測すること。 0.71
Auxiliary tasks contribute additional losses which are summed with the standard RL losses, weighted by coefficients (βstone = 2.4, βpotion = 0.6, βchem = 10.0). 補助的なタスクは、標準のRL損失と合計され、係数によって重み付けされる(βstone = 2.4, βpotion = 0.6, βchem = 10.0)。 0.61
These hyperparameters were determined by roughly balancing the gradient norms of variables which contributed to all losses. これらのハイパーパラメータは、すべての損失に寄与する変数の勾配ノルムを大まかにバランスさせることで決定された。
訳抜け防止モード: これらのハイパーパラメータは すべての損失に寄与する変数の勾配ノルムの バランスが取れます
0.70
All prediction tasks use an MLP head, (1) and (2) use an L2 regression loss while (3) uses a cross entropy loss. すべての予測タスクはMLPヘッドを使用し、(1)と(2)はL2回帰損失を使用し、(3)はクロスエントロピー損失を使用する。 0.72
Prediction tasks (1) and (2) were always done 予測タスク (1) と (2) は常に完了した 0.84
英語(論文から抽出)日本語訳スコア
C. Additional results Training curves show that VMPO agents train faster in the symbolic version of Alchemy vs the 3D version (Figures 7 and 8), even though agents are kickstarted in 3D. C. 追加結果 トレーニング曲線によると,VMPO エージェントは 3D で起動しているにも関わらず,Alchemy のシンボルバージョンと 3D バージョン (図 7 と 8 ) でより速くトレーニングすることができる。 0.74
As seen in Figure 8, the auxiliary task of predicting features appears much more beneficial than predicting the ground truth chemistry, the latter leading to slower training and more variability across seeds. 図8に見られるように、機能予測の補助タスクは、基礎的真理の化学を予測するよりもずっと有益であるように見え、後者は、種子間のトレーニングが遅くなり、ばらつきが増す。
訳抜け防止モード: 図8に示すように、特徴を予測する補助的なタスクは、基礎的な真理化学を予測するよりもずっと有益である。 後者は訓練が遅くなり 種子の多様性が増します
0.72
We hypothesize that this is because predicting the underlying chemistry is possibly as difficult as simply performing well on the task, while predicting simple feature statistics is tractable, useful, and leads to more generalizable knowledge. これは、基礎となる化学を予測することは、単にタスクでうまく機能するのと同じくらい困難であり、単純な特徴統計を予測することは、トラクタブルで有用であり、より一般化可能な知識につながるからです。
訳抜け防止モード: これは 基礎となる化学の予測 単にタスクをうまく実行するのと同じくらい難しいでしょう。 単純な特徴統計を予測することは、扱いやすく、有用であり、より一般的な知識をもたらす。
0.74
Algorithm 3 Random heuristic アルゴリズム3ランダムヒューリスティック 0.66
Input: stones s, potions p, threshold t si = random choice(s) if reward(si) > t or (reward(si) > 0 and empty(p)) then 入力: stones s, potion p, threshold t si = random choice(s) if reward(si) > t or (reward(si) > 0 and empty(p)) 0.81
return si, cauldron si, cauldron を返します。 0.54
end if pi = random choice(p) return si, pi end if pi = random choice(p) return si, pi 0.85
in conjunction and are collectively referred to as ‘Predict: Features’, while (3) is referred to as ‘Predict: Chemistry’ in the results. 共同で「予測:特徴」と総称され、(3)は結果において「予測:化学」と呼ばれる。 0.65
The MLP for 1) has 128x128x13 units where the final layer represents 3 predictions for each perceptual feature value e.g. 1)のMLPは、128x128x13ユニットを有し、最終層は各知覚特徴値に対して3つの予測を表す。 0.70
the number of small stones, medium stones, large stones and 4 predictions for the brightness of the reward indicator. 報酬の表示器の明るさのための小さい石、中型の石、大きい石および4つの予測の数。 0.72
The MLP for 2) has 128x128x6 units where the final layer represents 1 prediction for the number of potions of each possible color. 2) の MLP は 128x128x6 単位を持ち、最終的な層は各可能な色のポテンシャル数を 1 予測する。 0.82
3) is predicted with an MLP with a sigmoid cross entropy loss and has size 256x128x28 where the final layer represents predictions of the symbolic representations of the graph and mappings (Srotate, Sreflect, Preflect, Ppermute, G). 3 は、Sigmoid cross entropy loss を持つ MLP で予測され、最終層がグラフとマッピングのシンボル表現(Srotate, Sreflect, Preflect, Ppermute, G)の予測を表すサイズ 256x128x28 である。 0.81
More precisely, Srotate is represented by a 4 dimensional 1-hot, Sreflect and Preflect are represented by 3 dimensional vectors with a 1 in the ith element denoting reflection in axis i, Ppermute is represented by a 6 dimensional 1-hot and G is represented by a 12-dimensional vector for the 12 edges of the cube with a 1 if the corresponding edge exists and a 0 otherwise. より正確には、Srotate は 4 次元 1-hot で表され、Sreflect と Preflect は、軸 i における反射を表す ith 要素において 1 の 3 次元ベクトルで表され、Ppermute は 6 次元 1-hot で表され、G は、対応する辺が存在しなければ 1 で立方体の 12 個の辺の 12 次元ベクトルで表される。 0.84
英語(論文から抽出)日本語訳スコア
Figure 7. 3D with symbolic input training. 図7。 シンボリック入力トレーニングで3D。 0.73
Data are smoothed by bucketing and averaging over 2M steps per bucket (for a total of 1000 points). データはバケットで平滑化され、1バケットあたり2mのステップ(合計1000ポイント)を平均する。 0.72
Thin lines indicate individual replicas (5 per condition). 薄い線は個々のレプリカ(条件ごとに5)を示す。 0.68
Figure 8. Symbolic alchemy training. 図8。 象徴的な錬金術の訓練 0.61
Data are smoothed by bucketing and averaging over 2M steps per bucket (for a total of 1000 points). データはバケットで平滑化され、1バケットあたり2mのステップ(合計1000ポイント)を平均する。 0.72
Thin lines indicate individual replicas (5 per condition). 薄い線は個々のレプリカ(条件ごとに5)を示す。 0.68
BaselineGround truth (GT)Belief state (BS)GT + predictOnly predict feature2040608010012 01401601802002202402 60280300Episode reward2G4G6G8G10G12G 14G16G18G20GTraining stepBS + predictIdeal observer scoreRandom strategy scorePredict chemistry20406080100 12014016018020022024 02602803002G4G6G8G10 G12G14G16G18G20GBase lineGround truth (GT)Episode rewardTraining stepIdeal observer scoreRandom strategy scoreBelief state (BS)Predict feature BaselineGround truth (GT)GT + predictOnly predict feature2040801001201 60180200220240028030 0Episode reward2G4G6G8G10G12G 14G16G18G20GTraining stepBS + predictIdealObserver scoreRandom strategy scorePredict Chemistry20406080120 16018020022024026803 002G4G6G8G10G12G12G1 4G18G20GBaselineGrou nd truth (GT)Episode rewardTraining stepIdealObserver scoreRandom strategy scoreBelief state (BS)Predict feature 0.50
英語(論文から抽出)日本語訳スコア
Figure 9. Comparing action types throughout trial in 3D alchemy, for a) ideal observer, b) baseline agent, c) agent with ground truth information as input, and d) agent with belief state as input and feature prediction auxiliary task. 図9。 3次元錬金術における試行を通しての行動タイプの比較:a)理想観察者、b)基準エージェント、c)根拠真理情報を入力とするエージェント、d)信念状態を有するエージェントを入力および特徴予測補助タスクとする。 0.75
All agents include the symbolic observations as input. 全てのエージェントは入力として象徴的な観察を含む。 0.61
The ideal strategy is to in trial 1 perform a lot of exploratory actions (yielding actions that lead to no effect on the stone), but then in later trials perform only actions that change the value of the stone. 理想的な戦略は、試験1で多くの探索的な行動(石に効果を及ぼさない行動を引き起こす)を実行することですが、その後の試験では石の価値を変える行動のみを実行することです。 0.79
Unlike the ideal observer, the baseline agent (b) and agent with ground truth input (c) display no change between the first and last trials, indicating an inability to adapt strategies (exploration vs exploitation) throughout the course of the episode. 理想的な観察者とは異なり、ベースラインエージェント(b)と接地真理入力(c)は、最初の試行と最後の試行の間に変化を示さず、エピソード全体を通して戦略(探索と搾取)を適応できないことを示す。 0.75
First trialLast trialIdeal observerBaseline agentInput: Ground truthInput: Belief state + Predict: FeaturesFirst trialLast trialFirst trialLast trialFirst trialLast trialAction typeapply potion: worsen stoneapply potion: no effectapply potion: improve stonecache stone: -3 rewardcache stone: -1 rewardcache stone: +1 rewardcache stone: +15 rewarda)b)c)d) first trial last trialideal observerbaseline agentinput: ground truthinput: belief state + predict: features first trial first trial first trial first trial first trial first trial last trialaction typeapply potion: worsen stoneapply potion: no effectapply potion: improve stonecache stone: -3 rewardcache stone: -1 rewardcache stone: +1 rewardcache stone: +15 rewardcache stone: +15 rewarda(b)d) 0.88
                                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。