論文の概要、ライセンス

# (参考訳) プログラム合成による数学的推論のための強化学習環境 [全文訳有]

A Reinforcement Learning Environment for Mathematical Reasoning via Program Synthesis ( http://arxiv.org/abs/2107.07373v2 )

ライセンス: CC BY 4.0
Joseph Palermo, Johnny Ye, Alok Singh(参考訳) 我々はDeepMind数学データセットをプログラム合成問題として解釈することで強化学習環境に変換する。 環境における各アクションは、演算子または入力を離散計算グラフに追加する。 正解を計算するグラフは正の報酬をもたらし、ポリシーの最適化により問題文に条件付き計算グラフを構築することができる。 ベースラインモデルは、様々な問題型のサブセット上でdouble dqnを使用してトレーニングされ、組み合わせの爆発と騒がしい報酬の課題にもかかわらず、グラフを正しく構築する能力を示す。

We convert the DeepMind Mathematics Dataset into a reinforcement learning environment by interpreting it as a program synthesis problem. Each action taken in the environment adds an operator or an input into a discrete compute graph. Graphs which compute correct answers yield positive reward, enabling the optimization of a policy to construct compute graphs conditioned on problem statements. Baseline models are trained using Double DQN on various subsets of problem types, demonstrating the capability to learn to correctly construct graphs despite the challenges of combinatorial explosion and noisy rewards.
公開日: Fri, 16 Jul 2021 02:40:38 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 l u J 1 2 0 2 l u J 0.85
6 1 ] G L . 6 1 ] G L。 0.81
s c [ 2 v 3 7 3 7 0 sc [ 2 v 3 7 3 7 0 0.68
. 7 0 1 2 : v i X r a . 7 0 1 2 : v i X r a 0.85
A REINFORCEMENT LEARNING ENVIRONMENT FOR MATHEMATICAL REASONING VIA PROGRAM SYNTHESIS プログラム合成による数学的推論のための強化学習環境 0.62
Joseph Palermo & Johnny Ye Cash App Labs {jpalermo, jye}@squareup.com Joseph Palermo & Johnny Ye Cash App Labs {jpalermo, jye}@squareup.com 0.96
Alok Singh Lawrence Berkeley National Laboratory alok@lbl.gov Alok Singh Lawrence Berkeley National Laboratory alok@lbl.gov 0.98
ABSTRACT We convert the DeepMind Mathematics Dataset into a reinforcement learning environment by interpreting it as a program synthesis problem. ABSTRACT 我々はDeepMind数学データセットをプログラム合成問題として解釈することで強化学習環境に変換する。 0.84
Each action taken in the environment adds an operator or an input into a discrete compute graph. 環境における各アクションは、演算子または入力を離散計算グラフに追加する。 0.80
Graphs which compute correct answers yield positive reward, enabling the optimization of a policy to construct compute graphs conditioned on problem statements. 正解を計算するグラフは正の報酬をもたらし、ポリシーの最適化により問題文に条件付き計算グラフを構築することができる。 0.76
Baseline models are trained using Double DQN on various subsets of problem types, demonstrating the capability to learn to correctly construct graphs despite the challenges of combinatorial explosion and noisy rewards. ベースラインモデルは、様々な問題型のサブセット上でdouble dqnを使用してトレーニングされ、組み合わせの爆発と騒がしい報酬の課題にもかかわらず、グラフを正しく構築する能力を示す。
訳抜け防止モード: ベースラインモデルは、問題タイプの様々なサブセットでDouble DQNを使用して訓練される。 組み合わせの爆発とノイズの報奨にもかかわらず グラフを正しく構築する能力を示す
0.76
1 INTRODUCTION The DeepMind Mathematics Dataset [1] consists of synthetically generated math problems. 1 導入 DeepMind Mathematics Dataset [1] は合成された数学の問題からなる。 0.73
They cover a range of problem types including: Numbers, comparison, measurement, arithmetic, algebra, polynomials, calculus, and probability. これらは、数、比較、測定、算術、代数、多項式、微積分、確率を含む様々な問題タイプをカバーする。 0.73
These problem types are arranged into a collection of 56 modules each containing different sub-types of problems. これらの問題型は、それぞれ異なるサブタイプの問題を含む56個のモジュールの集合に配列される。 0.70
The dataset provides the problems in the form of question-answer pairs represented as ASCII text. このデータセットは、ASCIIテキストとして表される質問応答ペアの形式で問題を提供する。 0.67
The predominant algorithmic approach for learning to produce the answers conditioned on the question statements has been to train seq2seq models [1][2][3]. 質問文に条件付き回答を生成するためのアルゴリズム的アプローチは、Seq2seqモデル [1][2][3] を訓練することであった。 0.80
For some of the modules this approach yields very nearly 100% accuracy, however for other modules this does extremely poorly. 一部のモジュールでは、このアプローチは非常に100%近い精度が得られるが、他のモジュールでは極めて不十分である。 0.73
For example, with this approach the best reported test accuracy for the module ”numbers list prime factors” is less than 25% [3]. 例えば、このアプローチでは、モジュールの “numbers list prime factor” に関する最も報告されたテスト精度は25%[3]未満である。 0.79
This poor performance is not surprising considering the nature of the problems on which this occurs. この貧弱なパフォーマンスは、この問題の性質を考えると、驚くにはあたらない。 0.69
For instance, the module ”numbers is prime” requires discriminating primes from non-primes. 例えば、加群 ”numbers is prime” は非素数との判別を必要とする。 0.72
Apart from memorizing answers, there are only a few useful hacks that a learned model can easily pick up, for example, the fact that any even number (except for 2) is not prime. 例えば、(2を除く)偶数が素数ではないという事実など、学習したモデルで簡単に拾える便利なハックはいくつかしかない。
訳抜け防止モード: 記憶に残る答えは別として、学習したモデルが簡単に拾える有用なハックはごくわずかである。 例えば、 偶数 (2 を除く) は素数ではない。
0.63
Algorithms to correctly test for primality require a sequence of divisions to be performed very precisely, and before a perfectly correct algorithm is obtained loss may not be much improved beyond random guessing. プリミリティを正しくテストするアルゴリズムは、非常に正確に一連の分割を行う必要があり、完全に正しいアルゴリズムが得られる前に、損失はランダムな推測以上には改善されない可能性がある。 0.75
Thus, it’s unclear if the gradient of loss obtained by comparing computed answers to correct answers could be sufficient to learn such algorithms. したがって、計算された回答と正しい回答を比較することで得られる損失の勾配が、そのようなアルゴリズムを学ぶのに十分かどうかは不明だ。 0.64
A further difficulty with such systems is that they are unlikely to be sufficiently accurate or interpretable for real-world use. このようなシステムでさらに難しいのは、現実の用途に十分な正確さや解釈ができないことだ。 0.73
Models trained in this manner are effectively black boxes which only return answers. この方法で訓練されたモデルは、答えのみを返すブラックボックスである。 0.70
Probability estimates assigned to tokens sampled from the model can potentially provide clues about the likelihood of correctness (assuming they are well calibrated). モデルからサンプリングされたトークンに割り当てられた確率推定は、(十分に校正されていると仮定して)正しい可能性の手がかりとなる可能性がある。 0.61
However, the reasoning process by which the result was arrived at cannot be easily inspected. しかし、結果が得られた推論プロセスは容易には検査できない。 0.63
We think it would be desirable to train neural networks to make use of existing programs for computing various mathematical operations [4][5]. 様々な数学的操作[4][5]を計算するために既存のプログラムを使うようにニューラルネットワークを訓練することが望ましいと思います。 0.80
Just as human programmers use libraries when writing 人間のプログラマが書くときにライブラリを使うように 0.64
1 1 0.85
英語(論文から抽出)日本語訳スコア
larger programs, learned algorithms should be able to build upon existing operators. 大きなプログラムでは、学習されたアルゴリズムは既存のオペレータの上に構築できるべきである。 0.60
With predefined operators available, the neural network wouldn’t have to rediscover for itself algorithms and functions which are already well known, and could instead focus on learning how to compose them. 事前に定義された演算子があれば、ニューラルネットワークは、すでによく知られたアルゴリズムや関数を再発見する必要はなく、その構成方法を学ぶことに集中できる。 0.75
Essentially, we propose to treat the problem from the point of view of program synthesis. 基本的に,プログラム合成の観点から問題を扱うことを提案する。 0.64
Program synthesis is the problem of how to automatically construct programs to meet predefined specifications or constraints [6]. プログラム合成は、事前に定義された仕様や制約を満たすプログラムを自動的に構築する方法の問題です [6]。 0.67
If the specification is sufficiently precise, then one may be able to prove that a given program meets it. 仕様が十分に正確であれば、あるプログラムがそれを満たすことを証明できるかもしれない。 0.77
However, the DeepMind Mathematics Dataset provides only question-answer pairs. しかし、DeepMind数学データセットは質問応答ペアのみを提供する。 0.72
So, if a program was generated to compute the answer for a given question, in general it would only be possible to confirm that the program generated the correct answer for that specific question. したがって、あるプログラムが与えられた質問に対する回答を計算するために生成された場合、一般にプログラムが特定の質問に対して正しい回答を生成したことを確認できるだけである。 0.77
More formally, the learning problem is to learn a policy which maps a problem statement represented as text, to a program. より正式には、学習問題は、テキストとして表される問題文をプログラムにマッピングするポリシーを学習することである。 0.76
The program takes the form of a compute graph composed of discrete operators. このプログラムは離散演算子からなる計算グラフの形式をとる。 0.77
A policy which constructs these compute graphs by conditioning on problem statements can be learned with reinforcement learning because the question-answer pairs can be used to provide a reward signal to adjust the parameters of the policy. 問題文を条件付けしてこれらの計算グラフを構成するポリシは、質問応答ペアを使用してポリシーのパラメータを調整する報酬信号を提供することができるため、強化学習によって学習することができる。 0.67
2 FRAMING THE PROBLEM USING REINFORCEMENT LEARNING 2 強化学習を用いた問題のフレーミング 0.64
To frame the problem in terms of reinforcement learning we need to define an environment. 強化学習の観点で問題を解決するためには、環境を定義する必要がある。 0.70
To explain how this is done we first need to explain how inputs are extracted from problem statements and to specify how the operators are defined. この方法を説明するには、まず問題文から入力がどのように抽出されるかを説明し、演算子がどのように定義されるかを指定する必要がある。 0.58
2.1 INPUTS In problems in the DeepMind Mathematics Dataset there are often parts of the text which are explicitly mathematical. 2.1 入力 DeepMind数学データセットの問題は、しばしば明示的に数学的であるテキストの一部が存在する。 0.60
We call these the inputs of the problems. これらを問題の入力と呼びます。 0.70
For example, in the following problem: 例えば、次の問題である。 0.64
Let h(t) = t**3 + t**2 + 1. h(t) = t**3 + t**2 + 1 とする。 0.83
Let v(d) = 6*d**3 + 24*d**2 + 4. v(d) = 6*d**3 + 24*d**2 + 4 とする。 0.85
Let w(j) = w(j) = とする 0.78
4*h(j) - v(j). 4*h(j) - v(j) である。 0.91
What is the third derivative of w(x) wrt x? w(x) wrt x の3番目の微分は何ですか。 0.70
The inputs are: 1) h(t) = t**3 + t**2 + 1 2) v(d) = 6*d**3 + 24*d**2 + 4 3) w(j) = 4*h(j) - v(j) 4) w(x) 5) x 入力は以下の通り。 1) h(t) = t**3 + t**2 + 1 2) v(d) = 6*d*3 + 24*d**2 + 4 3) w(j) = 4*h(j) - v(j) 4) w(x) 5) x 0.75
It turns out that for many problem types, a parser can be written which automatically extracts the inputs of the problem. 多くの問題タイプに対して、問題の入力を自動的に抽出するパーサを記述できることが判明した。 0.73
By embedding such a parser within the environment implementation, given any problem statement the environment can determine which inputs are available. このようなパーサを環境実装に埋め込むことで、環境がどの入力が利用可能かを決定することができる。 0.81
This will be used to help define the action space in section 2.3. これはセクション2.3でアクション空間を定義するのに役立つ。 0.76
2.2 PREDEFINED OPERATORS To utilize program synthesis, a list of operators needs to be defined. 2.2 先行運転者 プログラム合成を利用するには、演算子のリストを定義する必要がある。 0.61
Each of them takes some fixed number of inputs and returns a single output. それぞれ一定の数の入力を受け取り、1つの出力を返す。 0.76
For example, one operator called ’differentiate wrt’ (short for “differentiate with respect to” takes as input an expression and a variable, and it outputs the derivative of the expression with respect to the variable. 例えば、'differentiate wrt'(「微分に関するショート」の略)と呼ばれるある演算子は、式と変数を入力として取り、変数に関する式の微分を出力する。 0.59
A full list of operators is defined in Appendix A. 演算子の完全なリストは Appendix A で定義される。 0.82
2.3 DEFINING THE REINFORCEMENT LEARNING ENVIRONMENT 2.3 強化学習環境の整備 0.68
Observations from the environment consist of a representation of the question concatenated with a sequence of indices corresponding to actions taken previously in the current episode. 環境からの観察は、現在のエピソードで以前に行われた行動に対応する一連の指標と連結された質問の表現からなる。 0.70
2 2 0.85
英語(論文から抽出)日本語訳スコア
The representation of the question can either be provided in encoded form (i.e. 質問の表現は、エンコードされた形式(すなわち)で提供される。 0.69
as an array of indices into a vocabulary of tokens) or unencoded form (i.e. トークンの語彙へのインデックスの配列として)または未符号化形式(すなわち) 0.79
raw text) depending on how the environment is configured. 環境の設定方法によって異なります。 0.50
If the environment is configured to return questions in encoded form, then it uses a predefined byte pair encoding constructed from a corpus of questions. 環境がエンコードされた形式で質問を返すように設定されている場合、質問のコーパスから構築された事前定義されたバイトペアエンコーディングを使用する。 0.58
If the representation is provided in encoded form then it is also padded up to a fixed maximum length. 表現がエンコードされた形式で提供される場合、固定された最大長さまでパディングされる。 0.70
Note that the raw text of the question is available at every step regardless of how configurations are set (through the info object returned by the ”step” method of the environment). 質問の原文は、設定方法に関わらず(環境の“ステップ”メソッドによって返されるinfoオブジェクトを通して)、各ステップで利用可能であることに注意してください。 0.74
The action space is discrete and corresponds to the set of operators and available inputs which can be introduced into the graph at any given time. 作用空間は離散的であり、任意の時間にグラフに導入できる演算子の集合と利用可能な入力に対応する。 0.74
The graph is built up in breadth first order. グラフは第1の順序で構築されます。 0.85
Fixing the order of graph construction simplifies the action space because otherwise the actions would need to both specify which operator is being applied and where in the graph it is being introduced. グラフ構築の順序を固定することは、アクション空間を単純化する。そうでなければ、アクションはどの演算子が適用され、どのグラフで導入されているかを指定する必要がある。
訳抜け防止モード: グラフ構築の順序を修正することはアクション空間を単純化する。 どの演算子が適用されているか、どのグラフに導入されているかを指定する。
0.72
The maximum number of available inputs is set as a parameter of the environment. 利用可能な入力の最大数は、環境のパラメータとして設定される。 0.84
Thus if the max number of available inputs is set to n inputs, and there are n ops operators, then the action space is represented by the set of integers from 0 to n ops + n inputs - 1. したがって、利用可能な入力の最大数が n 個の入力に設定され、n個の ops 演算子が存在する場合、アクション空間は 0 から n 個の ops + n 個の入力 - 1 までの整数の集合で表現される。 0.79
The inputs are represented within the action space in the order in which they appear in the problem. 入力は、それらが問題に現れる順序でアクション空間内で表現される。 0.65
For example, given the following problem: Let h(t) = t**3 + t**2 + 1. 例えば、次のような問題がある: h(t) = t**3 + t**2 + 1 とする。 0.83
Let v(d) = 6*d**3 + 24*d**2 + 4. v(d) = 6*d**3 + 24*d**2 + 4 とする。 0.85
Let w(j) = w(j) = とする 0.78
4*h(j) - v(j). 4*h(j) - v(j) である。 0.91
What is the third derivative of w(x) wrt x? w(x) wrt x の3番目の微分は何ですか。 0.70
The action space would be as follows: 0 : 1st operator 1 : 2nd operator ... n_ops - 1 : nth operator n_ops + 0 : h(t) = t**3 + t**2 + 1 n_ops + 1 : v(d) = 6*d**3 + 24*d**2 + 4 n_ops + 2 : w(j) = 4*h(j) - v(j) n_ops + 3 : w(x) n_ops + 4 : x n_ops + 5 : None ... n_ops + n_inputs - 1 : None 0 : 1st operator 1 : 2nd operator ... n_ops - 1 : nth operator n_ops + 0 : h(t) = t**3 + t**2 + 1 n_ops + 1 : v(d) = 6*d*3 + 24*d**2 + 4 n_ops + 2 : w(j) = 4*h(j) - v(j) n_ops + 3 : w(x) n_ops + 4 : x n_ops + 5 : None ... n_ops + n_inputs - 1 : None ... n_ops + n_inputs - 1 : None 0.91
Note that if less than the maximum number of possible inputs is present in a given problem, then the actions after the last available input are simply defined as None and are masked (see section 3.1.1). 与えられた問題に可能な入力の最大数より少ない場合、最後の入力後のアクションは単に無と定義され、マスクされている(セクション 3.1.1)。 0.74
The reward has a value of 1 if the compute graph computes the right answer and a value of 0 otherwise. 報酬は、計算グラフが正しい解と0の値を計算するとき、1の値を持つ。 0.68
Note that if the compute graph is incomplete then it computes the value None which always yields a reward of 0. 計算グラフが不完全であれば、常に0の報酬が得られる値 None を計算することに注意。 0.79
Here is an example trajectory from the environment in which the environment state is provided in unencoded format for legibility. ここでは、環境状態が正当性のために符号化されていないフォーマットで提供される環境からの例を示す。 0.67
Note that 5 is the action index corresponding to the ”differentiate” operator and 14 is the action index corresponding to the 1st input (which in this case corresponds to 6*k**2 - 101*k + 2548): 5は「微分」演算子に対応するアクションインデックスであり、14は第1入力に対応するアクションインデックスである(この場合、6*k*2 - 101*k + 2548に対応する)。 0.73
state t=0 : What is the first derivative of 6*k**2 - 101*k + 2548? 状態 t=0 : 6*k**2 - 101*k + 2548 の最初の微分とは何か? 0.81
; action t=0 : state t=1 : What is the first derivative of 6*k**2 - 101*k + 2548? ; action t=0 : state t=1 : 6*k*2 - 101*k + 2548 の最初の誘導体は何ですか? 0.85
; 5 5 reward t=1 : action t=1 : state t=2 : What is the first derivative of 6*k**2 - 101*k + 2548? ; 5 5 t=1 : action t=1 : state t=2 : first derivative of 6*k*2 - 101*k + 2548? 0.84
; 5, 14 0 14 ; 5, 14 0 14 0.85
reward t=2 : Note that the environment will automatically terminate episodes with reward 0 if the configured maximum length is reached. reward t=2 : 設定された最大長に達した場合、環境は報奨0でエピソードを自動的に終了する。 0.73
1 2.4 MODULES 1 2.4モジュール 0.72
For the purposes of this research, we restricted consideration to a subset of modules from the DeepMind Mathematics Dataset that have composed counterparts. 本研究の目的は,deepmind数学データセットのモジュールのサブセットに対する考慮を限定することである。 0.62
The reason for this is that the com- その理由はcom-である。 0.59
3 3 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: Type Hierarchy posed problems require much larger graphs to reliably compute correct answers. 図1:タイプ階層 提案された問題は、正しい答えを確実に計算するためにずっと大きなグラフを必要とする。 0.60
This means that in a reinforcement learning context, these problems require longer action sequences to deliver optimal reward, and so constitute a more challenging reinforcement learning environment. つまり、強化学習コンテキストでは、これらの問題は最適な報酬を提供するために長いアクションシーケンスを必要とするため、より困難な強化学習環境を構成する。 0.65
Furthermore, it is the case that some of the modules without uncomposed counterparts contain problems for which some of the relevant inputs are represented simply as words and so are difficult to parse as inputs. さらに、未解決のモジュールのいくつかは、関係する入力のいくつかを単に単語として表現する問題を含むため、入力として解析することが困難である。 0.77
For example the module ’measurement conversion’ contains questions such as: ”What is seven halves of a day in minutes?” A full list of supported modules is defined in Appendix A. 例えば、モジュールの'measurement conversion'には次のような質問が含まれている。 “7つのhalves of a day in minutes?” サポート対象モジュールの完全なリストは、appendix aで定義されている。 0.71
3 CHALLENGES 3.1 COMBINATORIAL EXPLOSION 3ヶ条 3.1 COMBINATORIAL エクスプロメーション 0.65
The experiments we present here use 15 operators and require up to 3 inputs, which gives an action space of size 18. 提案する実験では,最大3つの入力が必要となり,最大18の動作空間が与えられる。
訳抜け防止モード: ここでの実験は15のオペレーターを使用し、最大3つの入力を必要とする。 アクション空間の大きさは18です。
0.77
We also set a limit on graph size of at most 7 nodes. また、最大7ノードのグラフサイズに制限を設定しました。 0.75
Even with this restriction, there are 187 ≈ 6.12 ∗ 108 possible graphs. この制限にもかかわらず、187 ~ 6.12 ∗ 108 の可能なグラフが存在する。 0.67
Given such a large state-space, naive search would be unlikely to stumble upon correct graphs. このような大きな状態空間を考えると、ナイーブ探索が正しいグラフにぶつかる可能性は低い。 0.70
Here we present strategies for mitigating the impact of combinatorial explosion. ここでは,複合爆発の影響を緩和する戦略を提案する。 0.74
3.1.1 MASKING INVALID ACTIONS 3.1.1 不正行為 0.50
To reduce the effective size of the search space we mask actions which are guaranteed to produce invalid graphs. 探索空間の有効サイズを減らすために、無効なグラフを生成することが保証されるアクションをマスクする。 0.72
In particular we introduce a type hierarchy and assign types to the parameter(s) and output of each operator. 特に、型階層を導入し、各演算子のパラメータと出力に型を割り当てます。 0.57
Also, each input is automatically assigned a type by the environment. また、各入力は環境によって自動的に型に割り当てられる。 0.74
Taken together, typed operators and typed inputs allow the application of type constraints limit which actions are valid at any given time. 型付き演算子と型付き入力は、任意の時間にどのアクションが有効かを制限する型制約の適用を可能にする。 0.75
To implement this we define a method of the environment (called compute mask) which generates a boolean masking vector over the action space. これを実現するために、アクション空間上でブールマスキングベクトルを生成する環境(compute mask)の方法を定義します。 0.78
This method can be called by an agent before selecting an action to determine which actions are invalid, although formally the environment does not force this constraint. このメソッドは、どのアクションが無効かを決定するアクションを選択する前にエージェントによって呼び出されるが、正式な環境はこの制約を強制しない。 0.74
So invalid actions can still be taken, but they will result in graph that fails to compute a meaningful result (i.e. したがって、無効なアクションは受け取られるが、有意義な結果(すなわち、グラフ)を計算するのに失敗する。 0.76
output of the graph will be ”None”). グラフの出力は "None" となる。 0.62
Recall that actions add nodes to the graph in breadth-first order. アクションがグラフにノードを追加することを思い出してください。 0.68
Thus, each action after the first will correspond to a specific parameter of an operator that has already been applied. したがって、最初の後の各アクションは、既に適用されているオペレータの特定のパラメータに対応する。 0.82
The type of the parameter being filled-in by the action determines the type constraint applied to that action. アクションによって埋め込まれているパラメータの型は、アクションに適用される型制約を決定する。 0.77
The form of the constraint is that if the parameter requires type X, then only types at or below X in the type hierarchy are permitted. 制約の形式は、パラメータが型 X を必要とする場合、型階層内の X 以下の型のみが許可される、ということである。 0.74
The type hierarchy consists of the following custom types: Equation (e g 2*x + y = 3), Expression (e g 2*x + 1), Function (e g f(x) = 2*x + 1), Value (e g 2), Variable (e g x), Rational (e g 1/2). 型階層は、式 (e g 2*x + y = 3)、式 (e g 2*x + 1)、関数 (e g f(x) = 2*x + 1)、値 (e g 2)、変数 (e g x)、有理 (e g 1/2)である。
訳抜け防止モード: 型階層は以下のカスタムタイプで構成されている:式 (e g 2*x + y = 3)。 式(e g 2*x + 1 )、関数(e g f(x ) = 2*x + 1 ) 値(e g 2 )、変数(e g x ) 有理 (e g 1/2 ) である。
0.83
The hierarchy for the custom types is provided in Figure 1. カスタム型の階層構造は、図1で示されます。 0.69
We also utilize the following types which are built into Python: object, list, dict, and bool. また、Object、List、dict、boolといったPythonに組み込まれた以下の型も使用しています。 0.77
Note that list, dict, bool and all the custom types are subclasses of object, and thus fall below it in the type hierarchy [7]. list、dict、bool、およびすべてのカスタム型はオブジェクトのサブクラスであり、したがって型階層[7]でそれ以下となることに注意してください。 0.70
4 4 0.85
英語(論文から抽出)日本語訳スコア
In addition to type constraints, there are two other additional constraints implemented by masking. 型制約に加えて、マスクによって実装される他の2つの制約がある。 0.62
The first action always corresponds to the root node of the graph and has the additional constraint that it must correspond to an operator (i.e. 最初のアクションは常にグラフのルートノードに対応し、演算子(すなわち)に対応する必要があるという追加の制約を持つ。 0.80
it cannot be an input). 入力にはならない)。 0.47
There is also the additional constraint that any action defined as None is always masked. Noneとして定義されたアクションは常にマスクされているという追加の制約もある。 0.61
This occurs for problems which have less than the maximum number of inputs in which case the action space is padded up to a fixed size with actions defined as None. これは、アクション空間が、Noneとして定義されたアクションで固定サイズまでパッドされる場合の最大入力数より少ない問題に対して発生する。 0.74
3.1.2 ABSTRACTING SUBGRAPHS INTO OPERATORS 3.1.2 オペレータへのアブストラクティング基板 0.43
Another strategy for addressing combinatorial explosion which can be applied but was not implemented in our experiments is the process of abstracting frequently rewarded subgraphs into new operators. 実験で実装されなかった組合せ爆発に対処するもう1つの戦略は、しばしば報酬された部分グラフを新しい演算子に抽象化するプロセスである。 0.67
The concept is to identify subgraphs which frequently occur in graphs that yield reward, then to identify the inputs and output of that subgraph such that it could be redefined as a new operator. この概念は、報酬を得るグラフで頻繁に発生する部分グラフを識別し、その部分グラフの入力と出力を特定し、新しい演算子として再定義することである。 0.73
This is known more broadly in the computer science literature as Frequent Subgraph Mining [8]. これはコンピュータサイエンスの文献において、頻繁なサブグラフマイニングとしてより広く知られている [8]。 0.64
For example: differentiate_wrt(di fferentiate_wrt(Expr ession(’-3*z**5 + 13*z**3 + 41*z 例えば、 differentiate_wrt(di fferentiate_wrt(expr ession(’-3*z**5 + 13*z**3 + 41*z) である。 0.89
**2’),Variable(’z’)),Variable(’z’)) reward = 1 **2’),variable(’z’)),variable(’z’)) reward = 1 0.69
This subgraph can be abstracted into a new operator as follows: diff_wrt_2(p0, p1) = differentiate_wrt(di fferentiate_wrt(p0, p1), p1) diff_wrt_2(p0, p1) = differentiate_wrt(di fferentiate_wrt(p0, p1, p1)
訳抜け防止モード: この部分グラフは新しい演算子に抽象化できる: diff_wrt_2(p0, p1 ) = differentiate_wrt(di fferentiate_wrt(p0 , p1 ) , p1 )
0.71
New operators defined in this way could be introduced into the action space and would provide the possibility of finding shorter graphs to compute the same functions. このように定義された新しい演算子はアクション空間に導入でき、同じ関数を計算するためにより短いグラフを見つけることができる。 0.84
This is similar to the operator abstraction process in Dreamcoder [9]. これはdreamcoder [9]の演算子抽象化プロセスに似ている。 0.75
This would increase the size of the action space and hence the number of possible graphs, however it would reduce the required length of frequently rewarded graphs and hence would have a multiplicative effect in reducing the effective size of the search space. これにより、作用空間のサイズが増加し、可能なグラフの数が増加するが、頻繁に与えられるグラフの必要な長さが減少し、したがって探索空間の有効サイズを減少させる乗法効果がもたらされる。 0.83
3.2 NOISY REWARD 3.2 うるさい報酬 0.51
An additional challenge with this environment is that the rewards are noisy with respect to graph correctness. この環境に対する別の課題は、グラフの正確性に関して報奨がうるさいことである。 0.57
In other words, a particular graph might compute the right answer for a given question but do so in the wrong way. 言い換えると、特定のグラフは与えられた質問に対する正しい答えを計算するが、間違った方法でそうするかもしれない。 0.77
For example: Is 5340 a multiple of 10? 例えば、5340は10の倍数ですか? 0.70
; not(is_prime(Value(’10’))) = True, reward: 1 ; not(is_prime(Value(’10’))) = True, reward: 1 0.94
If the inputs of the problem were changed the same graph may no longer compute the right answer because it is simply performing the wrong operations and so cannot reliably generalize to different inputs. 問題の入力が変更された場合、同じグラフは単に間違った操作を実行しているだけで、異なる入力に確実に一般化できないため、正しい答えを計算できなくなる。 0.79
This effectively means that a positive reward from the environment does not guarantee that the constructed graph is correct. これは効果的に、環境からの肯定的な報酬は、構築されたグラフが正しいことを保証しないことを意味する。
訳抜け防止モード: これは事実上 環境からの肯定的な報酬は、構築されたグラフが正しいことを保証しません。
0.66
4 APPROACH We use Double DQN [10] to learn a value function that maps a state and an action to the expected discounted sum of rewards. 4 アプローチ 我々はDouble DQN [10]を使って、状態とアクションを期待される割引金額にマッピングする値関数を学習する。
訳抜け防止モード: 4 アプローチ ダブルDQN[10]を使用します。 to learn a value function that map a state and an action to the expected discounted sumed sum of rewards。
0.71
An off-policy learning algorithm is used because it simplifies the maintenance of exploration which is critical in the presence of noisy rewards. オフ・ポリシー学習アルゴリズムは、ノイズの多い報酬の存在下で重要な探索のメンテナンスを単純化するため使用される。 0.74
Epsilon-greedy exploration is utilized with a step-wise linear annealing schedule on the value of epsilon. エプシロン・グリーディ探索は、エプシロンの値に関するステップワイズリニアアニーリングスケジュールを用いて行われる。 0.48
We also apply prioritized experience replay [11] to improve the efficiency of learning. また,学習効率を向上させるため,優先体験再生[11]を適用した。 0.75
We sample steps from replay memory with priority directly proportional to the most recently computed TDerror. 我々は、最近計算されたTDerrorに直接比例して、メモリの再生からステップをサンプリングする。 0.62
After every training batch, we re-compute replay priorities for both the steps used to construct the batch and an additional random sample of steps from the replay buffer. トレーニングバッチ毎に、バッチの構築に使用するステップと、リプレイバッファから追加されるランダムなステップのサンプルの両方に対して、リプレイ優先度を再計算します。 0.60
The additional random sample is taken to encourage all replay priorities to remain consistent with the current model parameters, even if they haven’t been used to construct a training batch in some time. 追加のランダムサンプルは、たとえトレーニングバッチの構築にしばらく使用されていなくても、リプレイの優先度が現在のモデルパラメータと一致し続けるように促すために取られます。 0.76
We initialize the replay buffer with trajectories (containing up to 50k steps) collected by a uniform random policy, where a one-to-one balance is kept between trajectories with positive reward and trajectories with 0 reward. 我々は、一様ランダムポリシーにより収集された軌道(最大50Kステップを含む)でリプレイバッファを初期化し、正の報酬を持つ軌道と0の報酬を持つ軌道との間に1対1のバランスを保つ。 0.66
This balancing is done to prevent a heavy skew towards trajectories with このバランスは、軌道への重い傾斜を防ぐために行われます。 0.68
5 5 0.85
英語(論文から抽出)日本語訳スコア
reward 0, due to reward sparsity in the environment. 報酬0。 環境中の報酬の幅が原因で。 0.61
After an initial period of training on the replay buffer as initialized, new experience is continuously incorporated into the replay buffer. リプレイバッファの初期トレーニングが初期化されてから、リプレイバッファに新たなエクスペリエンスが継続的に組み込まれます。 0.77
However, a one-to-one balance between trajectories with positive reward and 0 reward is maintained since otherwise trajectories with 0 reward would overwhelm the replay buffer. しかし、正の報酬を持つ軌道と0の報酬を持つ軌道との1対1のバランスは維持される。 0.58
The model used in experiments is a transformer encoder [12] with 6 encoder blocks followed by 2 dense layers. 実験で使用されるモデルは、6つのエンコーダブロックと2つの密層を持つトランスエンコーダ[12]である。 0.76
We use 4 attention heads and a hidden layer size of 256. 4つのアテンションヘッドと256の隠蔽層サイズを使用します。 0.70
The dense blocks use a hidden layer size of 256. 密集したブロックは、隠れた層サイズ256を使用する。 0.75
We apply dropout [13] of 0.1 in the Transformer blocks and between the dense layers. 変圧器ブロックおよび密集層間に0.1のドロップアウト[13]を適用する。 0.64
We use a learning rate of 5*10e-5 and a batch size of 512. 学習速度は5*10e-5で、バッチサイズは512です。 0.61
The epsilon value for epsilongreedy exploration is initialized to 0.4 and is linearly annealed to 0.05 by an increment of 2.5*10e-5 per step. エプシロン値は0.4に初期化され、1ステップあたり2.5*10e-5の増量により0.05にリニアアニールされる。 0.66
The full set of hyperparameters used to produce the results reported here is provided in the code (https://github.com/ joepalermo/dm math solvers/blob/master/ hparams-for-paper.cf g). ここで報告される結果を生成するために使用されるハイパーパラメータの全セットは、コードで提供されている(https://github.com/ joepalermo/dm math solvers/blob/master/ hparams-for-paper.cf g)。 0.47
5 RESULTS We conduct experiments on different subsets of modules to evaluate how it affects model performance. 5回目 モジュールの異なるサブセットについて実験を行い,そのモデル性能への影響を評価した。 0.65
For each experiment we run 5 trials with the same hyperparameters and different random seeds (as recommended in Henderson et al 2017 [14]). 各実験では、同じハイパーパラメータと異なるランダムシード(Henderson et al 2017[14]で推奨されている)で5つの試験を実行しています。 0.66
We sample 1.01 million examples from each module under consideration with 800k/200k/10k across train/validation/tes t. 私たちは、各モジュールから800k/200k/10kのサンプルを列車/バリデーション/テストでサンプリングしました。 0.43
The trials are run for 50k steps each except for the trials in the ”Interference” experiment (see below) which are run for 100k steps. 試験は、それぞれ50kステップで行われ、100kステップで実行される“Interference”実験(下記参照)で試行されている。 0.74
In Table 1 we report mean test reward for the median trial. 表1では、中央値試験に対する平均テスト報酬を報告します。 0.66
We define the median trial as the trial for which the mean test reward across modules is the median across trials. 我々は、モジュール間の平均テスト報酬がトライアル間の中央値となるトライアルとして、中央トライアルを定義した。
訳抜け防止モード: 我々は、中級審理を、その審理と定義する。 モジュール間の平均テスト報酬は トライアル間の中央値です
0.69
In appendix B we report results from all trials and also provide validation curves corresponding to the results reported in Table 1. 付録Bでは、全ての試験の結果を報告するとともに、表1で報告された結果に対応する検証曲線を提供する。 0.69
In our experiments we consider only the uncomposed modules. 実験では、合成されていないモジュールのみを検討する。 0.58
Composed modules are distinguished by containing much longer problems (they are the modules suffixed by ” composed” or ” compose”). 構成されたモジュールは、はるかに長い問題を含むことで区別される(それらは“compose”または” compose”によって接尾辞されるモジュールである)。
訳抜け防止モード: 構成されたモジュールは、はるかに長い問題を含むことで区別されます。 または ” compose ” )。
0.74
Based on preliminary experiments, the methods employed here do not perform well on the composed modules due to the increased challenge of combinatorial explosion. 予備実験の結果, 組合せ爆発の課題が増加するため, 本手法は構成モジュールではうまく動作しないことがわかった。 0.81
Note also that in the experiments we report here the ”calculus differentiate” module is filtered to remove multivariate problems as this reduces the maximum required graph size (the option to remove this filter is provided as a hyperparameter of the environment). また、ここで報告する実験では、"計算微分"モジュールは、必要となる最大グラフサイズを減らすため、多変量問題を除去するためにフィルタされる(このフィルタを除去するオプションは環境のハイパーパラメータとして提供される)。 0.75
In these experiments we also limit the action space to contain only the 15 operators required to successfully compute correct graphs on the modules selected. これらの実験では、選択したモジュールの正しいグラフをうまく計算するのに必要な15の演算子のみを含むようにアクション空間を制限します。
訳抜け防止モード: これらの実験では 選択されたモジュールの正しいグラフをうまく計算するのに必要な15のオペレータのみを含むアクションスペース。
0.87
The list of operators used is provided in appendix B.2. 使用される演算子のリストは appendix b.2 で提供されている。 0.63
In our first experiment we train on all uncomposed modules simultaneously and observe significant interference between modules reflected by lower final test performance than in smaller subsets of modules. 最初の実験では、すべての未処理モジュールを同時にトレーニングし、最終テストのパフォーマンスが小さいモジュールよりも低いモジュール間で大きな干渉を観測しました。 0.74
We hypothesize that by including multiple modules in which answers to problems are similarly expressed, interference between modules is magnified. 問題に対する回答が同様に表現される複数のモジュールを含めることで、モジュール間の干渉が拡大する、という仮説を立てる。 0.68
For example, the modules ”numbers is factor” and ”numbers is prime” both have true/false answers. 例えば、加群 ”numbers is factor” と “numbers is prime” はともに真/偽の答えを持つ。 0.79
In the case in which both modules are trained on simultaneously the operators ”divides” and ”is prime” respectively will be frequently misused during exploration (e g Is 5340 a multiple of 10? 両方のモジュールが同時にトレーニングされた場合、それぞれ演算子である“divides”と“is prime”は、探索中に頻繁に誤用される(例えば、5340は10の倍数か? 0.80
not(is prime(Value(’10’))) = True, which results in a positive reward). not(is prime(Value(’10’)) = True は正の報酬をもたらす。 0.66
To investigate this hypothesis we select two additional subsets of modules. この仮説を調べるために、モジュールの2つの追加部分集合を選択する。 0.56
The first of these module subsets contains ”numbers is factor” and ”numbers is prime”, and we refer to it as the ”Inteference” experiment. これらの加群のうち最初の部分集合は "numbers is factor" と "numbers is prime" を含み、これを "Inteference" 実験と呼ぶ。 0.80
The second contains ”numbers is prime”, ”numbers list prime factors”, ”numbers calculus differentiate”, ”numbers div remainder”, and ”numbers gcd”, and we refer to it as the ”No Interference” experiment. 2つ目は、"numbers is prime"、"numbers list prime factor"、"numbers calculus differentiate"、"numbers div rest"、"numbers gcd"を含み、"No Interference"実験と呼ぶ。
訳抜け防止モード: 2つめは、”number is prime ”, ” numbers list prime factors ” を含む。 数値計算は ”, ” 数 div rest ” を区別する。 and ” number gcd ”, and 私たちはそれを“干渉なし”実験と呼んでいる。
0.82
The modules in the ”Interference” experiment are selected because the form of the answers in those modules are both true/false and so will result in the type of collisions described above (i.e. 中間”実験のモジュールは、これらのモジュールの答えの形式が真/偽であり、上述の衝突のタイプ(すなわち、衝突のタイプ)になるため選択される。 0.81
noisy rewards). The modules in the ”No Interference” experiment are selected because the form of the answers in those modules is such that they are unlikely to result in the type of collisions we describe above. うるさい報酬)。 no interference” 実験のモジュールは、これらのモジュールの答えの形式が、上述したような衝突のタイプにつながる可能性は低いため、選択されます。 0.62
However, notably the final results show that ”numbersis prime” had better performance in the ”Interference” experiment which is evidence against the hypothesis. しかし、最終結果は、"numbersis prime" が"interference" 実験でより優れた性能を示しており、これは仮説に反する証拠である。 0.76
6 6 0.85
英語(論文から抽出)日本語訳スコア
Module Test Results モジュール 試験結果 0.79
Interference No Interference All Uncomposed Modules 干渉なし全ての非複合モジュール 0.80
numbers is factor numbers is prime 数字は因子数 は素数です 0.73
numbers list prime factors calculus differentiate polynomials evaluate numbers div remainder 素数リスト 素数 計算による多項式の差分残差の評価 0.60
0.7800 1.000 0.7800 1.000 0.50
0.7382 1.000 0.8511 0.7382 1.000 0.8511 0.47
0.3669 0.6567 1.000 0.3350 0.9517 0.8159 0.9990 1.000 0.1124 0.8253 0.2660 0.6830 Table 1: Test reward per module for the median trial of each experiment. 0.3669 0.6567 1.000 0.3350 0.9517 0.8159 0.8190 0.1124 0.8253 0.2660 0.6830 Table 1: 各実験の中央値試験のためのモジュール毎のテスト報酬。 0.55
1.000 1.000 1.000 1.000 0.50
- - - - 0.9179 - - - - 0.9179 0.80
numbers gcd numbers lcm 数字 gcd番号 lcm 0.77
algebra linear 1d algebra polynomial roots 代数線型1d 代数多項式根 0.70
algebra linear 2d Mean Reward across Modules 代数線型2次元 モジュール間の平均リワード 0.72
0.8900 6 DISCUSSION 0.8900 6 討論 0.62
There are two main contributions of this paper. この論文には2つの主な貢献がある。 0.76
We have introduced a new reinforcement learning environment by interpreting the DeepMind Mathematics Dataset as a problem in program synthesis. 我々は,DeepMind数学データセットをプログラム合成の問題として解釈することで,新たな強化学習環境を導入した。 0.69
We have also trained a baseline model on several subsets of the uncomposed modules despite the dual challenge of combinatorial explosion and noisy rewards. また、組合せ爆発とノイズ報酬という2つの挑戦にもかかわらず、未解決モジュールのいくつかの部分集合に対するベースラインモデルを訓練した。 0.61
From preliminary experiments it’s clear that performance on significantly longer graphs is poor, however we believe that by implementing subgraph abstraction (as described in section 3.1.2) performance on longer graphs could be significantly improved. 予備実験から、かなり長いグラフのパフォーマンスが劣っていることは明らかですが、サブグラフの抽象化(セクション3.1.2で説明されているように)を実装することで、より長いグラフのパフォーマンスを大幅に改善できると考えています。 0.63
Furthermore we suspect that content based attention (as in [15]) could be a useful architectural component to integrate into the learned model due to the dynamic nature of the action space. さらに、コンテンツベースの注意([15]のように)は、アクション空間のダイナミックな性質のため、学習モデルに統合する上で有用なアーキテクチャコンポーネントであると考えています。 0.80
We consider these to be interesting topics for future research. 我々はこれらを今後の研究の興味深いトピックだと考えている。 0.59
CODE We provide a light-weight repository containing an implementation of the reinforcement learning environment and setup instructions: https://github.com/J ohnnyYeeee/math prog synth env コード 強化学習環境の実装とセットアップ手順を含む軽量リポジトリを提供する。 https://github.com/j ohnnyyeeee/math prog synth env。
訳抜け防止モード: コード 強化学習環境の実装を含む軽量リポジトリを提供する。 https://github.com/J ohnnyYeeee/math prog synth env
0.68
We also provide the full code used to produce the results reported here: https://github.com/j oepalermo/dm math solvers https://github.com/j oepalermo/dm 算数解法。 0.26
ACKNOWLEDGMENTS The authors would like to thank Alex Krizhevsky, Rayhane Mama, Hashiam Kadhim, Marc Tyndel, and Ragavan Thurairatnam for helpful discussions. 裏書き 著者はAlex Krizhevsky氏、Rayhane Mama氏、Hashiam Kadhim氏、Marc Tyndel氏、Ragavan Thurairatnam氏による有益な議論に感謝したい。 0.49
7 7 0.85
英語(論文から抽出)日本語訳スコア
REFERENCES [1] David Saxton, Edward Grefenstette, Felix Hill, and Pushmeet Kohli. ReferenceS [1] David Saxton、Edward Grefenstette、Felix Hill、Pushmeet Kohli。 0.67
Analysing Mathematical Reasoning Abilities of Neural Models. 神経モデルの数学的推論能力の解析 0.71
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
[2] Imanol Schlag, Paul Smolensky, Roland Fernandez, Nebojsa Jojic, Juergen Schmidhuber, and Jianfeng Gao. Imanol Schlag、Paul Smolensky、Roland Fernandez、Nebojsa Jojic、Juergen Schmidhuber、Jianfeng Gao。 0.58
Enhancing the Transformer With Explicit Relational Encoding for Math Problem Solving. 数学問題解決のための明示的関係符号化による変換器の強化 0.68
arXiv preprint arXiv:1910.06611, 2019. arXiv preprint arXiv:1910.06611, 2019 0.81
[3] Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse, Jacob Jackson, Heewoo Jun, Tom B. Tom Henighan氏、Jared Kaplan氏、Mor Katz氏、Mark Chen氏、Christopher Hesse氏、Jacob Jackson氏、Heewoo Jun氏、Tom B氏。 0.79
Brown, Prafulla Dhariwal, Scott Gray, Chris Hallacy, Benjamin Mann, Alec Radford, Aditya Ramesh, Nick Ryder, Daniel M. Ziegler, John Schulman, Dario Amodei, and Sam McCandlish. Brown, Prafulla Dhariwal, Scott Gray, Chris Hallacy, Benjamin Mann, Alec Radford, Aditya Ramesh, Nick Ryder, Daniel M. Ziegler, John Schulman, Dario Amodei, Sam McCandlish 0.81
Scaling Laws for Autoregressive Generative Modeling, 2020. 自動回帰生成モデリングのためのスケーリング法則、2020年。 0.63
URL https://arxiv.org/ab s/2010.14701. URL https://arxiv.org/ab s/2010.14701 0.44
[4] Daniel Andor, Luheng He, Kenton Lee, and Emily Pitler. Daniel Andor氏、Luheng He氏、Kenton Lee氏、Emily Pitler氏。 0.64
2019. Giving BERT a Calculator: Finding Operations and Arguments with Reading Comprehension. 2019. BERT a calculator: Finding Operations and Arguments with Reading Comprehension。 0.78
arXiv preprint arXiv:1909.00109 arXiv preprint arXiv:1909.00109 0.59
[5] Nitish Gupta, Kevin Lin, Dan Roth, Sameer Singh, and Matt Gardner. 5]Nitish Gupta氏、Kevin Lin氏、Dan Roth氏、Sameer Singh氏、Matt Gardner氏。 0.78
2020. Neural Module Networks for Reasoning over Text. 2020. テキストによる推論のためのニューラルモジュールネットワーク。 0.79
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
[6] Sumit Gulwani, Alex Polozov and Rishabh Singh. [6]Summit Gulwani、Alex Polozov、Rishabh Singh。 0.74
Program Synthesis. Foundations and Trends in Programming Languages, vol. プログラム合成。 プログラミング言語の基礎と動向(その2) 0.63
4, no. 1-2, pp. 4位はノー。 1-2, pp。 0.74
1–119, 2017. 1–119, 2017. 0.84
URL https://www.microsof t.com/en-us/research /publication/program -synthesis URL https://www.microsof t.com/en-us/research /publication/プログラム合成 0.25
[7] Guido Van Rossum, & Fred L. Drake, Jr. Python reference manual. [7]guido van rossum, and fred l. drake, jr. pythonリファレンスマニュアル。 0.76
1995. Centrum voor 1995. Centrum voor 0.85
Wiskunde en Informatica Amsterdam. アムステルダム・インフォマティカ所属。 0.32
[8] Chuntao Jiang, Frans Coenen, and Michele Zito. [8]Chuntao Jiang、Frans Coenen、Michele Zito。 0.56
A Survey of Frequent Subgraph Mining Algorithms. 頻繁なサブグラフマイニングアルゴリズムの調査。 0.52
Knowledge Engineering Review, vol. 28, pp. 専門は知識工学。 28、p。 0.54
75-105, 2013. 75-105, 2013. 0.84
URL https://livrepositor y.liverpool.ac.uk/30 05601/1/ker-jct-6-Ma y-11.pdf URL https://livrepositor y.liverpool.ac.uk/30 05601/1/ker-jct-6-Ma y-11.pdf 0.20
[9] Kevin Ellis, Catherine Wong, Maxwell Nye, Mathias Sable-Meyer, Luc Cary, Lucas Morales, Luke Hewitt, Armando Solar-Lezama, and Joshua B. Tenenbaum. ケビン・エリス、キャサリン・ウォン、マクスウェル・ナイ、マティアス・サバージ=マイヤー、Luc Cary、ルーカス・モラレス、ルーク・ヒューイット、Armando Solar-Lezama、Joshua B. Tenenbaum。 0.59
DreamCoder: Growing generalizable, interpretable knowledge with wake-sleep Bayesian program learning. DreamCoder: ウェイクリープベイジアンプログラム学習による一般化可能な解釈可能な知識の育成。 0.62
arXiv:2006.08381, 2020. arXiv:2006.08381, 2020 0.70
[10] Hado van Hasselt, Arthur Guez, and David Silver. Hado van Hasselt氏、Arthur Guez氏、David Silver氏。 0.62
Deep Reinforcement Learning with Double Q-Learning. ダブルq学習による深層強化学習 0.82
In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, 2016. 第30回 aaai conference on artificial intelligence, 2016 参加報告 0.51
URL http://arxiv.org/abs /1509.06461. URL http://arxiv.org/abs /1509.06461 0.43
[11] Tom Schaul, John Quan, Ioannis Antonoglou, and David Silver. Tom Schaul氏、John Quan氏、Ioannis Antonoglou氏、David Silver氏。 0.66
Prioritized Experience Replay, 2015. 優先体験再生。 2015. 0.73
URL https://arxiv.org/ab s/1511.05952. URL https://arxiv.org/ab s/1511.05952 0.46
[12] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 12]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin。 0.76
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Advances in Neural Information Processing Systems, pp. ニューラル・インフォメーション・プロセッシング・システムにおける進歩, pp. 0.59
6000–6010, 2017. 6000–6010, 2017. 0.84
[13] Nitish Srivastava, Geoffrey E Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Nitish Srivastava氏、Geoffrey E Hinton氏、Alex Krizhevsky氏、Ilya Sutskever氏、Ruslan Salakhutdinov氏。 0.64
Dropout: a simple way to prevent neural networks from overfitting. dropout: ニューラルネットワークの過剰フィットを防ぐシンプルな方法。 0.73
Journal of Machine Learning Research, 15(1):1929–1958, 2014. Journal of Machine Learning Research, 15(1):1929–1958, 2014 0.91
[14] Peter Henderson, Riashat Islam, Philip Bachman, Joelle Pineau, Doina Precup, and David 14]ピーター・ヘンダーソン、リシュアット・イスラム、フィリップ・バッハマン、ジョエル・ピノー、ドイナ・プレク、ダビデ 0.73
Meger. Deep Reinforcement Learning that Matters. Meger 深層強化学習(Deep Reinforcement Learning)。 0.57
arXiv preprint arXiv:1709.06560, 2017. arXiv preprint arXiv:1709.06560, 2017 0.79
[15] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. [15]Dzmitry Bahdanau,kyunghyun Cho,Yoshua Bengio。 0.66
Neural machine translation by ニューラルネットワークによる翻訳 0.65
jointly learning to align and translate. 一致と翻訳を共同で学べます 0.67
CoRR, abs/1409.0473, 2014. CoRR, abs/1409.0473, 2014 0.77
8 8 0.85
英語(論文から抽出)日本語訳スコア
A ENVIRONMENT A.1 PREDEFINED OPERATORS 環境 A.1 先行運転者 0.41
We provide here a list of the predefined operators. ここでは、事前定義された演算子のリストを提供する。 0.54
The numbers associated to them indicates their index in the action space. 関連付けられた数字は、アクション空間におけるインデックスを示す。 0.78
They are also provided along with a type signature (e g f(x: type of x) -> return type). 型シグネチャ(例: f(x: type of x) -> return type)とともに提供される。 0.60
0. lookup_value(mapping : Dict[Variable: Value], key: Variable) -> 1. lookup_value(マッピング: Dict[変数:値], key:変数) -> 0.76
object Given a dictionary and a key to query it, it returns the corresponding value. object 辞書とそれを照会するためのキーが与えられたら、対応する値を返す。 0.79
1. solve_system(system: List[Equation]) -> Dict[Variable: Value] 1.solv_system(system : List[Equation]) -> Dict[変数:Value] 0.86
Given a system of equations returns a dictionary mapping variables to values. 与えられた方程式系は変数を値にマッピングする辞書を返す。 0.74
2. append(system: List[Equation], equation: Equation) -> List[ 2. append(system: list[equation], equation: equation) -> list[ 0.78
Equation] Given a list of equations, appends a new equation to the end of that list. 方程式] 方程式のリストが与えられたら、そのリストの最後に新しい方程式を追加する。 0.79
3. append_to_empty_list (equation: Equation) -> List[Equation] append_to_empty_list (equation: Equation) -> List[Equation] 0.84
Returns a new list containing only the given equation. 与えられた方程式のみを含む新しいリストを返す。 0.83
4. factor(inpt: Expression) -> Expression 4. Factor(inpt: Expression) -> Expression 0.84
Converts a polynomial into irreducible factors over rational numbers. 多項式を有理数上の既約因子に変換する。 0.67
5. differentiate(expres sion: Expression) -> Expression 5. differentiate(expres sion: expression) -> expression 0.82
Returns the first derivative of a polynomial. 多項式の最初の微分を返します。 0.66
(This function assumes univariate) (この機能は単変数である) 0.65
6. mod(numerator: Value, denominator: Value) -> Value 6. mod(numerator: Value, denominator: Value) -> Value 0.85
Returns the remainder of the numerator divided by the denominator denominator (複数形 denominators) 0.29
7. gcd(x: Value, y: Value) -> Value 7. gcd(x: Value, y: Value) -> Value 0.85
Returns the greatest common divisor of x and y x と y の最大の共通因子を返す 0.73
8. divides(numerator: Value, denominator: Value) -> bool 8. divides(numerator: value, denominator: value) -> bool 0.84
Returns True if denominator is divisible by numerator denominator が numerator で割り切れるときに True を返す 0.78
9. is_prime(x: Value) -> bool 9. is_prime(x: value) -> bool 0.99
Returns True if x is prime and False otherwise x が素数で False がなければ True を返す 0.70
10. lcm(x: Value, y: Value) -> Value 10. lcm(x: Value, y: Value) -> Value 0.85
Returns the least common multiple of x and y x と y の最小共通倍数を返す 0.70
11. lcd(x: Rational, y: Rational) -> Value 11. lcd(x: Rational, y: Rational) -> Value 0.85
Given two rationals return the least common denominator 2つの有理が与えられたとき、最小共通分母を返す 0.48
12. prime_factors(n: Value) -> Set[Value] 12. prime_factors(n: Value) -> Set[Value] 0.97
Returns a set of all prime factors of n n のすべての素因子の集合を返す 0.75
13. evaluate_function(fu nction_definition: Function, function_argument Evaluation_function( function_definition: Function, function_argument 0.65
: Expression) -> Value Evaluates a function by substituting the variable in function definition by the functionargument. 表現) -> 値 関数定義の変数を関数アグメンテーションで置換することで関数を評価する。 0.66
function argument can either look like ’2’ or ’f(2)’ 関数引数は ’2’ か ’f(2)’ のどちらかに見える 0.77
9 9 0.85
英語(論文から抽出)日本語訳スコア
14. not_op(x: bool) -> bool 14. not_op(x: bool) -> bool 1.00
Returns the inverse of a boolean. boolean の逆値を返す。 0.71
15. differentiate_wrt(ex pression: Expression, variable: Variable) -> 15. differentiate_wrt(式:式、変数:変数) -> 0.86
Expression Returns the first derivative of an expression with respect to a given variable. 表現 与えられた変数に対する式の最初の導関数を返します。 0.73
16. make_equation(expres sion1: Expression, expression2: Expression) -> 16. make_equation(expres sion1: Expression, Expression2: Expression) -> 0.91
Equation Returns an equation where expression1 is set equal to expression2. 方程式 expression1 が expression2 に等しく設定された式を返す。 0.69
17. simplify(inpt: object) -> object 17. simple(inpt: object) -> object 0.81
Returns a simplification of inpt based on sympy heuristics. sympy ヒューリスティックに基づく inpt の単純化を返します。 0.71
18. make_function(expres sion1: Expression, expression2: Expression) -> 18. make_function(expres sion1: Expression, Expression2: Expression) -> 0.91
Function Returns a function where expression1 is set to be equal to expression2. 機能 expression1 が expression2 に等しいように設定された関数を返します。 0.77
19. replace_arg(function : Function, var: Variable) -> Function 19. replace_arg(function : function, var: variable) -> function 0.94
Replaces the argument in function with the given variable. 関数の引数を与えられた変数に置き換える。 0.76
20. lookup_value_equatio n(mapping: Dict[Variable: Value], key: lookup_value_equatio n(mapping: Dict[変数: Value], key: 0.85
Variable) -> Equation Given a dictionary and a key to query it, it returns an equation of ”key = value” 変数) ->方程式 辞書とクエリするキーが与えられたら、"key = value"という方程式を返します。 0.78
21. extract_isolated_var iable(equation: Equation) -> Variable 21. extract_isolated_var iable(equation: equation) -> variable 0.85
Given an equation it returns the isolated variable. 方程式が与えられると、孤立変数を返す。 0.73
22. substitution_left_to _right(arb: object, eq: Equation) -> object substitution_left_to _right(arb: object, eq: Equation) -> object 0.84
Returns the arb with all found instances of the equation’s left hand side substituted by the equation’s right hand side. arbは、方程式の右手に代えて、方程式の左手側のすべての例で返される。 0.64
A.2 SUPPORTED MODULES A.2 支援モジュール 0.63
Here is the full list of supported modules: numbers__is_factor numbers__is_prime numbers__list_prime_ factors calculus__differenti ate polynomials__evaluat e numbers__div_remaind er numbers__gcd numbers__lcm algebra__linear_1d algebra__polynomial_ roots algebra__linear_2d algebra__linear_1d_c omposed algebra__linear_2d_c omposed algebra__polynomial_ roots_composed calculus__differenti ate_composed numbers__div_remaind er_composed numbers__gcd_compose d numbers__is_factor_c omposed numbers__is_prime_co mposed numbers__lcm_compose d numbers__list_prime_ factors_composed polynomials__evaluat e_composed polynomials__compose Here is the full list of supported modules: numbers__is_factor numbers__is_prime numbers__list_prime_ factors calculus__differenti ate polynomials__evaluat e numbers__div_remaind er numbers__gcd numbers__lcm algebra__linear_1d algebra__polynomial_ roots algebra__linear_2d algebra__linear_1d_c omposed algebra__linear_2d_c omposed algebra__polynomial_ roots_composed calculus__differenti ate_composed numbers__div_remaind er_composed numbers__gcd_compose d numbers__is_factor_c omposed numbers__is_prime_co mposed numbers__lcm_compose d numbers__list_prime_ factors_composed polynomials__evaluat e_composed polynomials__compose 0.28
10 10 0.85
英語(論文から抽出)日本語訳スコア
B EXPERIMENTS B.1 FULL TEST RESULTS B 実験 b.1 全試験結果 0.62
Full Test Results for All Uncomposed Modules 非合成モジュールの完全なテスト結果 0.76
Module numbers is factor numbers is prime モジュール 数字は因子数 は素数です 0.77
numbers list prime factors calculus differentiate polynomials evaluate numbers div remainder 素数リスト 素数 計算による多項式の差分残差の評価 0.60
numbers gcd numbers lcm 数字 gcd番号 lcm 0.77
algebra linear 1d algebra polynomial roots 代数線型1d 代数多項式根 0.70
algebra linear 2d Mean reward across modules 代数線型2次元 モジュール間の平均報酬 0.76
Run 1 0.2907 0.7294 1.000 0.3238 0.9990 1.000 0.9981 1.000 0.7470 0.4443 0.8110 0.6973 Run 1 0.2907 0.7294 1.000 0.3238 0.9990 1.000 0.9981 1.000 0.7470 0.4443 0.8110 0.6973 0.45
Run 2 0.5239 1.000 1.000 0.3611 0.9950 1.000 0.8132 1.000 0.7470 0.7159 0.1400 0.6816 Run 2 0.5239 1.000 1.000 0.3611 0.9950 1.000 0.8132 1.000 0.7470 0.7159 0.1400 0.6816 0.45
Run 3 0.2798 0.4860 1.000 0.6095 0.0000 0.7944 0.9317 1.000 1.000 0.9457 0.9600 0.6629 Run 3 0.2798 0.4860 1.000 0.6095 0.0000 0.7944 0.9317 1.000 1.000 0.9457 0.9600 0.6629 0.45
Run 4 0.4807 1.000 1.000 0.3377 0.9942 1.000 1.000 1.000 1.000 0.9143 1.000 0.8843 Run 4 0.4807 1.000 1.000 0.3377 0.9942 1.000 1.000 1.000 1.000 0.9143 1.000 0.8843 0.45
Run 5 0.3669 0.6567 1.000 0.3350 0.9517 1.000 0.9990 1.000 0.1124 0.8253 0.2660 0.6830 Run 5 0.3669 0.6567 1.000 0.3350 0.9517 1.000 0.9990 1.000 0.1124 0.8253 0.2660 0.6830 0.45
Run 5 0.7800 1.000 0.8900 5 0.7800 1.000 0.8900 0.46
Run 5 0.7382 1.000 0.8511 1.000 1.000 0.9179 Run 5 0.7382 1.000 0.8511 1.000 1.000 0.9179 0.50
Table 2: Test reward per module for runs on all uncomposed modules 表2:すべての未構成モジュールで実行するモジュール毎のテスト報酬 0.84
Full Test Results for ”Interference” Experiment 干渉」実験のための全試験結果 0.84
Module numbers is factor numbers is prime モジュール 数字は因子数 は素数です 0.77
Mean reward across modules モジュール間の平均報酬 0.80
Run 1 0.5155 0.5229 0.5192 実行 1 0.5155 0.5229 0.5192 0.56
Run 2 0.7893 0.9980 0.8937 2.7893 0.9980 0.8937 0.49
Run 3 0.9383 0.5258 0.7321 走行3 0.9383 0.5258 0.7321 0.48
Run 4 0.9922 1.000 0.9961 実行 4 0.9922 1.000 0.9961 0.52
Table 3: Test reward per module for ”Interference” experiment 表3:"interference"実験のためのモジュール毎のテスト報酬 0.87
Full Test Results for ”No Interference” Experiment No Interference"実験の完全なテスト結果 0.78
Module numbers is prime モジュール 数字は素数です 0.68
numbers list prime factors calculus differentiate numbers div remainder 素数リスト 素数 calculus (複数形 calculuss) 0.62
numbers gcd Mean reward across modules 番号 gcd モジュール間の平均報酬 0.79
Run 1 0.5563 1.000 0.8112 1.000 0.9990 0.8733 Run 1 0.5563 1.000 0.8112 1.000 0.9990 0.8733 0.50
Run 2 0.5400 1.000 0.9572 1.000 1.000 0.8994 Run 2 0.5400 1.000 0.9572 1.000 1.000 0.8994 0.50
Run 3 0.7694 1.000 1.000 1.000 1.000 0.9539 Run 3 0.7694 1.000 1.000 1.000 1.000 0.9539 0.50
Run 4 1.000 1.000 0.9653 1.000 1.000 0.9931 Run 4 1.000 1.000 0.9653 1.000 1.000 0.9931 0.50
Table 4: Test reward per module for ”No Interference” experiment 表4: “No Interference” 実験のためのモジュール毎のテスト報酬 0.88
B.2 OPERATORS SELECTED FOR EXPERIMENTS 実験に選定されたb.2オペレーター 0.39
1. lookup value 2. solve system 3. append 4. append to empty list 5. factor 6. differentiate 7. mod 8. gcd 9. divides 10. is prime 11. lcm 12. lcd 1. ルックアップ値 2. システム 3. 解決システム 3. 追加4 空リストへの追加 5. 要素 6. 差別化 7. mod 8. gcd 9. 分割10. is prime 11. lcm 12. lcd 0.67
11 11 0.85
英語(論文から抽出)日本語訳スコア
13. prime factors 14. evaluate function 15. not op 13. 素因 14. 機能評価15. op 0.68
B.3 VALIDATION CURVES In the below graphs the dark centre line shows the median of the five trials and the shaded area bounds the 10th and 90th percentiles based on linear interpolation. B.3 検証曲線 下記のグラフでは、暗中心線は5つの試行の中央値を示し、日陰領域は線形補間に基づいて10番目と90番目のパーセンタイルの境界である。 0.63
Figure 2: Reward for all uncomposed modules over 50000 steps. 図2: 50000以上の未解決のモジュールのリワード。 0.63
12 12 0.85
英語(論文から抽出)日本語訳スコア
Figure 3: Reward for ”Interference” experiment over 100000 steps 図3: “Interference” 実験に10万以上のステップを振り返る 0.80
Figure 4: Reward for ”No Interference” experiment over 50000 steps. 図4: 50000ステップの“no interference”実験に対する報酬。 0.70
13 13 0.85
                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。