論文の概要、ライセンス

# (参考訳) 非Iterative Diverse Candidate 生成のためのフローネットワークに基づく生成モデル [全文訳有]

Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation ( http://arxiv.org/abs/2106.04399v1 )

ライセンス: CC BY 4.0
Emmanuel Bengio, Moksh Jain, Maksym Korablyov, Doina Precup, Yoshua Bengio(参考訳) 本稿では, 対象物を生成する確率が, 対象物に対して与えられた正の報酬に比例するように, 行動列から対象物を生成する確率的ポリシー(分子グラフなど)を学習する問題について述べる。 標準的な戻り値の最大化は単一の戻り値最大化列に収束する傾向にあるが、様々な高戻り値の解をサンプリングしたい場合もある。 例えば、ブラックボックスの関数最適化では、ラウンド数が少ない場合、それぞれが大きなクエリのバッチを持つ場合、例えば新しい分子の設計において、バッチは多様でなければならない。 また、これをエネルギー関数を生成分布に近似変換する問題と見なすこともできる。 MCMC法はそれを実現することができるが、高価であり、一般的には局所探査のみを行う。 代わりに、生成ポリシーのトレーニングは、トレーニング中の検索コストを償却し、迅速な生成へと導く。 時間差分学習の知見を用いて、生成過程をフローネットワークとして見た上で、GFlowNetを提案する。これにより、異なる軌道が同じ最終状態(例えば、ある分子グラフを生成するために原子を逐次追加する方法)を扱いやすくする。 本研究では, 流路の集合を流れとし, 流れの整合性方程式を学習対象に変換し, ベルマン方程式の時間差分法への鋳造と類似した。 提案する目的のグローバルな最小限は、所望の分布から抽出したポリシーを導出し、報酬関数に多くのモードがある単純な領域において、GFlowNetの性能と多様性の向上を実証し、分子合成タスクで示す。

This paper is about the problem of learning a stochastic policy for generating an object (like a molecular graph) from a sequence of actions, such that the probability of generating an object is proportional to a given positive reward for that object. Whereas standard return maximization tends to converge to a single return-maximizing sequence, there are cases where we would like to sample a diverse set of high-return solutions. These arise, for example, in black-box function optimization when few rounds are possible, each with large batches of queries, where the batches should be diverse, e.g., in the design of new molecules. One can also see this as a problem of approximately converting an energy function to a generative distribution. While MCMC methods can achieve that, they are expensive and generally only perform local exploration. Instead, training a generative policy amortizes the cost of search during training and yields to fast generation. Using insights from Temporal Difference learning, we propose GFlowNet, based on a view of the generative process as a flow network, making it possible to handle the tricky case where different trajectories can yield the same final state, e.g., there are many ways to sequentially add atoms to generate some molecular graph. We cast the set of trajectories as a flow and convert the flow consistency equations into a learning objective, akin to the casting of the Bellman equations into Temporal Difference methods. We prove that any global minimum of the proposed objectives yields a policy which samples from the desired distribution, and demonstrate the improved performance and diversity of GFlowNet on a simple domain where there are many modes to the reward function, and on a molecule synthesis task.
公開日: Tue, 8 Jun 2021 14:21:10 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] G L . 8 ] G L。 0.81
s c [ 1 v 9 9 3 4 0 sc [ 1 v 9 9 3 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation 非Iterative Diverse Candidate 生成のためのフローネットワークに基づく生成モデル 0.78
Emmanuel Bengio1,2, Moksh Jain1,5, Maksym Korablyov1 Emmanuel Bengio1,2, Moksh Jain1,5, Maksym Korablyov1 0.66
Doina Precup1,2,4, Yoshua Bengio1,3 Doina Precup1,2,4,Yoshua Bengio1,3 0.50
1Mila, 2McGill University, 3Université de Montréal, 4DeepMind, 5Microsoft 1Mila, 2McGill University, 3Université de Montréal, 4DeepMind, 5Microsoft 0.85
Abstract This paper is about the problem of learning a stochastic policy for generating an object (like a molecular graph) from a sequence of actions, such that the probability of generating an object is proportional to a given positive reward for that object. 概要 本稿では, 対象物を生成する確率が, 対象物に対して与えられた正の報酬に比例するように, 行動列から対象物を生成する確率的ポリシー(分子グラフなど)を学習する問題について述べる。 0.65
Whereas standard return maximization tends to converge to a single return-maximizing sequence, there are cases where we would like to sample a diverse set of high-return solutions. 標準的な戻り値の最大化は単一の戻り値最大化列に収束する傾向にあるが、様々な高戻り値の解をサンプリングしたい場合もある。 0.69
These arise, for example, in black-box function optimization when few rounds are possible, each with large batches of queries, where the batches should be diverse, e g , in the design of new molecules. 例えば、ブラックボックス関数の最適化では、ラウンドが少ない場合、それぞれが大きなクエリのバッチを持ち、バッチは、例えば新しい分子の設計において多様性を持つべきである。
訳抜け防止モード: これらの現象は例えば 黒色で - ラウンドが少ない場合のボックス関数の最適化 それぞれに大量のクエリがあり バッチは、例えば、新しい分子の設計において、多様であるべきです。
0.73
One can also see this as a problem of approximately converting an energy function to a generative distribution. また、これをエネルギー関数を生成分布に近似変換する問題と見なすこともできる。 0.75
While MCMC methods can achieve that, they are expensive and generally only perform local exploration. MCMC法はそれを実現することができるが、高価であり、一般的には局所探査のみを行う。 0.58
Instead, training a generative policy amortizes the cost of search during training and yields to fast generation. 代わりに、生成ポリシーのトレーニングは、トレーニング中の検索コストを償却し、迅速な生成へと導く。 0.68
Using insights from Temporal Difference learning, we propose GFlowNet, based on a view of the generative process as a flow network, making it possible to handle the tricky case where different trajectories can yield the same final state, e g , there are many ways to sequentially add atoms to generate some molecular graph. 時間差分学習の知見を用いて, 生成過程をフローネットワークとして捉えたGFlowNetを提案し, 異なる軌道が同じ最終状態, 例えば分子グラフを生成するために原子を逐次付加する方法が多々存在するという難解なケースを扱えるようにした。 0.77
We cast the set of trajectories as a flow and convert the flow consistency equations into a learning objective, akin to the casting of the Bellman equations into Temporal Difference methods. 本研究では, 流路の集合を流れとし, 流れの整合性方程式を学習対象に変換し, ベルマン方程式の時間差分法への鋳造と類似した。 0.81
We prove that any global minimum of the proposed objectives yields a policy which samples from the desired distribution, and demonstrate the improved performance and diversity of GFlowNet on a simple domain where there are many modes to the reward function, and on a molecule synthesis task. 提案する目的のグローバルな最小限は、所望の分布から抽出したポリシーを導出し、報酬関数に多くのモードがある単純な領域において、GFlowNetの性能と多様性の向上を実証し、分子合成タスクで示す。 0.79
1 Introduction The maximization of expected return R in reinforcement learning (RL) is generally achieved by putting all the probability mass of the policy π on the highest-return sequence of actions. 1 はじめに 強化学習(RL)における期待リターンRの最大化は、一般に、ポリシー π の全ての確率質量を最も高い反応列に配置することで達成される。 0.72
In this paper, we study the scenario where our objective is not to generate the single highest-reward sequence of actions but rather to sample a distribution of trajectories whose probability is proportional to a given positive return or reward function. 本稿では,与えられた正の帰納関数や報奨関数に比例する確率を持つ軌道の分布をサンプリングする代わりに,行動の最も高い逆列を生成することを目的としているシナリオについて検討する。 0.74
This can be useful in tasks where exploration is important, i.e., we want to sample from the leading modes of the return function. これは、探索が重要であるタスク、すなわち、戻り関数の先頭モードからサンプルしたいタスクで有用である。
訳抜け防止モード: これは探索が重要であるタスク、すなわち、作業において有用である。 戻り関数の先頭モードから サンプルを採取したい
0.70
This is equivalent to the problem of turning an energy function into a corresponding generative model, where the object to be generated is obtained via a sequence of actions. これは、エネルギー関数を対応する生成モデルに変換する問題と等価であり、そこで生成されたオブジェクトは一連のアクションによって得られる。 0.82
By changing the temperature of the energy function (i.e., scaling it multiplicatively) or by taking the power of the return, one can control how selective the generator should be, i.e., only generate from around the highest modes at low temperature or explore more with a higher temperature. エネルギー関数の温度(つまり乗法的に拡大)を変えるか、または戻りのパワーを取ることで、発電機がいかに選択的であるか、すなわち、低温において最も高いモードからのみ生成するか、より高温で探索するかを制御することができる。 0.77
A motivating application for this setup is iterative black-box optimization where the learner has access to an oracle which can compute a reward for a large batch of candidates at each round, e g , in drug-discovery applications. このセットアップのためのモチベーションアプリケーションは、繰り返しブラックボックス最適化であり、学習者は、薬品発見アプリケーションにおいて、各ラウンドで大量の候補に対して報酬を計算できるオラクルにアクセスすることができる。 0.75
Diversity of the generated candidates is particularly important when the oracle is itself uncertain, e g , it may consist of cellular assays which is a cheap proxy for clinical オラクル自体が不確実である場合、例えば、臨床の安価なプロキシである細胞アッセイからなる場合、生成候補の多様性は特に重要である。 0.74
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
trials, or it may consist of the result of a docking simulation (estimating how well a candidate small molecule binds to a target protein) which is a proxy for more accurate but more expensive downstream evaluations (like cellular assays or in-vivo assays in mice). 臨床試験は、ドッキングシミュレーション(候補の小さな分子が標的タンパク質にどれほどよく結合するかを推定する)の結果であり、より正確だがより高価な下流評価(例えばマウスの細胞アッセイやin-vivoアッセイ)のプロキシである。 0.84
When calling the oracle is expensive (e g it involves a biological experiment), a standard way (Angermueller et al , 2020) to apply machine learning in such exploration settings is to take the data already collected from the oracle (say a set of (x, y) pairs where x is a candidate solution an y is a scalar evaluation of x from the oracle) and train a supervised proxy f (viewed as a simulator) which predicts y from x. オラクルを呼び出すのにコストがかかる場合(例えば、生物実験を伴う)、そのような探索環境で機械学習を適用する標準的な方法(angermueller et al , 2020)は、既にoracleから収集されたデータ(例えば、xが候補ソリューションである(x, y)ペアのセット、yはoracleのxのスカラー評価である)を取り込み、yをxから予測する教師付きプロキシf(シミュレータとして見る)を訓練することである。 0.83
The function f or a variant of f which incorporates uncertainty about its value, like in Bayesian optimization (Srinivas et al , 2010; Negoescu et al , 2011), can then be used as a reward function R to train a generative model or a policy that will produce a batch of candidates for the next experimental assays. ベイズ最適化(srinivas et al , 2010 , negoescu et al , 2011)のように、その値に関する不確実性を含む関数 f または f の変種は、次の実験的アッセイの候補のバッチを生成する生成モデルまたはポリシーを訓練するための報酬関数 r として使うことができる。 0.87
Searching for x which maximizes R(x) is not sufficient because we would like to sample for the batch of queries a representative set of x’s with high values of R, i.e., around modes of R(x). R(x) を最大化する x の探索は、R の高値を持つ x の代表集合、すなわち R(x) のモードの周りのクエリのバッチに対してサンプリングしたいので、不十分である。 0.79
Note that alternative ways to obtain diversity exist, e g , with batch Bayesian optimization (Kirsch et al , 2019). 多様性を得るためには、例えば、バッチベイズ最適化(Kirsch et al , 2019)がある。
訳抜け防止モード: 多様性を得る別の方法、例えば、存在することに注意。 バッチベイジアン最適化(Kirsch et al, 2019)。
0.68
An advantage of the proposed approach is that the computational cost is linear in the size of the batch (by opposition with methods which compare pairs of candidates, which is at least quadratic). 提案手法の利点は、計算コストがバッチのサイズで線形であることである(少なくとも二次的である候補のペアを比較する手法とは反対である)。 0.78
With the possibility of assays of a hundred thousand candidates using synthetic biology, linear scaling would be a great advantage. 合成生物学を用いて数十万の候補を測定できる可能性があり、線形スケーリングは大きな利点となる。 0.74
In this paper, we thus focus on the specific machine learning problem of turning a given positive reward or return function into a generative policy which samples with a probability proportional to the return. 本論文では、与えられた正の報酬や返却関数を、返却に比例した確率でサンプリングする生成ポリシーに変換する、特定の機械学習問題に焦点を当てる。 0.71
In applications like the one mentioned above, we only apply the reward function after having generated a candidate, i.e., the reward is zero except in a terminal state, and the return is the terminal reward. 上記のようなアプリケーションでは、候補を生成した後にのみ報酬機能を適用する。つまり、端末状態以外は報酬はゼロであり、返却は端末報酬である。 0.68
We are in the so-called episodic setting of RL. 我々はいわゆる RL のエピソディックな設定にある。 0.70
The proposed approach views the probability assigned to an action given a state as the flow associated with a network whose nodes are states, and outgoing edges from that node are deterministic transitions driven by an action (not to be confused with normalizing flows; Rezende and Mohamed (2016)). 提案手法では、ノードが状態であるネットワークに関連するフローとして与えられた状態に割り当てられた確率と、そのノードからのエッジがアクションによって駆動される決定論的遷移である(正規化フローと混同しないように; rezende and mohamed (2016))。 0.78
The total flow into the network is the sum of the rewards in the terminal states (i.e., a partition function) and can be shown to be the flow at the root node (or start state). ネットワークへの総フローは、端末状態(すなわち分割関数)における報酬の合計であり、ルートノード(または開始状態)でのフローであることを示すことができる。 0.76
The proposed algorithm is inspired by Bellman updates and converges when the incoming and outgoing flow into and out of each state match. 提案アルゴリズムはベルマンの更新にインスパイアされ、各状態の入出力フローが一致したときに収束する。 0.62
A policy which chooses an action with probability proportional to the outgoing flow corresponding to that action is proven to achieve the desired result, i.e., the probability of sampling a terminal state is proportional to its reward. その動作に対応する流出流に比例する確率の行動を選択する政策が所望の結果を達成することが証明され、すなわち、端末状態のサンプリングの確率はその報酬に比例する。 0.83
In addition, we show that the resulting RL setup is off-policy; it converges to the above solution even if the training trajectories come from a different policy, so long as it has large enough support. さらに,得られたRL設定が非政治的であること,トレーニングの軌跡が異なる方針から得られるとしても,十分な支持が得られれば,上記の解に収束することを示す。 0.75
The main contributions of this paper are as follows: • We propose GFlowNet, a novel generative method for unnormalized probability distributions based on flow networks and local flow-matching conditions: the flow incoming to a state must match the outgoing flow. 本稿では,フローネットワークと局所フローマッチング条件に基づく非正規化確率分布の新たな生成法であるgflownetを提案する。
訳抜け防止モード: 本論文の主な貢献は以下のとおりである。 流れネットワークと局所流-マッチング条件に基づく非正規化確率分布の新しい生成法 : 州に届く流れは 流出する流れと一致しなければなりません
0.81
• We prove crucial properties of GFlowNet, including the link between the flow-matching conditions (which many training objectives can provide) and the resulting match of the generated policy with the target reward function. • GFlowNetの重要な特性として,フローマッチング条件(多くのトレーニング目標が提供できる)と,生成したポリシと目標報酬関数との整合性との関連性を示す。 0.82
We also prove its offline properties and asymptotic convergence (if the training objective can be minimized). また、オフライン特性と漸近収束(トレーニング目標を最小化できる場合)を証明します。 0.70
We also demonstrate that previous related work (Buesing et al , 2019) which sees the generative process like a tree would fail when there are many action sequences which can lead to the same state. また、同じ状態につながる多くのアクションシーケンスが存在する場合、ツリーのような生成プロセスが失敗すると見る以前の関連作業(buesing et al , 2019)も示しています。 0.74
• We demonstrate on synthetic data the usefulness of departing from seeking one mode of the •1つのモードを追求することから出発することの有用性を合成データで示す。 0.68
return, and instead seeking to model the entire distribution and all its modes. 返却して、その代わりに、配布全体とそのモードをモデル化しようとします。 0.65
• We successfully apply GFlowNet to a large scale molecule synthesis domain, with comparative • GFlowNetを大規模分子合成領域に適用し, 比較した。 0.74
experiments against PPO and MCMC methods. PPO法およびMCMC法に対する実験。 0.82
All implementations are available at https://github.com/b engioe/gflownet. すべての実装はhttps://github.com/b engioe/gflownetで利用可能である。 0.45
2 Approximating Flow Network generative models with a TD-like objective tdライクな目的をもつ2近似フローネットワーク生成モデル 0.85
Consider a discrete set X and policy π to sequentially construct an x ∈ X with probability π(x) with 確率 π(x) を持つ x ∈ x を順次構成するために離散集合 x とポリシー πを考える。 0.85
(1) (cid:80) (1) (cid:80) 0.82
R(x) x(cid:48)∈X R(x(cid:48)) R(x)x(cid:48)・XR(x(cid:48)) 0.89
π(x) ≈ R(x) π(x) である。 R(x) 0.75
Z = 2 Z = 2 0.85
英語(論文から抽出)日本語訳スコア
where R(x) > 0 is a reward for a terminal state x. ここで R(x) > 0 は終状態 x に対する報酬である。 0.78
This would be useful to sample novel drug-like molecules when given a reward function R that scores molecules based on their chemical properties. これは、その化学的性質に基づいて分子をスコアする報酬関数Rを与えられたとき、新しい薬物様分子をサンプリングするのに有用である。
訳抜け防止モード: これは、分子のような新しい薬物のサンプルとして有用だろう 化学特性に基づいて分子をスコアする報酬関数Rが与えられる。
0.74
Being able to sample from the high modes of R(x) would provide diversity in the batches of generated molecules sent to assays. r(x) の高次モードからサンプルを採取できることは、アッセイに送られる生成分子のバッチの多様性をもたらす。 0.79
This is in contrast with the typical RL objective of maximizing return which we have found to often end up focusing around one or very few good molecules. これは、リターンを最大化するという典型的なrlの目標とは対照的で、良い分子が1つまたは非常に少ないことに焦点を当てることが少なくありません。
訳抜け防止モード: これは典型的なrlの目標とは対照的です リターンを最大化することは、しばしば1つまたは非常に少ない分子に焦点を合わせます。
0.58
In our context, R(x) is a proxy for the actual values obtained from assays, which means it can be called often and cheaply. 我々の文脈では、R(x) はアッセイから得られた実際の値のプロキシであり、しばしば安価に呼び出すことができる。 0.77
R(x) is retrained or fine-tuned each time we acquire new data from the assays. R(x)は、アッセイから新しいデータを取得する度に再訓練または微調整される。 0.72
Let S denote the set of states and X ⊂ S denote the set of terminal states. S を状態の集合とし、X > S を終状態の集合とする。 0.58
Let A be a finite set, the ∗(s) be the set of all sequences alphabet, A(s) ⊆ A be the set of allowed actions at state s, and let A of actions allowed after state s. To every action sequence (cid:126)a = (a1, a2, a3, ..., ah) of ai ∈ A, h ≤ H corresponds a single x, i.e. A を有限集合とし、∗(s) をすべての列の集合とし、A(s) > A を状態 s における許容される作用の集合とし、状態 s の後に許容される作用の集合とし、ai ∈ A のすべての作用列 (cid:126)a = (a1, a2, a3, ..., ah) に対して h ≤ H は単一の x に対応する。 0.80
the environment is deterministic so we can define a function F mapping a sequence of actions (cid:126)a to an x. 環境は決定論的であるため、アクションの列 (cid:126)a を x にマッピングする関数 F を定義することができる。 0.81
If such a sequence is ‘incomplete’ we define its reward to be 0. そのような列が '不完全' であれば、その報酬を 0 と定義する。 0.53
When the correspondence between action sequences and states is bijective, a state s is uniquely described by some sequence (cid:126)a, and we can visualize the generative process as the traversal of a tree from a single root node to a leaf corresponding to the sequence of actions along the way. 行動列と状態の対応が単射であるとき、状態 s は何らかのシーケンス (cid:126)a によって一意に記述され、生成過程を1つのルートノードからその途中の行動列に対応する葉までの木のトラバースとして視覚化することができる。 0.85
In particular, the TreeSample method of Buesing et al (2019) can be seen as a special case of the method we propose, i.e., allocating to each node s a value corresponding to the sum of all the rewards R(x) over the terminal states or leaves of the subtree rooted at s. However, when this correspondence is surjective, i.e. 特に、beesing et al (2019) のtreesampleメソッドは、我々が提案する方法の特別な場合、すなわち、各ノード s に対して、s に根ざした部分木の終端状態または葉上のすべての報酬 r(x) の和に対応する値を与える。
訳抜け防止モード: 特に、Buesing et al (2019 ) の TreeSample メソッドは、提案手法の特別なケースとして見ることができる。 すなわち、各ノードに割り当てることによって、sでルートされたサブツリーの末端状態または葉のすべての報酬R(x)の和に対応する値が与えられる。 この対応が従属的であれば
0.78
when multiple action sequences describe the same x, things get trickier. 複数のアクションシーケンスが同じxを記述すれば 事態はより複雑になります 0.66
Instead of a tree, we get a directed acyclic graph or DAG (assuming that the sequences must be of finite length, i.e., there are no deterministic cycles), as illustrated in Figure 1. 図1に示すように、木の代わりに有向非巡回グラフやdagを得る(シーケンスは有限長でなければならない、すなわち決定論的サイクルが存在しないと仮定する)。 0.75
For example, and of interest here, molecules can be seen as graphs, which can be described in multiple orders (canonical representations such as SMILES strings also have this problem: there may be multiple descriptions for the same actual molecule). 例えば、ここでは、分子をグラフと見なすことができ、複数の順序で記述することができる(SMILES文字列のような標準表現にもこの問題がある:同じ実際の分子について複数の記述があるかもしれない)。 0.71
The standard approach to such a sampling problem is to use iterative MCMC methods (Xie et al , 2021; Grathwohl et al , 2021). このようなサンプリング問題の標準的なアプローチは、反復MCMC法(Xie et al , 2021; Grathwohl et al , 2021)を使用することである。 0.80
Another option is to relax the desire to have p(x) ∝ R(x) and to use non-interative (sequential) RL methods (Gottipati et al , 2020), but these are at high risk of getting stuck in local maxima and of missing modes. もう一つの選択肢は、p(x) > R(x) を持ちたいという欲求を緩和し、非相互作用的(逐次的)な RL 法(Gottipati et al , 2020)を使用することであるが、これらは局所的な最大値や欠落モードで立ち往生するリスクが高い。 0.69
Indeed, in our setting, the policy which maximizes the expected return (which is the expected final reward) generates the sequence with the highest return (i.e., a single molecule). 実際、我々の設定では、期待されるリターン(最終的な報酬)を最大化するポリシーは、最も高いリターン(すなわち1つの分子)を持つシーケンスを生成する。 0.77
2.1 Flow Networks 2.1 フローネットワーク 0.75
In the bijective case, one can think of the sequential generation of one x as an episode in a treestructured deterministic MDP, where all leaves x are terminal states (with reward R(x)) and the root is initial state s0. 単射の場合、木構造決定論的 MDP における1つの x の逐次生成を、すべての葉 x が終末状態(報酬 R(x))、根が初期状態 s0 であるエピソードと考えることができる。 0.76
Interestingly, in such a case one can express the pseudo-value of a state V (s) as the sum of all the rewards of the descendants of s (Buesing et al , 2019). 興味深いことに、そのような場合、状態 V(s) の擬値を s の子孫のすべての報酬の和として表すことができる(Buesing et al , 2019)。 0.70
In the surjective case, constructing π(x) ≈ R(x)/Z as per Buesing et al (2019), or even via an autoregressive method (Nash and Durkan, 2019; Shi et al , 2021) has a particular problem: as shown below, if multiple action sequences (cid:126)a lead to a final state x, then a serious bias can be introduced in the generative probabilities. 自己回帰法(Nash and Durkan, 2019; Shi et al , 2021)は、以下に示すように、複数の作用列 (cid:126) が最終状態 x に導かれると、生成確率において深刻なバイアスが生じる。
訳抜け防止モード: 単射の場合、 buesing et al (2019 ) による π(x ) と r(x)/z の合成 あるいは、自己回帰的な方法(nash and durkan, 2019; shi et al, 2021)によってさえも、次のような問題がある。 複数のアクションシーケンス (cid:126)a が最終状態 x に繋がる場合 そして、生成確率に深刻なバイアスを導入することができる。
0.78
Let us denote (cid:126)a + (cid:126)b as the concatenation of the two sequences of actions (cid:126)a and (cid:126)b, and by extension s + (cid:126)b the state reached by applying the actions in (cid:126)b from state s. ∗ to a state ∗ Proposition 1. 2つの作用列 (cid:126)a と (cid:126)b の連結として (cid:126)a + (cid:126)b と、拡張 s + (cid:126)b によって、状態 s. ∗ から状態 ∗ への作用を (cid:126)b から状態 ∗ へ適用することで到達した状態とする。
訳抜け防止モード: cid:126)a + (cid:126)b を2つの行動列 (cid:126)a) の連結として表す。 and ( cid:126)b, and by extension s + ( cid:126)b the state by the action in ( cid:126)b from state s. ∗ to a state ∗ Proposition 1 .
0.92
Let F : A (cid:126)b∈A∗(s) R(s + (cid:126)b) > 0, ∗(s) is the set of allowed continuations from s and s + (cid:126)b denotes the resulting state, where A i.e., V (s) is the sum of the rewards of all the states reachable from s. Consider a policy π which starts from the state corresponding to the empty string s0 = F (∅) and chooses from state s ∈ S an allowable action a ∈ A(s) with probability π(a|s) = b∈A(s) V (s+b) . F : A (cid:126)b⋅A∗(s) R(s + (cid:126)b) > 0, ∗(s) を s と s + (cid:126)b からの許容連続の集合とし、ここで A(s) は s から到達可能な全ての状態の報酬の和である。
訳抜け防止モード: F : A ( cid:126)b・A∗(s ) R(s + ( cid:126)b ) > 0 とする。 ∗(s ) は s と s + ( cid:126)b からの許容連続の集合である。 例えば、V ( s ) は s から到達可能な全ての状態の報酬の和である。 空文字列 s0 = F に対応する状態から始まるポリシー π を考える。 状態 s ∈ S から確率 π(a|s ) = b∂A(s ) V ( s+b ) の許容可能な作用 a ∈ A(s ) を選択する。
0.85
Denote i=1 π(ai|F (a1, . i=1 π(ai|F (a1, 。 0.74
. . , ai−1)) and π(s) with s ∈ S the probability of visit- . . s ∈ s を持つ , ai−1) と π(s) の訪問確率- 0.85
s = F ((cid:126)a) ∈ S. Let V : S (cid:55)→ R+ associate each state s ∈ S to V (s) =(cid:80) (cid:80) π((cid:126)a = (a1, . s = f ((cid:126)a) ∈ s. let v : s (cid:55)→ r+ associate each state s ∈ s to v (s) =(cid:80) (cid:80) π((cid:126)a = (a1, )。 0.85
. . , aN )) =(cid:81)N (a) π(s) =(cid:80) (cid:80) x(cid:48)∈X n(x(cid:48))R(x(cid: 48)) . . . , aN ) = (cid:81)N (a) π(s) = (cid:80) (cid:48) x(cid:48)⋅X n(x(cid:48))R(x(cid: 48))。 0.86
(cid:55)→ S associate each allowed action sequence (cid:126)a ∈ A (cid:55)→ S はそれぞれの許容された作用列 (cid:126)a ∈ A を関連付ける 0.63
ing a state s with this policy. 国家のsをこの政策に合わせます 0.70
The following then obtains: すると次のようになる。 0.54
(cid:126)ai:F ((cid:126)ai)=s π((cid:126)ai). (cid:126)ai:F((cid:1 26)ai)=s π((cid:126)ai) 0.89
(b) If F is bijective, then π(s) = V (s) x∈X R(x) . (b) F が単射であれば、π(s) = V(s) x∂X R(x) となる。 0.80
(c) If F is surjective and there are n(x) distinct action sequences (cid:126)ai s.t. (c) f が全射で n(x) 個の異なる作用列 (cid:126)ai s.t) が存在する場合。 0.69
F ((cid:126)ai) = x, then π(x) = F((cid:126)ai) = x ならば π(x) = 0.91
V (s0) and as a special case for terminal states x, π(x) = V (s0) および端末状態 x, π(x) = の特別な場合として 0.92
n(x)R(x) R(x) n(x)R(x) R(x) 0.85
V (s+a) (cid:80) V (s+a) (cid:80) 0.81
3 3 0.85
英語(論文から抽出)日本語訳スコア
See Appendix A.1 for the proof. 証明についてはAppendix A.1を参照。 0.61
In combinatorial spaces, such as for molecules, where F is surjective (there are many ways to construct a molecule), this can become exponentially bad as trajectory lengths increase. f が全射であるような分子のような組合せ空間では(分子を構成する多くの方法がある)、軌道長が大きくなるにつれて指数関数的に悪くなる。 0.73
It means that larger molecules would be exponentially more likely to be sampled than smaller ones, just because of the many more paths leading to them. これは、より大きな分子がより小さな分子よりも指数関数的にサンプリングされる可能性が高いことを意味している。 0.68
An alternative to expressing the MDP and its pseudo-value function via a tree is to express them via a flow network, that is, express the MDP as a DAG rather than a tree, and V as a flow rather than as a sum of descendant rewards, as elaborated below. mdpとその擬似値関数をツリー経由で表現する代わりに、フローネットワーク、すなわち、mdpを木ではなくdagとして表現し、vを子孫報酬の合計としてではなくフローとして表現する。
訳抜け防止モード: 木によるMDPとその擬値関数の表現の代替 フローネットワークを通して表現することです つまり、MDPを木ではなくDAGとして表現します。 そしてVは、子孫の報酬の合計としてではなく、流れとしてである。 下記のとおりです
0.67
We define the flow network as a having a single source, the root node (or initial state) s0 with in-flow Z, and one sink for each leaf (or terminal state) x with out-flow R(x) > 0. フローネットワークを1つのソースと、インフローZを持つルートノード(または初期状態)s0と、アウトフローR(x) > 0を持つ各リーフ(または終状態)xに対する1つのシンクと定義する。 0.77
We write T (s, a) = s(cid:48) to denote that the state-action pair (s, a) leads to state s(cid:48). T (s, a) = s(cid:48) と書き、状態-作用対 (s, a) が状態 s(cid:48) につながることを示す。 0.79
Note that because F is not a bijection, i.e., there are many paths (action sequences) leading to some node, a node can have multiple parents, i.e. f は単射ではない、すなわち、あるノードにつながる多くの経路(アクションシーケンス)があるので、ノードは複数の親を持つことができる。 0.73
|{(s, a) | T (s, a) = s(cid:48) }| ≥ 1, except for the root, which has no parent. 親を持たない根を除いて、 |{(s, a) | T (s, a) = s(cid:48) }| ≥ 1 である。 0.85
We write Q(s, a)1 for the flow between node s and node s(cid:48) = T (s, a). ノード s とノード s(cid:48) = T (s, a) の間のフローに対して Q(s, a)1 を記述する。 0.83
This Q(s, a) = (cid:80) construction is illustrated in Fig 1. この Q(s, a) = (cid:80) の構成を図1に示す。 0.80
nodes have multiple paths ノードには複数の経路があり 0.54
Q(s3, a(cid:48)) Q(s3, a(cid:48)) 0.90
(cid:80) from the root (cid:80) 根から 0.65
s,a:T (s,a)=s3 s,a:T (s,a)=s3 0.99
a(cid:48)∈A(s3) a(cid:48)大A(s3) 0.70
V (s0) = Z V (s0) = Z 0.97
s0 root a1 a2 a3 s0 ルート a1 a2 a3 0.69
s2 s1 a5 a2 s2 s1 a5 a2 0.76
s3 a4 a7 s4 s3 a4 a7 s4 0.76
terminal state terminal state 0.85
Figure 1: A flow network MDP. 図1:フローネットワーク MDP。 0.66
Episodes start at source s0 with flow Z. エピソードはflow zのソースs0から始まる。 0.79
Like with SMILES strings, there are no cycles. SMILES文字列のように、サイクルはない。 0.73
Terminal states are sinks with out-flow R(s). 終端状態はアウトフローR(s)のシンクである。 0.60
Exemplar state s3 has parents {(s, a)|T (s, a) = s3} ={(s1, a2), (s2, a5)} and allowed actions A(s3) ={a4, a7}. 例の状態 s3 は親 {(s, a)|T (s, a) = s3} ={(s1, a2), (s2, a5)} を持ち、A(s3) ={a4, a7} を許容する。 0.87
s4 is a terminal sink state with R(s4) > 0 and only one parent. s4 は R(s4) > 0 と 1 つの親を持つ終端シンク状態である。 0.81
The goal is to estimate Q(s, a) such that the flow equations are satisfied for all states: for each node, incoming flow equals outgoing flow. 目標はq(s, a)を推定し、フロー方程式が全ての状態に対して満たされるようにすることである。
訳抜け防止モード: 目標は、フロー方程式が全ての状態に対して満たされるように q(s, a) を推定することである。 各ノードの入出力フローは出力フローと等しい。
0.70
To satisfy flow conditions, we require that for any node, the incoming flow equals the outgoing flow, which is the total flow V (s) of node s. Boundary conditions are given by the flow into the terminal nodes x, R(x). フロー条件を満たすためには、任意のノードに対して、入力フローは、ノードsの総フローV(s)である流出フローと等しく、境界条件は、端末ノードx,R(x)へのフローによって与えられる。 0.75
Formally, for any node s(cid:48), we must have that the in-flow 正式には、任意のノード s(cid:48) に対して、フロー内である必要がある。 0.59
(cid:48) V (s (cid:48)V(s) 0.78
) = s,a:T (s,a)=s(cid:48) ) = s,a:T (s,a)=s(cid:48) 0.92
Q(s, a) (cid:88) (cid:88) Q(s, a) (cid:88)(cid:88) 0.80
equals the out-flow the out‐flow 0.67
(cid:48) V (s (cid:48)V(s) 0.78
) = (cid:48) Q(s ) = (cid:48)Q(s) 0.82
(cid:48) , a ). (cid:48)a ). 0.87
a(cid:48)∈A(s(cid:48)) a(cid:48)・A(s(cid:48) 0.73
(2) (3) More concisely, with R(s) = 0 for interior nodes and including leaf (sink/terminal) nodes where A(s(cid:48)) = ∅: (2) (3) より簡潔に言うと、内部ノードに対して R(s) = 0 で、A(s(cid:48)) = s: の葉(シンク/終端)ノードを含む。 0.82
(cid:48) Q(s, a) = R(s (cid:48) Q(s, a) = R(s) 0.96
) + (cid:48) Q(s ) + (cid:48)Q(s) 0.82
(cid:48) , a ). (cid:48)a ). 0.87
(4) (cid:88) (4) (cid:88) 0.82
(cid:88) a(cid:48)∈A(s(cid:48)) (cid:88) a(cid:48)・A(s(cid:48) 0.76
s,a:T (s,a)=s(cid:48) s,a:T (s,a)=s(cid:48) 0.98
with Q being a flow, Q(s, a) > 0 ∀s, a (for this we needed to constrain R(x) to be positive too). Q がフローであるとき、Q(s, a) > 0 s, a (このために R(x) も正となるように制約する必要がある)。 0.77
One could include in principle nodes and edges with zero flow but it would make it difficult to talk about the logarithm of the flow, as we do below, and such states can always be excluded by the allowed set of actions for their parent states. 原則ノードやゼロフローのエッジを含むことができるが、下記のようにフローの対数について話すことは困難であり、そのような状態は常に親状態に対する許容される一連のアクションによって除外される。 0.74
We show that such a flow correctly produces π(x) = R(x)/Z when the above three flow equations are satisfied. このような流れが、上記の3つの流れ方程式を満たすとき、π(x) = R(x)/Z を正しく生成することを示す。 0.74
Proposition 2. Let us define a policy π that generates trajectories starting in state s0 by sampling actions a ∈ A(s) according to 命題2。 a ∈ A(s) に従って動作をサンプリングすることで状態 s0 から始まる軌道を生成するポリシー π を定義する。 0.64
π(a|s) = Q(s, a) V (s) π(a|s) = Q(s, a) V(s) 0.86
(5) 1The use of V and Q, taken from RL’s value and action-value, is intentional. (5) 1 V と Q の使用は RL の値と作用値から取られたものであり、意図的である。 0.77
These effectively inform an agent taking decisions at each step of an MDP to act in a desired way. これにより、mdpの各ステップで決定を下すエージェントが望ましい行動をとることを効果的に知らせる。 0.62
With some work, we can also show an equivalence between this Q and the “real” Qˆπ of some policy ˆπ in a modified MDP (see A.2). 幾つかの研究により、この Q と、修正された MDP におけるあるポリシーの「実」 Q π との等価性を示すこともできる(A.2)。 0.69
4 4 0.85
英語(論文から抽出)日本語訳スコア
a∈A(s) Q(s, a) where R(s) = 0 for non-terminal nodes s and V (x) = R(x) > 0 for terminal nodes x, and the flow a(cid:48)∈A(s(cid:48)) Q(s(cid:48), a(cid:48)) is satisfied. a(s) Q(s, a) where R(s) = 0 for non-terminal node s and V(x) = R(x) > 0 for terminal node x, and the flow a(cid:48)∂A(s(cid:48)) Q(s(cid:48), a(cid:48)) を満たす。 0.92
Let π(s) denote the s,a:T (s,a)=s(cid:48) Q(s, a) = R(s(cid:48)) +(cid:80) π(s) を表わす s,a:T (s,a)=s(cid:48) Q(s, a) = R(s(cid:48)) +(cid:80) 0.80
where Q(s, a) > 0 is the flow through allowed edge (s, a), V (s) = R(s) +(cid:80) equation(cid:80) (b) V (s0) =(cid:80) probability of visiting state s when starting at s0 and following π(·|·). Q(s, a) > 0 は許容エッジ(s, a)、V(s) = R(s) + (cid:80) 方程式(cid:80) (b) V(s0) = (cid:80) で s0 から開始し π(·|·) に従うときの状態 s を訪問する確率である。 0.90
Then (a) π(s) = V (s) V (s0) (cid:80) x∈X R(x) Proof. すると (a) π(s) = V (s) V (s0) (cid:80) x∂X R(x) が証明される。 0.80
We have π(s0) = 1 since we always start in root node s0. 常に根ノード s0 から始まるので π(s0) = 1 である。 0.86
Note that(cid:80) R(x) x(cid:48)∈X R(x(cid:48)) . 注意: (cid:80) R(x) x(cid:48)・X R(x(cid:48))。 0.78
(cid:80) x∈X π(x) = 1 because terminal states are mutually exclusive, but in the case of non-bijective F , we cannot say that s∈S π(s) equals 1 because the different states are not mutually exclusive in general. (cid:80) x⋅X π(x) = 1 は終端状態が相互排他的であるからであるが、非単射 F の場合、s⋅S π(s) は互いに排他的でないから 1 と等しいとは言い切れない。 0.76
This notation is different from the one typically used in RL where π(s) refers to the asymptotic distribution of the Markov chain. この表記法は、π(s) がマルコフ連鎖の漸近分布を指す RL で一般的に用いられるものとは異なる。 0.77
Then (c) π(x) = そして (c) π(x) = 0.79
(cid:48) π(s (cid:48) π(s) 0.81
) = (a,s):T (s,a)=s(cid:48) ) = (a,s):T(s,a)=s(cid:48) 0.92
π(a|s)π(s) π(a|s)π(s) 0.96
i.e., using Eq 5, つまり、Eq 5を使います。 0.73
(cid:48) π(s (cid:48) π(s) 0.81
) = We can now conjecture that the statement ) = 私たちはその声明を推測することができる 0.72
(a,s):T (s,a)=s(cid:48) (a,s):T(s,a)=s(cid:48) 1.00
Q(s, a) V (s) Q(s, a) V(s) 0.85
π(s). (6) π(s) である。 (6) 0.83
(7) (8) (cid:88) (cid:88) (7) (8) (cid:88)(cid:88) 0.81
π(s) = V (s) V (s0) π(s) = V (s) V (s0) 0.90
(cid:80) is true and prove it by induction. (cid:80) 誘導によって証明することです 0.66
This is trivially true for the root, which is our base statement, since π(s0) = 1. π(s0) = 1 であるため、これは根に対して自明に正しい。
訳抜け防止モード: これは我々の基本文であるルートに対して自明に正しい。 π(s0) = 1 である。
0.83
By induction, we then have that if the statement is true for parents s of s(cid:48), then 帰納法によって、s(cid:48) の親 s に対してそのステートメントが真であれば、 0.61
Q(s, a) V (s) Q(s, a) V(s) 0.85
V (s) V (s0) V (s) V (s0) 0.94
= s,a:T (s,a)=s(cid:48) Q(s, a) = s,a:T (s,a)=s(cid:48) Q(s,a) 0.91
V (s0) V (s(cid:48)) V (s0) V (s0) V (s(cid:48)) V (s0) 0.96
= (9) (cid:88) = (9) (cid:88) 0.83
(cid:48) π(s (cid:48) π(s) 0.81
) = s,a:T (s,a)=s(cid:48) ) = s,a:T (s,a)=s(cid:48) 0.92
which proves the statement, i.e., the first conclusion (a) of the theorem. これは定理の最初の結論(a)を証明します。 0.53
We can then apply it to the case of terminal states x, whose flow is fixed to V (x) = R(x) and obtain すると、V(x) = R(x) に流れが固定された終状態 x の場合には、それを適用できる。 0.76
Noting that(cid:80) V (s0) =(cid:80) 注意 (cid:80) V (s0) = (cid:80) 0.82
π(x) = R(x) V (s0) π(x) = R(x) V (s0) 0.90
. (10) x∈X π(x) = 1 and summing both sides of Eq 10 over x we thus obtain (b), i.e., . (10) x ∈x π(x) = 1 であり、x 上の eq 10 の両側を合計すると、(b) が得られる。 0.85
x∈X R(x). x ∈ x r(x) である。 0.64
Plugging this back into Eq 10, we obtain (c), i.e., π(x) = これを Eq 10 に戻すと (c)、すなわち π(x) = が得られる。 0.79
(cid:80) x(cid:48)∈X R(x(cid:48)). (cid:80) x(cid:48)servletx r(x(cid:48)) 0.80
R(x) Thus our choice of π satisfies our desiderata: it maps a reward function R to a generative model which generates x with probability π(x) ∝ R(x), whether F is bijective or injective (the former being a special case of the latter, and we just provided a proof for the general injective case). R(x) したがって、π の選択は我々のデシダータを満足する: 報酬関数 R を確率 π(x) = R(x) の x を生成する生成モデルに写像し、F が単射か単射か(前者は後者の特別の場合であり、一般の単射の場合の証明を与える)。 0.79
2.2 Objective Functions for GFlowNet We can now leverage our RL intuitions to create a learning algorithm out of the above theoretical results. 2.2 GFlowNetの目的関数 RL直感を利用して、上記の理論的結果から学習アルゴリズムを作成することができる。 0.85
In particular, we propose to approximate the flows Q such that the flow conditions are obtained at convergence with enough capacity in our estimator of Q, just like the Bellman conditions for temporal-difference (TD) algorithms (Sutton and Barto, 2018). 特に, 時間差分法(TD)アルゴリズムのベルマン条件と同様に, 流れ条件がQの推定器内で十分な容量で収束して得られるように, 流れQを近似することを提案する(Sutton and Barto, 2018)。 0.85
This could yield the following objective for a trajectory τ: これは軌道 τ の次の目的をもたらす可能性がある。 0.68
(cid:88)  (cid:88) (cid:88) (cid:88) 0.83
(cid:88) 2 (cid:88) 2 0.78
˜Lθ(τ ) = s(cid:48)∈τ(cid:54)=s0 lθ(τ ) = s(cid:48)τ(cid:54)=s0 0.77
s,a:T (s,a)=s(cid:48) s,a:T (s,a)=s(cid:48) 0.98
(cid:48) Qθ(s, a) − R(s (cid:48) Qθ(s, a) − R(s) 0.91
(cid:48) Qθ(s (cid:48) Qθ(s) 0.74
(cid:48) , a ) (cid:48)a ) 0.87
) − a(cid:48)∈A(s(cid:48)) ) − a(cid:48)・A(s(cid:48)) 0.77
. (11) One issue from a learning point of view is that the flow will be very large for nodes near the root (early in the trajectory) and tiny for nodes near the leaves (late in the trajectory). . (11) 学習の観点からの1つの問題は、フローが根元付近のノード(軌道上の初期)で非常に大きく、葉辺のノード(軌道上後期)で小さいことである。
訳抜け防止モード: . (11) 学習の観点からの1つの問題は、(軌道の早い段階で)ルート近くのノードにとって、フローが非常に大きいことである。 そして葉の近く(軌道の遅い)のノードは小さい。
0.83
In high-dimensional spaces where the cardinality of X is exponential (e g , in the typical number of actions to form an x), x の濃度が指数的である高次元空間において(例えば、x を形成する典型的な作用の数において) 0.87
5 5 0.85
英語(論文から抽出)日本語訳スコア
the Q(s, a) and V (s) for early states will be exponentially larger than for later states. 初期状態の q(s, a) と v(s) は、後の状態よりも指数関数的に大きくなる。 0.76
Since we want Q(s, a) to be the output of a neural network, this would lead to serious numerical issues. Q(s, a)をニューラルネットワークの出力にしたいので、これは深刻な数値問題につながるでしょう。 0.65
To avoid this problem, we define the flow matching objective on a log-scale, where we match not the incoming and outgoing flows but their logarithms, and we train our predictor to estimate Qlog θ predictions to compute the loss, yielding the square of a difference of logs: この問題を回避するため,フローマッチングの目的をログスケールで定義し,入ってくるフローと出ているフローと対数とを一致させるとともに,予測器にQlog θ予測を推定して損失を計算させ,ログの差の正方形を生成する。 0.79
θ (s, a) = log Q(s, a), and exponentiate-sum-log the Qlog θ (s, a) = log Q(s, a) and exponentiate-sum-log the Qlog 0.98
(cid:88) log (cid:88) ログ 0.74
 + (cid:88)  + (cid:88) 0.82
Lθ,(τ ) = lθ, (τ ) = 0.78
s(cid:48)∈τ(cid:54)=s0 s(cid:48)τ(cid:54)=s0 0.65
s,a:T (s,a)=s(cid:48) s,a:T (s,a)=s(cid:48) 0.98
exp Qlog θ (s, a) exp Qlog θ (複数形 θs) 0.82
 − log  + R(s ‐log s + R(s) 0.65
(cid:48) (cid:88) (cid:48) (cid:88) 0.78
) + a(cid:48)∈A(s(cid:48)) ) + a(cid:48)・A(s(cid:48) 0.79
2 exp Qlog 2 exp Qlog 0.82
(cid:48) θ (s (cid:48)θ (s) 0.79
(cid:48) , a ) (cid:48)a ) 0.87
(12) which gives equal gradient weighing to large and small magnitude predictions. (12) これは大小の予測に等しい勾配を与えます 0.67
Note that matching the logs of the flows is equivalent to making the ratio of the incoming and outgoing flow closer to 1. 流れのログと一致することは、流れの流入と流出の比率を1に近くするのと同値である。 0.78
To give more weight to errors on large flows and avoid taking the logarithm of a tiny number, we compare log(+incoming flow) with log(+outgoing flow). 大きな流れの誤差をより重み付けし、小さな数の対数を取るのを避けるために、log( )+incoming flow) と log( )+outgoing flow を比較する。 0.86
It does not change the global minimum, which is still when the flow equations are satisfied, but it avoids numerical issues with taking the log of a tiny flow. フロー方程式が満たされた場合でも、大域的な最小値を変更することはないが、小さな流れのログを取る際の数値的な問題を避けることができる。 0.67
The hyper-parameter  trades-off how much pressure we put on matching large versus small flows. ハイパーパラメーターは、大きなフローと小さなフローのマッチングにどれだけの圧力をかけたか、トレードオフします。
訳抜け防止モード: 過大なパラメーターがトレードする - どれだけ圧力がかかるか 大きなフローと小さなフローを 一致させました
0.54
Since we want to discover the top modes of R, it makes sense to care more for the larger flows. R のトップモードを発見したいので、より大きな流れにもっと気を配るのは理にかなっている。 0.75
Many other objectives are possible for which flow matching is also a global minimum. フローマッチングがグローバル最小である他の多くの目的も可能である。 0.71
An interesting advantage of such objective functions is that they yield off-policy offline methods. このような目的関数の興味深い利点は、オフラインメソッドをオフラインにできることである。 0.59
The predicted flows Q and V do not depend on the policy used to sample trajectories (apart from the fact that the samples should sufficiently cover the space of trajectories in order to obtain generalization). 予測フロー Q と V は、軌跡のサンプリングに使用されるポリシーに依存しない(一般化を得るためには、サンプルが軌跡の空間を十分にカバーしなければならないという事実を除いて)。 0.72
This is formalized below, which shows that we can use any broad-support policy to sample training trajectories and still obtain the correct flows and generative model, i.e., training can be off-policy. これは下記の形式化であり、トレーニング軌跡のサンプル化に広義のポリシーを使用でき、依然として正しいフローと生成モデル、すなわち、トレーニングは非政治的であることを示す。 0.59
Proposition 3. Let trajectories τ used to train Qθ be sampled from an exploratory policy P with the same support as the optimal π defined in Eq 5 for the correct flows Q∗. 命題3。 Qθ を訓練するために用いられる軌道 τ を、正しいフロー Q∗ に対して Eq 5 で定義される最適 π と同じ支持を持つ探索ポリシー P からサンプリングする。 0.69
Also assume that ∃θ : Qθ = Q∗, i.e., we choose a sufficiently rich family of predictors. また、 sθ : qθ = q∗ 、すなわち、十分リッチな予測子族を選ぶと仮定する。 0.65
Let θ∗ ∈ argminθEP (τ )[Lθ(τ )] a minimizer of the expected training loss. θ∗ ∈ argminθEP (τ )[Lθ(τ )] を予想されるトレーニング損失の最小値とする。 0.79
Let Lθ(τ ) have the property that when flows are matched it achieves its lowest possible value. Lθ(τ ) はフローが一致するときその最小の値が得られるという性質を持つ。 0.75
First, it can be shown that this property is satisfied for the loss in Eq. 第一に、この性質はeqの損失に満足していることを示すことができる。 0.77
12. Then (13) i.e., a global optimum of the expected loss provides the correct flows, and in the space of functions Q(s, a) for the flow, If πθ∗ (a|s) = 12. そして (13)すなわち、期待される損失の大域的最適化は正しいフローを与え、フローに対する函数 Q(s, a) の空間において、πθ∗ (a|s) = 0.82
(cid:80) a(cid:48)∈A(s) Qθ∗ (s,a(cid:48)) then we also have (cid:80) a(cid:48)・A(s) Qθ∗ (s,a(cid:48)) 0.80
there are no minima other than this global minimum. このグローバル最小値以外にミニマは存在しません。 0.64
, and Lθ∗ (θ) = 0 ∀θ ∼ P (θ), , そして Lθ∗ (θ) = 0 >θ > P (θ) である。 0.81
Qθ∗ (s,a) ∗ Qθ∗ = Q Qθ∗ (s,a) ∗ Qθ∗ = Q 0.88
πθ∗ (x) = R(x) πθ∗ (x) = R(x) 0.87
Z . (14) The proof is in Appendix A.1. Z . (14) 証明はAppendix A.1にある。 0.83
Note that, in RL terms, this method is akin to asynchronous dynamic programming (Sutton and Barto, 2018, §4.5), which is an off-policy off-line method which converges provided every state is visited infinitely many times asymptotically. rlの用語でいうと、この方法は非同期動的プログラミング(sutton and barto, 2018, 4.5)に似ており、全ての状態が無限回漸近的に訪れると収束するオフラインの手法である。 0.70
3 Related Work The objective of training a policy generating states with a probability proportional to rewards was presented by Buesing et al (2019) but the proposed method only makes sense when there is a bijection between action sequences and states. 3 関連作業 報酬に比例する確率を持つ政策生成状態を訓練する目的はBuesing et al (2019) によって提示されたが,提案手法は行動系列と状態の間に単射が存在する場合にのみ意味がある。 0.82
In contrast, GFlowNet is applicable in the more general setting where many paths can lead to the same state. 対照的に、GFlowNetは、多くのパスが同じ状態につながる、より一般的な設定に適用できる。 0.77
The objective to sample with probability proportional to a given unnormalized positive function is achieved by many MCMC methods (Grathwohl et al , 2021; Dai et al , 2020). 与えられた非正規化正関数に比例する確率をサンプリングする目的は、多くのMCMC法(Grathwohl et al , 2021; Dai et al , 2020)によって達成される。 0.76
However, when mixing between modes is challenging (e g , in high-dimensional spaces with well-separated modes occupying a tiny fraction of the total volume) convergence to the target distribution can be extremely slow. しかし、モード間の混合が困難である場合(例えば、全体積のごく一部を占めるモードを持つ高次元空間の場合)、ターゲット分布への収束は非常に遅くなる。 0.75
In contrast, GFlowNet is not iterative and amortizes the challenge of sampling from such modes through a training procedure which must be sufficiently exploratory. 対照的に、GFlowNetは反復的ではなく、十分な探索を必要とするトレーニング手順を通じて、そのようなモードからサンプリングするという課題を和らげている。 0.54
This sampling problem comes up in molecule generation and has been studied in this context with numerous generative models (Shi et al , 2020; Luo et al , 2021; Jin et al , 2020), MCMC methods (Seff このサンプリング問題は分子生成に現れ、多くの生成モデル(Shi et al , 2020; Luo et al , 2021; Jin et al , 2020)、MCMC法(Seff)で研究されている。 0.77
6 6 0.85
英語(論文から抽出)日本語訳スコア
et al , 2019; Xie et al , 2021), RL (Gottipati et al , 2020; Popova et al , 2019; Cao and Kipf, 2018) and evolutionary methods (Brown et al , 2004; Jensen, 2019; Swersky et al , 2020). et al , 2019; xie et al , 2021), rl (gottipati et al , 2020; popova et al , 2019; cao and kipf, 2018) および進化的手法 (brown et al , 2004; jensen, 2019; swersky et al , 2020) である。 0.78
Some of these methods rely on a given set of "positive examples" (high-reward) to train a generative model, thus not taking advantage of the "negative examples" and the continuous nature of the measurements (some examples should be generated more often than others). これらの方法のいくつかは、生成モデルを訓練するために与えられた「ポジティブな例」のセットに依存するため、「ネガティブな例」と測定の連続的な性質を活用しない(いくつかの例は他の例よりも多く生成されるべきである)。 0.78
Others rely on the traditional return maximization objectives of RL, which tends to focus on one or a few dominant modes, as we find in our experiments. 実験で明らかになったように、RLは1つまたはいくつかの支配的なモードに焦点をあてる傾向がある。
訳抜け防止モード: 他の者は、RLの伝統的な戻り値の最大化目標に依存している。 実験で見られるように 支配的なモードに集中する傾向があります
0.66
The objective that we formulate in (12) may remind the reader of the objective of control-asinference’s Soft Q-Learning (Haarnoja et al , 2017), with the difference that we include all the parents of a state in the in-flow, whereas Soft Q-Learning only uses the parent contained in the trajectory. 12)で定式化した目的は、制御支援のSoft Q-Learning(Haarnoja et al , 2017)の目的を読者に思い出させるかもしれない。
訳抜け防止モード: 12) で定式化する目的は、制御の目的である asinference の soft q - learning (haarnoja et al, 2017) を読者に思い出させるかもしれない。 状態のすべての親をインフローに含めている点に違いがあります。 ソフトq - 学習は軌道に含まれる親のみを使用する。
0.62
This induces a different policy, as shown by Proposition 1, one where P (τ ) ∝ R(τ ) rather than P (x) ∝ R(x). このことは、命題 1 で示されるように、P (τ ) > R(τ ) に対して P (x) > R(x) ではなく P (τ ) > R(τ ) である。
訳抜け防止モード: これは、命題1で示されるように、異なるポリシーを誘導する。 P ( τ ) {\displaystyle P(x)} よりも P ( τ ) は R(τ ) である。
0.80
More generally, we only consider deterministic generative settings whereas RL is a more general framework for stochastic environments. より一般的には、決定論的生成設定のみを考えるが、rlは確率的環境に対するより一般的なフレームワークである。 0.56
Literature at the intersection of network flow and deep learning is sparse, and is mostly concerned with solving maximum flow problems (Nazemi and Omidi, 2012; Chen and Zhang, 2020) or classification within existing flow networks (Rahul et al , 2017; Pekta¸s and Acarman, 2019). ネットワークフローと深層学習の交差点での文学は希少であり、最大フロー問題の解決(Nazemi and Omidi, 2012; Chen and Zhang, 2020)や既存のフローネットワーク内の分類(Rahul et al , 2017; Pekta 's and Acarman, 2019)に主に関係している。 0.84
4 Empirical Results We first verify that GFlowNet works as advertised on an artificial domain small enough to compute the partition function exactly, and compare its abilities to recover modes compared to standard MCMC and RL methods, with its sampling distribution better matching the normalized reward. 4 実験結果 まず、GFlowNetが分割関数を正確に計算できるほど小さい人工ドメイン上で宣伝されていることを検証し、標準MCMC法やRL法と比較し、サンプリング分布が正規化報酬とよりよく一致していることを示す。 0.70
We find that GFlowNet (A) converges to π(x) ∝ R(x), (B) requires less samples to achieve some level of performance than MCMC and PPO methods and (C) recovers all the modes and does so faster than MCMC and PPO, both in terms of wall-time and number of states visited and queried. GFlowNet (A) は π(x) > R(x) に収束するが、 (B) は MCMC や PPO メソッドよりもある程度の性能を達成するためにサンプルを少なくし、 (C) は MCMC や PPO よりも高速で、壁面の時間と回数の両方で、MCMC や PPO よりも高速に回復する。 0.73
We then test GFlowNet on a large scale domain, which consists in generating small drug molecule graphs, with a reward that estimates their binding affinity to a target protein (see Appendix A.3). 次に、ターゲットタンパク質との結合親和性を推定する報酬として、小さな薬物分子グラフを生成する大規模なドメインでgflownetをテストした(付録a.3を参照)。 0.74
We find that GFlowNet finds higher reward and more diverse molecules faster than baselines. GFlowNetは、ベースラインよりも高い報酬とより多様な分子を高速に発見できる。 0.74
4.1 A (hyper-)grid domain Consider an MDP where states are the cells of a n-dimensional hypercubic grid of side length H. The agent starts at coordinate (0, 0, ...) and is only allowed to increase coordinate i with action ai (up to H, upon which the episode terminates). 4.1 A (hyper-)grid domain 状態が辺の長さ H の n-次元超立方体格子のセルである MDP を考える。 エージェントは座標 (0, 0, ...) から始まり、作用 ai との座標 i の増加しか許されない(エピソードが終了する H まで)。 0.83
A stop action indicates to terminate the trajectory. 停止動作は、軌道を終了することを示す。 0.73
There are many action sequences that lead to the same coordinate, making this MDP a DAG. 多数のアクションシーケンスが同じ座標に導かれるため、このMDPはDAGとなる。 0.69
We associate with each cell of the grid a coordinate in [−1, 1]n, mapping s = (0, 0, ...) to x = (−1,−1, ..). グリッドの各セルと[−1, 1]nの座標を関連付け、s = (0, 0, ...) を x = (−1,−1, ...) に写像する。 0.82
The reward for ending the trajectory in x is some R(x) > 0. x における軌道を終わらせる報酬は、ある R(x) > 0 である。 0.81
For MCMC methods, in order to have an ergodic chain, we allow the iteration to decrease coordinates as well, and there is no stop action. MCMC法の場合、エルゴード連鎖を持つためには、繰り返しの座標も減少させ、停止作用は生じない。 0.55
We ran experiments with this reward function: この報酬機能で実験を行いました 0.76
(cid:81) I(0.6 < |xi| < 0.8) (cid:81) I(0.6 < |xi| < 0.8) 0.75
i R(x) = R0 + R1 私は R(x) = R0 + R1 0.75
I(0.5 < |xi|) + R2 I(0.5 < |xi|) + R2 0.76
i (cid:81) 私は (cid:81) 0.66
with 0 < R0 (cid:28) R1 < R2, pictured when n = 2 on the right. 0 < R0 (cid:28) R1 < R2 で、右に n = 2 のときに写る。 0.82
For this choice of R, there are only interesting rewards near the corners of the grid, and there are exactly 2n modes. R のこの選択に対して、グリッドの隅付近にのみ興味深い報酬があり、正確には 2n モードが存在する。 0.80
We set R1 = 1/2, R2 = 2. R1 = 1/2, R2 = 2 とする。 0.76
By varying R0 and setting it closer to 0, we make this problem artificially harder, creating a region of the state space which it is undesirable to explore. r0 を変えて 0 に近いものにすることで、この問題を人工的に難しくし、探索が望ましくない状態空間の領域を作り出す。 0.68
To measure the performance of a method, we measure the empirical L1 error E[|p(x) − π(x)|]. 手法の性能を測定するため、実験的なL1誤差E[|p(x) − π(x)|]を測定する。 0.73
p(x) = R(x)/Z is known in this domain, and π is estimated by repeated sampling and counting frequencies for each possible x. p(x) = R(x)/Z はこの領域で知られており、π は繰り返しサンプリングと各 x に対する周波数のカウントによって推定される。 0.79
We also measure the number of modes with at least 1 visit as a function of the number of states visited. また、訪問した状態の数の関数として、少なくとも1回の訪問でモード数を測定する。 0.72
We run the above experiment for R0 ∈ {10−1, 10−2, 10−3} with n = 4, H = 8. r0 ∈ {10−1, 10−2, 10−3} を n = 4, h = 8 で実験する。 0.88
In Fig 2 we see that GFlowNet is robust to R0 and obtains a low L1 error, while a Metropolis-Hastings- MCMC based method requires exponentially more samples than GFlowNet to achieve some level of L1 error. 図2では、GFlowNetはR0に対して堅牢であり、低L1エラーを得るのに対し、Metropolis-Hastings- MCMCベースの手法では、ある程度のL1エラーを達成するために、GFlowNetよりも指数関数的に多くのサンプルを必要とする。 0.51
This is apparent in Fig 2 (with a log-scale horizontal axis) by comparing the slope of progress of GFlowNet (beyond the initial stage) and that of the MCMC sampler. これは、GFlowNet(初期段階)とMCMCサンプルラーの進行の傾きを比較することにより、図2(対数スケール水平軸)で明らかである。 0.72
If method 1 has slope m1 and method 2 has slope m2, then the ratio of the number of samples needed grows as em1/m2. 方法1が傾斜m1、方法2が傾斜m2であれば、必要なサンプル数の割合はem1/m2として増加する。
訳抜け防止モード: 方法1が傾斜m1、方法2が傾斜m2である場合 必要なサンプル数の割合は em1 / m2 となる。
0.83
This validates hypothesis (A). これは仮説(A)を検証する。 0.70
We also see that MCMC takes much longer to visit each mode once as R0 decreases, while GFlowNet is only slightly affected, with GFlowNet converging to some level of L1 error faster, as per hypothesis (B). また、MCMCはR0が減少すると、各モードを訪問するのにずっと時間がかかり、GFlowNetは少ししか影響を受けず、GFlowNetは仮説(B)によれば、ある程度のL1エラーに収束する。 0.69
This suggests that GFlowNet is robust to the separation between これはGFlowNetが分離に対して堅牢であることを示唆している。 0.56
7 01020304050600102030 405060 7 01020304050600102030 405060 0.82
英語(論文から抽出)日本語訳スコア
modes (represented by R0 being smaller) and thus recovers all the modes much faster than MCMC (again, noting the log-scale of the horizontal axis). モード(R0で表される)はMCMC(また水平軸の対数スケールに注意)よりもはるかに高速に全てのモードを回復する。 0.81
To compare to RL, we run PPO (Schulman et al , 2017). RLと比較するため、PPO(Schulman et al , 2017)を実行しています。 0.76
To discover all the modes in a reasonable time, we need to set the entropy maximization term much higher (0.5) than usual ((cid:28) 1). すべてのモードを妥当な時間に発見するには、エントロピー最大化項を通常よりもずっと高く(0.5)設定する必要がある((cid:28) 1)。 0.73
We verify that PPO is not overly regularized by comparing it to a random agent. ランダムエージェントと比較することにより,PPOが過度に正規化されていないことを検証する。 0.65
PPO finds all the modes faster than uniform sampling, but much more slowly than GFlowNet, and is also robust to the choice of R0. PPOは全モードを一様サンプリングよりも高速に見つけるが、GFlowNetよりはるかに遅いため、R0の選択にも堅牢である。 0.69
This and the previous result validates hypothesis (C). これと前回の結果は仮説(C)を検証する。 0.77
We also run SAC (Haarnoja et al , 2018), finding similar or worse results. SAC(Haarnoja et al , 2018)も実施しています。 0.46
We provide additional results and discussion in Appendix A.6. Appendix A.6で追加の結果と議論を行います。 0.71
Figure 2: Hypergrid domain. 図2:ハイパーグリッドドメイン。 0.53
Changing the task difficulty R0 to illustrate the advantage of GFlowNet over others. 他のものよりもGFlowNetの利点を説明するために、タスクの難しさを変える。 0.52
We see that as R0 gets smaller, MCMC struggles to fit the distribution because it struggles to visit all the modes. R0が小さくなるにつれて、MCMCはすべてのモードを訪れるのに苦労するため、ディストリビューションに適合することに苦労しています。 0.58
PPO also struggles to find all the modes, and requires very large entropy regularization, but is robust to the choice of R0. PPO はすべてのモードを見つけるのにも苦労し、非常に大きなエントロピー正則化を必要とするが、R0 の選択には堅牢である。 0.60
We plot means over 10 runs for each setting. プロットは設定ごとに10回以上実行します。 0.62
4.2 Generating small molecules Here our goal is to generate a diverse set of small molecules that have a high reward. 4.2 小さな分子の生成 ここでのゴールは、高い報酬を持つ様々な小さな分子の集合を生成することです。
訳抜け防止モード: 4.2 小さな分子を発生させる 我々の目標は 報酬の高い多種多様な小分子群を生成する。
0.86
We define a large-scale environment which allows an agent to sequentially generate molecules. 我々は,エージェントが分子を順次生成できる大規模環境を定義した。 0.77
This environment is challenging, with up to 1016 states and between 100 and 2000 actions depending on the state. この環境は困難であり、州によっては最大1016の州と100から2000の行動がある。 0.76
We follow the framework of Jin et al (2020) and generate molecules by parts using a predefined vocabulary of building blocks that can be joined together forming a junction tree (detailed in A.3). 我々は、Jin et al (2020) の枠組みに従い、接合木(A.3)を形成することができるビルディングブロックの事前定義された語彙を用いて分子を生成する。 0.77
This is also known as fragment-based drug design (Kumar et al , 2012; Xie et al , 2021). これはフラグメントベースの薬物設計(kumar et al , 2012; xie et al , 2021)としても知られている。 0.72
Generating such a graph can be described as a sequence of additive edits: given a molecule and constrains of chemical validity, we choose an atom to attach a block to. このようなグラフを生成することは、加法的な編集のシーケンスとして記述できる:分子と化学的妥当性の制約が与えられた場合、ブロックをアタッチする原子を選択する。
訳抜け防止モード: そのようなグラフを生成する 追加的な編集のシーケンスとして説明できる。 分子と化学的妥当性の制約から 原子を1つ選んで ブロックを取り付けます
0.78
The action space is thus the product of choosing where to attach a block and choosing which block to attach. したがって、アクション空間は、ブロックをどこに取り付けるかを選択し、どのブロックをアタッチするかを選択する積である。
訳抜け防止モード: したがって作用空間は ブロックをどこに取り付けるかを選択し、どのブロックをアタッチするかを選択する。
0.68
There is an extra action to stop the editing sequence. 編集シーケンスを停止するための追加アクションがあります。 0.79
This sequence of edits yields a DAG MDP, as there are multiple action sequences that lead to the same molecule graph, and no edge removal actions, which prevents cycles. この編集のシーケンスはDAG MDPとなり、同じ分子グラフにつながる複数のアクションシーケンスが存在し、エッジ除去アクションがなく、サイクルの妨げとなる。 0.68
The reward is computed with a pretrained proxy model that predicts the binding energy of a molecule to a particular protein target (soluble epoxide hydrolase, sEH, see A.3).Although computing binding energy is computationally expensive, we can call this proxy cheaply. この報酬は、特定のタンパク質標的(可溶性エポキシドヒドロラーゼ、seth、a.3)に対する分子の結合エネルギーを予測する事前訓練されたプロキシモデルで計算される。
訳抜け防止モード: 報酬は、分子の特定のタンパク質標的(可溶性エポキシドヒドロラーゼ)への結合エネルギーを予測する事前訓練されたプロキシモデルで計算される。 計算上の結合エネルギーは計算コストが高いが、このプロキシを安価に呼び出すことができる。
0.78
Note that for realistic drug design, we would need to consider many more quantities such as drug-likeness (Bickerton et al , 2012), toxicity, or synthesizability. 現実的な薬物設計には、薬物類似性(Bickerton et al , 2012)、毒性、合成可能性など多くの量を考慮する必要がある。 0.72
Our goal here is not solve this problem, and our work situates itself within a larger project. 私たちの目標は、この問題を解決することではありません。
訳抜け防止モード: ここでの私たちの目標は、この問題を解決しないことです。 私たちの仕事は より大きなプロジェクトの中に収まります
0.61
Instead, we want to show that given a proxy R in the space of molecules, we can quickly match its induced distribution π(x) ∝ R(x) and find many of its modes. 代わりに、分子の空間におけるプロキシ R が与えられたとき、誘導された分布 π(x) = R(x) とすぐに一致し、そのモードの多くを見つけることができることを示したい。 0.75
We parameterize the proxy with an MPNN (Gilmer et al , 2017) over the atom graph. 我々は、atomグラフ上でmpnn(gilmer et al , 2017)でプロキシをパラメータ化する。 0.76
Our flow predictor Qθ is parameterized similarly to MARS (Xie et al , 2021), with an MPNN, but over the junction tree graph (the graph of blocks), which had better performance. 我々のフロー予測器Qθは、MPNNでMARS(Xie et al , 2021)と類似しているが、より優れた性能を持つジャンクションツリーグラフ(ブロックのグラフ)上でパラメータ化されている。 0.80
For fairness, this architecture is used for both GFlowNet and the baselines. 公平性のために、このアーキテクチャはGFlowNetとベースラインの両方で使用されている。 0.59
Complete details can be found in Appendix A.4. 詳細はAppendix A.4で確認できる。 0.76
We pretrain the proxy with 300k molecules from random trajectories down to a test MSE of 0.6; molecules are scored according to the docking score, computed with docking (Trott and Olson, 2010), renormalized so that most scores fall between 0 and 10 (to have R(x) > 0). 我々は300k分子のプロキシをランダムな軌道から0.6のMSEまで事前訓練し、ドッキングスコアに従って分子を値し、ドッキングによって計算し(Trott and Olson, 2010)、ほとんどのスコアが0から10(R(x)>0)に落ちるように再正規化する。 0.75
We plot the dataset’s reward distribution in Fig 3. 図3でデータセットの報酬分布をプロットします。 0.72
We train all generative models with up to 106 molecules. 私たちは最大106分子の生成モデルを訓練します。 0.77
During training, sampling follows exploratory policy P (a|s) which is a mixture between π(a|s) (Eq. 訓練中、サンプリングはπ(a|s) (Eq) の混合である探索ポリシー P(a|s) に従う。 0.71
5), used with probability 0.95, and a uniform distribution over allowed actions with probability 0.05. 5)、確率0.95と、確率0.05で許容される作用に対する均一な分布を用いた。 0.75
Experimental results In Fig 3 we show the empirical distribution of rewards in two settings; first when we train our model with R(x), then with R(x)β. 実験結果 図3では、まず、R(x) でモデルをトレーニングし、次に R(x)β でモデルをトレーニングする。
訳抜け防止モード: fig 3 における実験結果は,r(x) でモデルをトレーニングしたときの2つの設定における報酬の経験的分布を示す。 すると r(x)β となる。
0.77
If GFlowNet learns a reasonable policy π, this GFlowNet が妥当なポリシー π を学ぶなら、これは 0.80
8 0104105106statesvisi ted10−4empiricalL1error010 4105106statesvisited 051015modesfound(max =16)R0=10−1R0=10−2R0=10−3oursMCMCPPOrandom 8 0104105106statesvisi ted10−4empiricalL1error010 4105106statesvisited 051015modesfound(max =16)R0=10−1R0=10−2R0=10−3oursMCMCPPOrandom 0.52
英語(論文から抽出)日本語訳スコア
Figure 3: Empirical density of rewards. 図3: 報酬の実証的な密度。 0.80
We verify that GFlowNet is consistent by training it with Rβ, β = 4, which has the hypothesized effect of shifting the density to the right. 我々は、GFlowNetがRβ, β = 4でトレーニングすることで一貫性があることを検証する。
訳抜け防止モード: GFlowNetがRβ, β = 4でトレーニングすることで一貫性があることを検証する。 密度を右にシフトさせる 仮説的な効果があります
0.73
Figure 4: The average reward of the top-k as a function of learning (averaged over 3 runs). 図4: 学習関数としてのトップkの平均報酬(平均3回以上)。 0.67
Only unique hits are counted. 独特なヒットのみが数えられる。 0.74
Note the log scale. ログスケールに注意してください。 0.56
Our method finds more unique good molecules faster. 我々の手法はより優れた分子を高速に発見する。 0.64
should shift the distribution to the right. 分布を右にシフトするべきです 0.68
This is indeed what we observe. これは私たちが観察していることです。 0.63
We also compare GFlowNet to MARS (Xie et al , 2021), which is known to work well in the molecule domain, and observe the same shift. また,gflownet を分子領域でよく機能していることが知られている mars (xie et al , 2021) と比較し,同じシフトを観測した。 0.71
Note that GFlowNet finds more high reward molecules than MARS with these β values; this is consistent with the hypothesis that it finds more high-reward modes. GFlowNetはこれらのβ値を持つMARSよりも高い報酬分子を見出すが、これは高逆モードを求める仮説と一致している。 0.78
In Fig 4, we show the average reward of the top-k molecules found so far, without allowing for duplicates (based on SMILES). 図4では、(SMILESに基づく)複製を許さずに、これまでに見いだされたトップk分子の平均報酬を示す。 0.66
We compare GFlowNet with MARS and PPO. GFlowNetとMARSとPPOを比較した。 0.79
As expected, PPO plateaus after a while; RL tends to be satisfied with good enough trajectories unless it is strongly regularized with exploration mechanisms. 予想通り、PPO台地はしばらく経つと、探査機構が強く正規化されない限り、RLは十分な軌道で満足する傾向にある。 0.76
For GFlowNet and for MARS, the more molecules are visited, the better they become, with a slow convergence towards the proxy’s max reward. GFlowNetやMARSでは、より多くの分子が訪れるほど、それらがより良くなり、プロキシの最大報酬への収束が遅くなります。 0.69
Indeed, the maximum reward in the proxy’s dataset is 10, with only 233 examples above 8. 実際、プロキシのデータセットの最大報酬は10で、その上に233の例しかありません。 0.64
In our best run, we find 2339 unique molecules during training with a score above 8, 39 of which are in the dataset. ベストランでは、トレーニング中に2339個のユニークな分子を発見し、8,39以上のスコアがデータセットに含まれている。 0.69
We compute the average pairwise Tanimoto similarity for the top 1000 samples: GFlowNet has a mean of 0.44 ± 0.01, PPO, 0.62 ± 0.03, and MARS, 0.59 ± 0.02 (mean and std over 3 runs). GFlowNet の平均値は 0.44 ± 0.01, PPO, 0.62 ± 0.03, MARS, 0.59 ± 0.02 である。
訳抜け防止モード: トップ1000サンプルの平均対の谷本類似度を計算し、gflownet は 0.44 ± 0.01 である。 ppo, 0.62 ± 0.03, 火星 0.59 ± 0.02 (平均) stdは3回以上動作します。
0.74
As expected, our MCMC baseline (MARS) and RL baseline (PPO) find less diverse candidates. MCMCベースライン (MARS) とRLベースライン (PPO) は, 予想通り多種多様な候補が得られなかった。 0.71
We also find that GFlowNet discovers many more modes (> 1500 with R > 8 vs < 100 for MARS). また, GFlowNet は R > 8 のモード 1500 と MARS のモード <100 のモードを多く発見する。
訳抜け防止モード: これも見つからない。 GFlowNetは、さらに多くのモード(R > 8 の > 1500 と MARS の <100 )を発見する。
0.76
This is shown in Fig 5 where we consider a mode to be a Bemis-Murcko scaffold (Bemis and Murcko, 1996), counted for molecules above a certain reward threshold. これは図5で示されており、このモードはベミス・ムルッコ足場(Bemis and Murcko, 1996)であり、ある報酬閾値以上の分子を数えている。 0.69
We provide additional insights into how GFlowNet matches the rewards in Appendix A.7. GFlowNetがAppendix A.7の報酬とどのようにマッチするかについて、さらに洞察を提供する。 0.50
Figure 5: Number of diverse Bemis-Murcko scaffolds found above reward threshold T as a function of the number of molecules seen. 図5: 見られる分子数の関数として、報酬閾値Tの上にある多様なベミス・ムルッコ足場の数。 0.74
Left, T = 7.5. 左、T = 7.5。 0.83
Right, T = 8. 4.3 Multi-Round Experiments To demonstrate the importance of diverse candidate generation in an active learning setting, we consider a sequential acquisition task. 右、T = 8。 4.3 アクティブ学習環境における多様な候補生成の重要性を実証するマルチラウンド実験を行った。
訳抜け防止モード: 右、T = 8。 4.3 アクティブ学習環境における多様な候補生成の重要性を示すマルチラウンド実験 逐次的取得タスクを考える。
0.79
We simulate the setting where there is a limited budget for calls to the true oracle O. 私たちは、真のoracle oへの呼び出しの予算が限られている設定をシミュレートします。 0.63
We use a proxy M initialized by training on a limited dataset of (x, R(x)) pairs D0, where R(x) is the true reward from the oracle. 我々は (x, R(x)) 対 D0 の限られたデータセット上で訓練によって初期化されたプロキシ M を用いる。
訳抜け防止モード: 限られたデータセット(x, x)のトレーニングによって初期化されたプロキシMを使用する。 R(x ) ) は D0 をペアとし、R(x ) はオラクル から真の報酬である。
0.69
The generative model (πθ) is trained 生成モデル(πθ)が訓練される 0.84
9 02468R(x)0.000.020.0 40.060.08ˆp(R)ours,β=1ours,β=4MARS,β=1MARS,β=4proxydataset0102103 104105106moleculesvi sited2468avgRofuniqu etopkoursMARSPPOtop1 0top100top10000.00.2 0.40.60.81.0statesvi sited×10602000400060008000 10000#ofmodeswithR&g t;7.5GFlowNetMARSPPO0. 00.20.40.60.81.0stat esvisited×106050010001500#ofmo deswithR>8GFlowNetMARSPPO 9 02468r(x)0.000.020.0 40.060.08\p(r)ours,β=1ours,β=4mars,β=1mars,β=4proxydataset0102103 104105106moleculesvi sited2468avgrofuniqu etopkoursmarsppotop1 0toptop10000.00.20.4 0.60.81.0statesvisit ed×10602000400060008000 10000#ofmodeswithr&g t;7.5gflownetmarsppo0. 00.20.40.60.81.0stat esvisited×10605001500#ofmodesw ithr>8gflownetmarsppo 0.57
英語(論文から抽出)日本語訳スコア
to fit to the unnormalized probability function learned by the proxy M. We then sample a batch B = {x1, x2, . 次に、バッチ b = {x1, x2, ... をサンプリングする。 0.27
. . xk} where xi ∼ πθ, which is evaluated with the oracle O. . . ここで xi は πθ であり、これはオラクル O で評価される。 0.79
The proxy M is updated with this newly acquired and labeled batch, and the process is repeated for N iterations. プロキシMは、新たに取得されたラベル付きバッチで更新され、N回繰り返し実行される。 0.66
We discuss the experimental setting in more detail in Appendix A.5. 実験的な設定について、さらに詳しくは appendix a.5 で論じる。 0.64
Figure 6: The top-k return (mean over 3 runs) in the 4-D Hyper-grid task with active learning. 図6: アクティブな学習を伴う4次元ハイパーグリッドタスクにおけるトップkリターン(平均3回以上)。 0.73
GFlowNet gets the highest return faster. GFlowNetは最も高速なリターンを得る。 0.78
Figure 7: The top-k docking reward (mean over 3 runs) in the molecule task with active learning. 図7: アクティブな学習を伴う分子タスクにおけるトップkドッキング報酬(平均3回以上)。 0.75
GFlowNet consistently generates better samples. GFlowNetは一貫してより良いサンプルを生成する。 0.56
Hyper-grid domain We present results for the multi-round task in the 4-D hyper-grid domain in Figure 6. ハイパーグリッドドメイン 図6の4次元ハイパーグリッドドメインにおけるマルチラウンドタスクの結果を示す。 0.67
We use a Gaussian Process (Williams and Rasmussen, 1995) as the proxy. 我々は代理としてガウス過程(williams and rasmussen, 1995)を用いる。 0.78
We compare the Top-k Return for all the methods, which is defined as mean(top -k(Di)) − mean(top -k(Di−1)), where Di is the dataset of points acquired until step i, and k = 10 for this experiment. 平均(top -k(Di)) − mean(top -k(Di−1)) と定義されるすべてのメソッドのTop-kReturnを比較し、Di はステップ i まで取得された点のデータセットであり、この実験では k = 10 となる。 0.88
The initial dataset D0 (|D0| = 512) is the same for all the methods compared. 初期データセット D0 (|D0| = 512) は比較したすべてのメソッドで同じである。 0.79
We observe that FlowNet consistently outperforms the baselines in terms of return over the initial set. FlowNetは、初期セットに対するリターンという点で、ベースラインを一貫して上回ります。 0.65
We also observe that the mean pairwise L2-distance between the top -k points at the end of the final round is 0.83 ± 0.03, 0.61 ± 0.01 and 0.51 ± 0.02 for GFlowNet, MCMC and PPO respectively. また,最終ラウンド終了時の上位-k点間の平均l2距離は,それぞれ0.83 ± 0.03, 0.61 ± 0.01, 0.51 ± 0.02である。 0.82
This demonstrates the ability of GFlowNet to capture the modes, even in the absence of the true oracle, as well as the importance of capturing this diversity in multi-round settings. これは、真のオラクルがなくても、GFlowNetがモードをキャプチャする能力を示し、マルチラウンド設定でこの多様性をキャプチャすることの重要性を示している。 0.65
Small Molecules For the molecule discovery task, we initialize an MPNN proxy to predict docking scores from AutoDock (Trott and Olson, 2010), with |D0| = 2000 molecules. 小分子 分子発見タスクでは、MPNNプロキシを初期化し、AutoDock (Trott and Olson, 2010) のドッキングスコアを |D0| = 2000 分子で予測する。 0.78
At the end of each round we generate 200 molecules which are evaluated with AutoDock and used to update the proxy. 各ラウンドの最後に200個の分子を生成し、AutoDockで評価され、プロキシの更新に使用される。 0.73
Figure 7 shows GFlowNet discovers molecules with significantly higher energies than the initial set D0. 図7は、GFlowNetが初期集合 D0 よりもはるかに高いエネルギーを持つ分子を発見することを示している。 0.57
It also consistently outperforms MARS as well as Random Acquisition. また、MARSとRandom Acquisitionを一貫して上回っている。 0.54
PPO training was unstable and diverged consistently so the numbers are not reported. PPOトレーニングは不安定で、一貫して分散しており、数値は報告されていない。 0.51
The mean pairwise Tanimoto similarity in the initial set is 0.60. 初期集合の平均対の谷本相似性は 0.60 である。 0.66
At the end of the final round, it is 0.54 ± 0.04 for GFlowNet and 0.64 ± 0.03 for MARS. 最終ラウンドの最後には GFlowNet が 0.54 ± 0.04 、MARS が 0.64 ± 0.03 となる。 0.81
This further demonstrates the ability of GFlowNet to generate diverse candidates, which ultimately helps improve the final performance on the task. これはさらに、gflownetが多様な候補を生成する能力を示し、最終的にタスクの最終パフォーマンスを改善するのに役立つ。 0.67
5 Discussion & Limitations In this paper we have introduced a novel TD-like objective for learning a flow for each state and (state, action) pair such that policies sampling actions proportional to these flows draw terminal states in proportion to their reward. 5 議論と限界 本稿では,各状態のフローを学習するための新しいtdライクな目的と,これらのフローに比例する政策サンプリングアクションが,その報酬に比例して終端状態を引き出すための(状態,行動)ペアを提案する。 0.74
This can be seen as an alternative approach to turn an energy function into a fast generative model, without the need for an iterative method like that needed with MCMC methods, and with the advantage that when training succeeds, the policy generates a great diversity of samples near the main modes of the target distribution without being slowed by issues of mixing between modes. これは、MCMC法で必要とされるような反復的な手法を必要とせず、エネルギー関数を高速な生成モデルに変える代替のアプローチと見なすことができ、訓練が成功すると、このポリシーは、モード間の混合の問題によって遅くなることなく、ターゲット分布の主モード付近でサンプルの大きな多様性を生み出す。 0.81
Limitations. One downside of the proposed method is that, as for TD-based methods, the use of bootstrapping may cause optimization challenges (Kumar et al , 2020) and limit its performance. 制限。 提案手法の欠点の1つは、TDベースの方法と同様に、ブートストラップの使用は最適化の課題(Kumar et al , 2020)を引き起こし、その性能を制限することである。 0.67
In applications like drug discovery, sampling from the regions surrounding each mode is already an important advantage, but future work should investigate how to combine such a generative approach to local optimization in order to refine the generated samples and approach the local maxima of reward while keeping the batches of candidates diverse. 創薬のようなアプリケーションでは、それぞれのモードを囲む領域からのサンプリングがすでに重要なアドバンテージであるが、将来の研究は、生成したサンプルを洗練し、候補のバッチを多様に保ちながら局所的な報酬の最大値に近づくために、そのような生成的アプローチを局所最適化に組み合わせる方法を検討する必要がある。 0.67
Negative Social Impact. The authors do not foresee negative social impacts of this work specifically. 社会的影響。 著者らは、この作品の社会的影響を特に予測していない。 0.58
10 51015Roundsofacquisi tion0.00.51.01.5Top- kReturnR0=10−1R0=10−2R0=10−3GFlowNetMCMCPPO2000 250030003500No.ofMol eculesDocked7.07.58. 08.5Top-kRewardGFlow NetMARSRandomTop-10T op-100 10 51015Roundsofacquisi tion0.00.51.51.5Top- kReturnR0=10−1R0=10−2R0=10−3GFlowNetMCPPO2,0002 5003500No.ofMolecule sDocked7.07.58.08.5T op-kRewardGFlowNetMA RSRandomTop-10Top-10 0 0.44
英語(論文から抽出)日本語訳スコア
Acknowledgments and Disclosure of Funding 資金調達の承認と開示 0.77
This research was enabled in part by computational resources provided by Calcul Québec (www. この研究は、部分的には Calcul Québec (www.org) が提供する計算資源によって実現された。 0.57
calculquebec.ca) and Compute Canada (www.computecanada.c a). calculquebec.ca) and compute canada (www.computecanada.c a) 0.74
All authors are funded by their primary academic institution. すべての著者は主要な学術機関から資金を得ている。 0.61
We also acknowledge funding from Samsung, CIFAR and IBM. またSamsung、CIFAR、IBMからの資金調達も認めています。 0.64
The authors are grateful to Andrei Nica for generating the molecule dataset, to Harsh Satija for feedback on the paper, as well as to all the members of the Mila Molecule Discovery team for the many research discussions on the challenges we faced. 論文の著者はAndrei Nica氏に、分子データセットの生成について、Harsh Satija氏へのフィードバック、そしてMira Molecule Discoveryチームのメンバー全員に、私たちが直面した課題に関する多くの研究討論に感謝している。 0.71
Author Contributions EB and YB contributed to the original idea, and wrote most sections of the paper. 著者の貢献 EBとYBはオリジナルのアイデアに貢献し、論文のほとんどの部分を書いた。 0.73
YB wrote the proofs of Propositions 1-3, EB the proof of Proposition 4. YB は命題の証明 1-3, EB と命題の証明 4 を書いた。 0.61
EB wrote the code and ran experiments for sections 4.1 (hypergrid) and 4.2 (small molecules). EBはコードを書き、セクション4.1(ハイパーグリッド)と4.2(小さな分子)の実験を行った。 0.69
MJ wrote the code and ran experiments for section 4.3 (multi-round) and wrote the corresponding results section of the paper. MJはコードを書き、セクション4.3(複数ラウンド)の実験を行い、論文の対応する結果セクションを書いた。 0.66
MK wrote the biochemical framework upon which the molecule experiments are built, assisted in debugging and running experiments for section 4.3, implemented mode-counting routines used in 4.2, and wrote the biochemical details of the paper. MKは分子実験の生化学的枠組みを書き、セクション4.3のデバッグと実行を補助し、4.2で使用されるモードカウントルーチンを実装し、論文の生化学的詳細を書いた。 0.74
MK, DP and YB provided supervision for the project. MK、DP、YBはプロジェクトの監督を提供した。 0.64
All authors contributed to proofreading and editing the paper. すべての著者が論文の校正と編集に貢献した。 0.64
References Christof Angermueller, David Dohan, David Belanger, Ramya Deshpande, Kevin Murphy, and Lucy Colwell. 参照: Christof Angermueller, David Dohan, David Belanger, Ramya Deshpande, Kevin Murphy, Lucy Colwell. 0.80
Model-based reinforcement learning for biological sequence design. 生物配列設計のためのモデルベース強化学習 0.80
In International Conference on Learning Representations, 2020. 2020年、国際学習表現会議に参加。 0.78
Guy W Bemis and Mark A Murcko. ガイ・W・ベミスとマーク・ア・マーコ。 0.50
The properties of known drugs. 1. molecular frameworks. 既知の薬物の性質。 1. 分子フレームワーク。 0.76
Journal of medicinal chemistry, 39(15):2887–2893, 1996. journal of medicinedicinal chemistry, 39(15):2887-2893, 1996年。 0.77
G Richard Bickerton, Gaia V Paolini, Jérémy Besnard, Sorel Muresan, and Andrew L Hopkins. G Richard Bickerton、Gaia V Paolini、Jérémy Besnard、Sorel Muresan、Andrew L Hopkins。 0.73
Quantifying the chemical beauty of drugs. 薬物の化学的美しさの定量化。 0.71
Nature chemistry, 4(2):90–98, 2012. 自然化学 4(2):90-98, 2012 0.80
Nathan Brown, Ben McKay, François Gilardoni, and Johann Gasteiger. ナサン・ブラウン、ベン・マッケイ、フランソワ・ギルドーニ、ヨハン・ガスタイガー。 0.48
A graph-based genetic algorithm and its application to the multiobjective evolution of median molecules. グラフに基づく遺伝的アルゴリズムとその中央値分子の多目的進化への応用 0.80
Journal of chemical information and computer sciences, 44(3):1079–1087, 2004. journal of chemical information and computer sciences, 44(3):1079–1087, 2004年。 0.91
Lars Buesing, Nicolas Heess, and Theophane Weber. Lars Buesing、Nicolas Heess、Theophane Weber。 0.67
Approximate inference in discrete distributions 離散分布における近似推論 0.78
with monte carlo tree search and value functions, 2019. モンテカルロの木の探索と価値関数で2019年です 0.61
Nicola De Cao and Thomas Kipf. ニコラ・デ・カオとトーマス・キップ。 0.44
Molgan: An implicit generative model for small molecular graphs, Molgan: 小さな分子グラフのための暗黙的な生成モデル。 0.85
2018. Yize Chen and Baosen Zhang. 2018. Yize ChenとBaosen Zhang。 0.82
Learning to solve network flow problems via neural decoding. ニューラルネットワークによるネットワークフロー問題を解決するための学習。 0.70
arXiv preprint arXiv:2002.04091, 2020. arXiv arXiv:2002.04091, 2020 0.79
Hanjun Dai, Rishabh Singh, Bo Dai, Charles Sutton, and Dale Schuurmans. Hanjun Dai, Rishabh Singh, Bo Dai, Charles Sutton, Dale Schuurmans 0.66
Learning discrete energy-based models via auxiliary-variable local exploration. 補助変数局所探索による離散エネルギーモデル学習 0.73
In Neural Information Processing Systems (NeurIPS), 2020. ニューラル情報処理システム(NeurIPS)、2020年。 0.68
Justin Gilmer, Samuel S. Schoenholz, Patrick F. Riley, Oriol Vinyals, and George E. Dahl. Justin Gilmer、Samuel Schoenholz、Patrick F. Riley、Oriol Vinyals、George E. Dahl。 0.79
Neural message passing for quantum chemistry, 2017. 神経 量子化学へのメッセージパッシング、2017年。 0.69
Sai Krishna Gottipati, Boris Sattarov, Sufeng Niu, Yashaswi Pathak, Haoran Wei, Shengchao Liu, Karam M. J. Thomas, Simon Blackburn, Connor W. Coley, Jian Tang, Sarath Chandar, and Yoshua Bengio. Sai Krishna Gottipati, Boris Sattarov, Sufeng Niu, Yashaswi Pathak, Haoran Wei, Shengchao Liu, Karam M. J. Thomas, Simon Blackburn, Connor W. Coley, Jian Tang, Sarath Chandar, Yoshua Bengio 0.84
Learning to navigate the synthetically accessible chemical space using reinforcement learning, 2020. 強化学習による合成可能な化学空間をナビゲートする学習、2020年。 0.78
Will Grathwohl, Kevin Swersky, Milad Hashemi, David Duvenaud, and Chris J. Maddison. Will Grathwohl、Kevin Swersky、Milad Hashemi、David Duvenaud、Chris J. Maddison。 0.76
Oops i took a gradient: Scalable sampling for discrete distributions, 2021. おおっ! 離散分布に対するスケーラブルサンプリング、2021年。 0.43
11 11 0.85
英語(論文から抽出)日本語訳スコア
Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, and Sergey Levine. Tuomas Haarnoja、Haoran Tang、Pieter Abbeel、Sergey Levine。 0.60
Reinforcement learning with deep energy-based policies. 深層エネルギー政策による強化学習 0.72
In International Conference on Machine Learning, pages 1352–1361. 国際機械学習会議において、1352-1361頁。 0.77
PMLR, 2017. 2017年、PMLR。 0.66
Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, and Sergey Levine. Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel、Sergey Levine。 0.60
Soft actor-critic: Off-policy ソフトアクター批評家:オフ政治 0.45
maximum entropy deep reinforcement learning with a stochastic actor, 2018. 確率的俳優による最大エントロピー深層強化学習、2018年。 0.65
Jan H Jensen. Jan H Jensen 0.64
A graph-based genetic algorithm and generative model/monte carlo tree search for the グラフに基づく遺伝的アルゴリズムと生成モデル/モンテカルロ木探索 0.77
exploration of chemical space. Chemical science, 10(12):3567–3572, 2019. 化学空間の探査です 化学誌 10(12):3567–3572, 2019。 0.76
Wengong Jin, Regina Barzilay, and Tommi Jaakkola. Wengong Jin、Regina Barzilay、Tommi Jaakkola。 0.61
Chapter 11. junction tree variational autoencoder for molecular graph generation. 第11章 分子グラフ生成のための接合木変分オートエンコーダ 0.75
Drug Discovery, page 228–249, 2020. 薬物発見、2020年228-249頁。 0.75
ISSN 2041-3211. doi: 10. ISSN 2041-3211. doi: 10。 0.77
1039/9781788016841-0 0228. 1039/9781788016841-0 0228. 0.50
URL http://dx.doi.org/10 .1039/9781788016841- 00228. URL http://dx.doi.org/10 .1039/9781788016841- 00228 0.36
Andreas Kirsch, Joost van Amersfoort, and Yarin Gal. andreas kirsch、joost van amersfoort、yarin gal。 0.47
Batchbald: Efficient and diverse batch Batchbald: 効率的で多様なバッチ 0.78
acquisition for deep bayesian active learning, 2019. deep bayesian active learning, 2019の買収。 0.75
Ashutosh Kumar, A Voet, and KYJ Zhang. Ashutosh Kumar、A Voet、KYJ Zhang。 0.67
Fragment based drug design: from experimental to フラグメントに基づく薬物設計--実験から実験へ 0.75
computational approaches. Current medicinal chemistry, 19(30):5128–5147, 2012. 計算のアプローチ。 現在の医薬化学 19(30):5128-5147, 2012 0.72
Aviral Kumar, Rishabh Agarwal, Dibya Ghosh, and Sergey Levine. Aviral Kumar、Rishabh Agarwal、Dibya Ghosh、Sergey Levine。 0.65
Implicit under-parameterizati on inhibits data-efficient deep reinforcement learning, 2020. 入射下パラメータ化 データ効率の深い強化学習を阻害する。 0.59
Greg Landrum. グレッグ・ランドラム 0.51
Rdkit: Open-source cheminformatics. rdkit: オープンソースのcheminformatics。 0.53
URL http://www.rdkit.org . URL http://www.rdkit.org 0.63
Youzhi Luo, Keqiang Yan, and Shuiwang Ji. youzhi luo、keqiang yan、shuiwang ji。 0.55
Graphdf: A discrete flow model for molecular graph graphdf:分子グラフのための離散フローモデル 0.85
generation, 2021. Charlie Nash and Conor Durkan. 世代 2021年 チャーリー・ナッシュと コナー・デュカン 0.56
Autoregressive energy machines, 2019. 自走式エネルギー機械、2019年。 0.65
Alireza Nazemi and Farahnaz Omidi. Alireza NazemiとFarahnaz Omidi。 0.79
A capable neural network model for solving the maximum 最大解法のための有能なニューラルネットワークモデル 0.79
flow problem. Journal of Computational and Applied Mathematics, 236(14):3498–3513, 2012. 流れの問題だ Journal of Computational and Applied Mathematics, 236(14):3498–3513, 2012 0.82
Diana M. Negoescu, Peter I. Frazier, and Warren B. Powell. ダイアナ・ネゴスク、ピーター・I・フレイジャー、ウォーレン・B・パウエル。 0.49
The knowledge-gradient algorithm for sequencing experiments in drug discovery. 薬物発見におけるシークエンシング実験のための知識段階的アルゴリズム 0.73
23(3):346–363, 2011. 23(3):346–363, 2011. 0.88
ISSN 1526-5528. doi: 10.1287/ijoc.1100.04 17. ISSN 1526-5528. doi: 10.1287/ijoc.1100.04 17 0.47
URL https://doi.org/10.1 287/ijoc.1100.0417. URL https://doi.org/10.1 287/ijoc.1100.0417 0.36
Andrew Y Ng, Stuart J Russell, et al Algorithms for inverse reinforcement learning. Andrew Y Ng, Stuart J Russell, et al Algorithms for inverse reinforcement learning。 0.83
In Icml, volume 1, page 2, 2000. Icml。 第1巻2000年。 0.43
Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, Soumith Chintala 0.81
Pytorch: An imperative style, high-performance deep learning library. Pytorch: 命令型で高性能なディープラーニングライブラリです。 0.77
In H. Wallach, H. Larochelle, A. Beygelzimer, F. d'AlchéBuc, E. Fox, and R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 8024–8035. H. Wallach, H. Larochelle, A. Beygelzimer, F. d'AlchéBuc, E. Fox, R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 8024–8035。 0.93
Curran Associates, Inc., 2019. Curran Associates, Inc., 2019 0.71
URL http://papers.neurip s.cc/paper/ 9015-pytorch-an-impe rative-style-high-pe rformance-deep-learn ing-library. URL http://papers.neurip s.cc/paper/9015-pyto rch-an-imperative-st yle-high- Performance-deep-lea rning-library 0.22
pdf. Abdurrahman Pekta¸s and Tankut Acarman. pdf。 アブドゥラーマン・ペクタ(Abdurrahman Pekta)とタンガット・アカルマン(Thanut Acarman)。 0.64
Deep learning to detect botnet via network flow summaries. ネットワークフローサマリーを介してボットネットを検出するディープラーニング。 0.60
Neural Computing and Applications, 31(11):8021–8033, 2019. Neural Computing and Applications, 31(11):8021–8033, 2019。 0.93
Mariya Popova, Mykhailo Shvets, Junier Oliva, and Olexandr Isayev. Mariya Popova, Mykhailo Shvets, Junier Oliva, Olexandr Isayev 0.66
Molecularrnn: Generating Molecularrnn: 生成 0.81
realistic molecular graphs with optimized properties, 2019. 最適化された特性を持つ 現実的な分子グラフ 2019年 0.59
RK Rahul, T Anjali, Vijay Krishna Menon, and KP Soman. RK Rahul、T Anjali、Vijay Krishna Menon、KP Soman。 0.67
Deep learning for network flow analysis and malware classification. ネットワークフロー解析とマルウェア分類のためのディープラーニング 0.78
In International Symposium on Security in Computing and Communication, pages 226–235. International Symposium on Security in Computing and Communication』 226-235頁。 0.80
Springer, 2017. 2017年、スプリンガー。 0.54
Danilo Jimenez Rezende and Shakir Mohamed. Danilo Jimenez RezendeとShakir Mohamed。 0.76
Variational inference with normalizing flows, 2016. 正規化フローによる変分推論, 2016。 0.71
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov 0.69
Proximal policy optimization algorithms, 2017. 近位政策 最適化アルゴリズム、2017年。 0.67
12 12 0.85
英語(論文から抽出)日本語訳スコア
Ari Seff, Wenda Zhou, Farhan Damani, Abigail Doyle, and Ryan P Adams. Ari Seff、Wenda Zhou、Farhan Damani、Abigail Doyle、Ryan P Adams。 0.71
Discrete object generation 離散オブジェクト生成 0.69
with reversible inductive construction. 可逆的な帰納的構成です 0.49
arXiv preprint arXiv:1907.08268, 2019. arXiv preprint arXiv:1907.08268, 2019 0.81
Chence Shi, Minkai Xu, Zhaocheng Zhu, Weinan Zhang, Ming Zhang, and Jian Tang. chence shi、minkai xu、zhaocheng zhu、weinan zhang、ming zhang、jian tang。 0.49
Graphaf: a graphaf: a 0.78
flow-based autoregressive model for molecular graph generation, 2020. 分子グラフ生成のためのフローベース自己回帰モデル,2020 0.76
Yunsheng Shi, Zhengjie Huang, Shikun Feng, Hui Zhong, Wenjin Wang, and Yu Sun. Yunsheng Shi, Zhengjie Huang, Shikun Feng, Hui Zhong, Wenjin Wang, Yu Sun 0.69
Masked label prediction: Unified message passing model for semi-supervised classification, 2021. マスクラベル 予測:半教師付き分類のための統一メッセージパッシングモデル、2021。 0.60
Niranjan Srinivas, Andreas Krause, S. Kakade, and M. Seeger. Niranjan Srinivas、Andreas Krause、S. Kakade、M. Seeger。 0.80
Gaussian process optimization in the bandit setting: No regret and experimental design. ガウス過程の最適化 bandit set: 後悔や実験的な設計はありません。 0.67
In ICML, 2010. 2010年、ICML。 0.70
Teague Sterling and John J Irwin. ティーグ・スターリングとジョン・j・アーウィン 0.54
Zinc 15–ligand discovery for everyone. Zinc 15-ligand discovery for everyone 0.88
Journal of chemical Journal of Chemical (英語) 0.54
information and modeling, 55(11):2324–2337, 2015. 情報とモデリング, 55(11):2324–2337, 2015。 0.86
Richard S Sutton and Andrew G Barto. リチャード・S・サットンとアンドリュー・G・バルト。 0.59
Reinforcement learning: An introduction. MIT press, 2018. 強化学習: 入門。 MIT出版、2018年。 0.63
Kevin Swersky, Yulia Rubanova, David Dohan, and Kevin Murphy. Kevin Swersky、Yulia Rubanova、David Dohan、Kevin Murphy。 0.74
Amortized bayesian optimization over discrete spaces. 離散空間上のamortized bayesian optimization。 0.79
In Conference on Uncertainty in Artificial Intelligence, pages 769–778. 人工知能の不確実性に関する会議では、769-778頁。 0.56
PMLR, 2020. PMLR、2020年。 0.88
Oleg Trott and Arthur J Olson. oleg trottとarthur j olson。 0.64
Autodock vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. autodock vina: 新しいスコアリング機能、効率的な最適化、マルチスレッドによるドッキングのスピードと精度の向上。 0.75
Journal of computational chemistry, 31(2):455–461, 2010. Journal of Computer Chemistry, 31(2):455–461, 2010 0.87
C. K. Williams and C. Rasmussen. C・K・ウィリアムズとC・ラスムッセン。 0.59
Gaussian processes for regression. 回帰のためのガウス過程。 0.59
Processing Systems (NeurIPS), 1995. 処理システム (NeurIPS) 1995年。 0.74
In Neural Information Yutong Xie, Chence Shi, Hao Zhou, Yuwei Yang, Weinan Zhang, Yong Yu, and Lei Li. 神経情報では Yutong Xie, Chence Shi, Hao Zhou, Yuwei Yang, Weinan Zhang, Yong Yu, Lei Li 0.69
{MARS}: Markov molecular sampling for multi-objective drug discovery. {MARS}:多目的薬物発見のためのマルコフ分子サンプリング。 0.75
In International Conference on Learning Representations, 2021. 2021年、国際学習表現会議に参加。 0.78
URL https://openreview.n et/forum?id=kHSu4ebxFXY. URL https://openreview.n et/forum?id=kHSu4ebxFXY 0.55
Checklist 1. チェックリスト 1. 0.76
For all authors... (a) Do the main claims made in the abstract and introduction accurately reflect the paper’s contributions and scope? 作者全員に。 (a) 要約と導入の主要な主張は、論文の貢献と範囲を正確に反映しているか? 0.68
[Yes] We provide proofs (see Section 2 and Appendix) for our theoretical claims and fair empirical results with our proposed methods and baselines (see Section 4). 【はい]理論的な主張に対する証明(第2節及び付録)と提案手法及びベースラインを用いて公正な実証結果を提供する(第4節参照)。 0.78
(b) Did you describe the limitations of your work? (b)仕事の限界について説明しましたか。 0.79
[Yes] GFlowNet is limited by its use of [Yes]GFlowNetは、その使用によって制限される 0.79
bootstrapping, which is known to be challenging in Deep RL (see Section 5). ブートストラッピングはDeep RLで難しいことが知られている(第5節参照)。 0.69
(c) Did you discuss any potential negative societal impacts of your work? (c)仕事の否定的な社会的影響について話し合ったか? 0.76
[Yes] Our theoretical work is fairly agnostic to applications, and aims to compete with existing MCMC-based methods (see Sections 1, 4, and 5). [Yes]我々の理論的研究はアプリケーションに大きく依存せず、既存のMCMCベースの手法と競合することを目指している(第1節、4項、5項参照)。
訳抜け防止モード: ]我々の理論的研究は応用にかなり無関係です。 既存のMCMCベースのメソッド(セクション1、4、5)と競合することを目指している。
0.71
Our empirical work situates itself in the context of automated drug-discovery. 我々の経験的な研究は、自動的な薬物発見の文脈に置かれている。 0.46
(d) Have you read the ethics review guidelines and ensured that your paper conforms to (d) 倫理審査ガイドラインを読めば、論文が適合することを保証できますか。 0.66
them? [Yes] 2. 彼ら? [Yes] 2. 0.84
If you are including theoretical results... もし理論結果を含むなら... 0.81
(a) Did you state the full set of assumptions of all theoretical results? (a)すべての理論結果の仮定の完全なセットを述べましたか。 0.82
[Yes] (b) Did you include complete proofs of all theoretical results? [Yes] (b) すべての理論結果の完全な証明は含まれましたか? 0.81
[Yes] All complete proofs [Yes]すべての完全証明 0.87
are available in the Appendix. Appendixで利用可能である。 0.73
3. If you ran experiments... 3. 実験をすれば... 0.80
(a) Did you include the code, data, and instructions needed to reproduce the main experi- (a)メインの体験を再現するために必要なコード、データ、命令は含まれましたか? 0.64
mental results (either in the supplemental material or as a URL)? 精神的な結果(補足材料やurlとして)? 0.61
[Yes] (b) Did you specify all the training details (e g , data splits, hyperparameters, how they were chosen)? [Yes] (b) トレーニングの詳細(データ分割、ハイパーパラメータ、それらの選択方法など)をすべて指定しましたか? 0.85
[Yes] Hyperparameters and architectural choices are reported in the Appendix, and verifiable in the provided code. Yes]ハイパーパラメータとアーキテクチャの選択はAppendixで報告され、提供されたコードで検証されます。 0.64
13 13 0.85
英語(論文から抽出)日本語訳スコア
(c) Did you report error bars (e g , with respect to the random seed after running experiments multiple times)? (c) エラーバー(実験を複数回行った後、ランダムシードに関して)を報告しましたか? 0.71
[No] We omit error bars for clarity, but we report standard deviations in the Appendix to verify the significance of our results. [いいえ] エラーバーを省略して明確化しますが、その結果の妥当性を検証するために、Appendixの標準偏差を報告します。 0.56
(d) Did you include the total amount of compute and the type of resources used (e g , type (d)計算総量と使用するリソースの種類(例えば、型)は含まれましたか? 0.69
of GPUs, internal cluster, or cloud provider)? GPU、内部クラスタ、クラウドプロバイダについて)? 0.72
[Yes] See A.3. [はい]A.3を参照。 0.71
4. If you are using existing assets (e g , code, data, models) or curating/releasing new assets... 4. 既存の資産(コード、データ、モデルなど)を使用する場合や、新しい資産をキュレート/リースする場合...。
訳抜け防止モード: 4. 既存の資産(コードなど)を使用している場合 データ、モデル、または新しい資産のキュレーションとリリース...
0.79
(a) If your work uses existing assets, did you cite the creators? (a)もしあなたの作品が既存の資産を使っているなら、作者を引用しましたか? 0.56
[Yes] (b) Did you mention the license of the assets? [Yes] (b) 資産のライセンスについて言及しましたか? 0.88
[N/A] (c) Did you include any new assets either in the supplemental material or as a URL? [N/A] (c) 補足材料またはURLとして、新しい資産は含まれましたか? 0.87
[N/A] (d) Did you discuss whether and how consent was obtained from people whose data you’re [N/A] (d)自分がデータを持っている人から同意を得たかどうかを議論しましたか。 0.73
using/curating? [N/A] 使用/追跡? [N/A] 0.58
(e) Did you discuss whether the data you are using/curating contains personally identifiable (e)自分が使っているデータが個人識別可能かどうかを議論しましたか。 0.55
information or offensive content? 情報か攻撃的コンテンツか? 0.70
[N/A] 5. If you used crowdsourcing or conducted research with human subjects... [N/A] 5. クラウドソーシングを使ったり、人間の被験者による研究を行ったりすれば...。 0.67
(a) Did you include the full text of instructions given to participants and screenshots, if (a) 参加者とスクリーンショットに与えられた指示の全文は含まれていたか。 0.72
applicable? [N/A] 適用可能? [N/A] 0.77
(b) Did you describe any potential participant risks, with links to Institutional Review (b)Institutional Reviewにリンクして、潜在的な参加者リスクについて説明しましたか? 0.58
Board (IRB) approvals, if applicable? 委員会(IRB)の承認は適用可能か? 0.73
[N/A] (c) Did you include the estimated hourly wage paid to participants and the total amount [N/A] (c)参加者に支払われた時給と合計額を含まないか。
訳抜け防止モード: [N/A] (c)参加者に支払われた時間給を含ませたか 合計すると
0.77
spent on participant compensation? 報酬に費やしたのか? 0.61
[N/A] 14 [N/A] 14 0.82
英語(論文から抽出)日本語訳スコア
A Appendix appendix (複数形 appendixs) 0.35
All our ML code uses the PyTorch (Paszke et al , 2019) library. 私たちのMLコードは、すべてPyTorch (Paszke et al , 2019)ライブラリを使用します。 0.73
We reimplement RL and other baselines. RLや他のベースラインを再実装します。 0.60
We use the AutoDock Vina (Trott and Olson, 2010) library for binding energy estimation and RDKit (Landrum) for chemistry routines. 我々はAutoDock Vina (Trott and Olson, 2010) ライブラリを結合エネルギー推定に、RDKit (Landrum) を化学ルーチンに使用する。 0.82
Running all the molecule experiments presented in this paper takes an estimated 26 GPU days. この論文で示された全ての分子実験を実行するには、推定26GPU日を要する。
訳抜け防止モード: 本論文における全ての分子実験の実施 推定26GPU日を要します。
0.78
We use a cluster with NVidia V100 GPUs. NVidia V100 GPUのクラスタを使用します。 0.81
The grid experiments take an estimated 8 CPU days (for a single-core). グリッド実験は、推定8CPU日(シングルコアの場合)を要した。 0.68
All implementations are available at https://github.com/b engioe/gflownet. すべての実装はhttps://github.com/b engioe/gflownetで利用可能である。 0.45
(cid:55)→ S associate each allowed action sequence (cid:126)a ∈ A (cid:55)→ S はそれぞれの許容された作用列 (cid:126)a ∈ A を関連付ける 0.63
A.1 Proofs ∗ to a state ∗ Proposition 1. A.1 は ∗ を状態 ∗ 命題 1 に証明する。 0.63
Let F : A (cid:126)b∈A∗(s) R(s + (cid:126)b) > 0, ∗(s) is the sent of allowed continuations from s and s + (cid:126)b denotes the resulting state, where A i.e., V (s) is the sum of the rewards of all the states reachable from s. Consider a policy π which starts from the state corresponding to the empty string s0 = F (∅) and chooses from b∈A(s) V (s+b) . F : A (cid:126)b∂A∗(s) R(s + (cid:126)b) > 0, ∗(s) は s と s + (cid:126)b からの許容連続の送出であり、ここで A (s) は s から到達可能な全ての状態の報酬の和である。
訳抜け防止モード: F : A ( cid:126)b・A∗(s ) R(s + ( cid:126)b ) > 0 とする。 ∗(s ) は s と s + ( cid:126)b からの許容連続の送出である。 例えば、V ( s ) は s から到達可能な全ての状態の報酬の和である。 空文字列 s0 = F に対応する状態から始まるポリシー π を考える。 そして、b∂A(s) V ( s+b ) から選択する。
0.80
Denote state s ∈ S an allowable action a ∈ A(s) with probability π(a|s) = i=1 π(ai|F (a1, . s ∈ S を確率 π(a|s) = i=1 π(ai|F (a1, ) で許容可能な作用 a ∈ A(s) とする。 0.80
. . , ai−1)) and π(s) with s ∈ S the probability of visit- . . s ∈ s を持つ , ai−1) と π(s) の訪問確率- 0.85
s = F ((cid:126)a) ∈ S. Let V : S (cid:55)→ R+ associate each state s ∈ S to V (s) =(cid:80) (cid:80) π((cid:126)a = (a1, . s = f ((cid:126)a) ∈ s. let v : s (cid:55)→ r+ associate each state s ∈ s to v (s) =(cid:80) (cid:80) π((cid:126)a = (a1, )。 0.85
. . , aN )) =(cid:81)N (a) π(s) =(cid:80) (cid:80) x(cid:48)∈X n(x(cid:48))R(x(cid: 48)) . . . , aN ) = (cid:81)N (a) π(s) = (cid:80) (cid:48) x(cid:48)⋅X n(x(cid:48))R(x(cid: 48))。 0.86
(b) If F is bijective, then π(s) = V (s) x∈X R(x) . (b) F が単射であれば、π(s) = V(s) x∂X R(x) となる。 0.80
(c) If F is surjective and there are n(x) distinct action sequences (cid:126)ai s.t. (c) f が全射で n(x) 個の異なる作用列 (cid:126)ai s.t) が存在する場合。 0.69
F ((cid:126)ai) = x, then π(x) = F((cid:126)ai) = x ならば π(x) = 0.91
V (s0) and as a special case for terminal states x, π(x) = V (s0) および端末状態 x, π(x) = の特別な場合として 0.92
ing a state s with this policy. 国家のsをこの政策に合わせます 0.70
The following then obtains: すると次のようになる。 0.54
(cid:126)ai:F ((cid:126)ai)=s π((cid:126)ai). (cid:126)ai:F((cid:1 26)ai)=s π((cid:126)ai) 0.89
n(x)R(x) (cid:80) n(x)R(x) (cid:80) 0.82
V (s+a) R(x) V (s+a) R(x) 0.85
Proof. Since s can be reached (from s0) according to any of the action sequences (cid:126)ai such that F ((cid:126)ai) = s and they are mutually exclusive and cover all the possible ways of reaching s, the 証明。 s は f ((cid:126)ai) = s となるすべての作用列 (cid:126)ai に従って(s0 から)到達できるので、それらは互いに排他的であり、s に到達する可能なすべての方法をカバーする。
訳抜け防止モード: 証明。 s は F ( ( cid:126)ai ) = s となるような作用列 (cid:126)ai のいずれかに従って (s0 から) 到達できる。 互いに排他的であり sに到達する方法を全てカバーしています
0.70
probability that π visits state s is simply(cid:80) that π(s) = π((cid:126)a). π が状態 s を訪問する確率は、π(s) = π((cid:126)a) である。 0.79
First note that because V (s) =(cid:80) terminal rewards for all the leaves rooted at s, we have that V (s) =(cid:80) 第一に、V(s) =(cid:80) 終端は s で根付いたすべての葉に対して与えられるので、V(s) =(cid:80) となる。 0.73
If F is bijective, it means that there is only one such action sequence (cid:126)a = (a1, . F が単射であれば、そのような作用列 (cid:126)a = (a1, ) は 1 つしかないことを意味する。 0.64
. . , aN ) landing in state s, and the set of action sequences and states forms a tree rooted at s0. . . 状態 s に ) ランディングし、アクションシーケンスと状態の集合は s0 に根ざした木を形成する。 0.79
hence by (a) we get (cid:126)b∈A∗(s) R(s + (cid:126)b), i.e., V (s) is the sum of the b∈A(s) V (s + b). したがって、 (a) によって (cid:126)bبa∗(s) r(s + (cid:126)b)、すなわち v (s) は bبa(s) v (s + b) の和である。 0.75
Let us now V (s0). V (s0) にしましょう。 0.72
It is true for s = s0 since π(s0 = 1) (i.e., every trajectory s = s0 に対して π(s0 = 1) が成り立つ(つまりすべての軌道)。 0.86
prove by induction that π(s) = V (s) includes s0). π(s) = V(s) が s0 を含むことを証明する。 0.75
Assuming it is true for s(cid:48) = F (a1, . s(cid:48) = F (a1, ) に対して真であると仮定する。 0.66
. . , aN−1), consider s = F (a1, . . . s = F (a1, ) を考える。 0.75
. . , aN ): (cid:126)ai:F ((cid:126)ai)=s π((cid:126)ai), i.e., we obtain (a). . . ,aN)。 (cid:126)ai:f((cid:1 26)ai)=s π((cid:126)ai)、すなわち(a)を得る。 0.80
(cid:48) )π(s (cid:48)π(s) 0.92
) = (cid:80) ) = (cid:80) 0.82
V (s) b∈A(s(cid:48)) V (s(cid:48) + b) v (s) b)A(s(cid:48))V(s(ci d:48) + b) 0.74
V (s(cid:48)) V (s0) V (s(cid:48)) V (s0) 0.94
. b∈A(s) V (s + b), we thus obtain a cancellation of V (s(cid:48)) with . b・A(s)V(s + b) なので、V(s(cid:48)) のキャンセルが得られる。 0.78
(cid:48) π(s) = π(aN|s (cid:48)π(s) = π(aN|s) 0.81
Using our above result that V (s) =(cid:80) (cid:80) b∈A(s(cid:48)) V (s(cid:48) + b) and obtain (cid:80) V (s) = (cid:80) (cid:80) b・A(s(cid:48)) V (s(cid:48) + b) を得て (cid:80) を得る。 0.76
π(s) = V (s) V (s0) π(s) = V (s) V (s0) 0.90
, (15) (cid:80) x(cid:48)∈X R(x(cid:48)), which finishes to prove (b). , (15) (cid:80) x(cid:48) ajaxx r(x(cid:48)) は (b) を証明するために終わる。 0.82
R(x) proving that the recursion holds. R(x) 再帰が成り立つことを証明します 0.71
We already know from the definition of V that V (s0) = x∈X R(x), so for the special case of x a terminal state, V (x) = R(x) and Eq 15 becomes V の定義から V (s0) = x∂X R(x) が既に知られているので、x の特別の場合、V (x) = R(x) と Eq 15 が成立する。 0.85
π(x) = On the other hand, if F is surjective, the set of paths forms a DAG, and generally not a tree. 一方 π(x) = に対し、f が全射であるなら、経路の集合は dag を形成し、一般に木ではない。 0.67
Let us transform the DAG into a tree by creating a new state-space (for the tree version) which is the action sequence itself. DAGをツリーに変換するには、アクションシーケンス自身である新しい状態空間(ツリーバージョン)を作成します。 0.68
Note how the same original leaf node x is now repeated n(x) times in the tree (with leaves denoted by action sequences (cid:126)ai) if there are n(x) action sequences leading to x in the DAG. 同じ元の葉ノード x が木で n(x) 回繰り返される(DAG に x につながる n(x) の作用列が存在する場合、作用列 (cid:126)ai) で表される葉を持つ)ことに注意。 0.81
With the same definition of V and π(a|s) but in the tree, we obtain all the results from (b) (which are applicable because we have a tree), and in particular π((cid:126)ai) under the tree is proportional to R(x(cid:48)) = R(x). v と π(a|s) は同じ定義であるが、木では (b) からすべての結果を得る(木があるから適用できる)、特に木の下での π((cid:126)ai) は r(x(cid:48)) = r(x) に比例する。 0.76
Applying (a), we see that π(x) ∝ n(x)R(x), which proves (c). a) を適用すると、(c) を証明する π(x) = n(x)R(x) が分かる。 0.73
15 15 0.85
英語(論文から抽出)日本語訳スコア
Proposition 3. Let trajectories τ used to train Qθ be sampled from an exploratory policy P with the same support as the optimal π defined in Eq 5 for the correct flows Q∗. 命題3。 Qθ を訓練するために用いられる軌道 τ を、正しいフロー Q∗ に対して Eq 5 で定義される最適 π と同じ支持を持つ探索ポリシー P からサンプリングする。 0.69
Also assume that ∃θ : Qθ = Q∗, i.e., we choose a sufficiently rich family of predictors. また、 sθ : qθ = q∗ 、すなわち、十分リッチな予測子族を選ぶと仮定する。 0.65
Let θ∗ ∈ argminθEP (τ )[Lθ(τ )] a minimizer of the expected training loss. θ∗ ∈ argminθEP (τ )[Lθ(τ )] を予想されるトレーニング損失の最小値とする。 0.79
Let Lθ(τ ) have the property that when flows are matched it achieves its lowest possible value. Lθ(τ ) はフローが一致するときその最小の値が得られるという性質を持つ。 0.75
First, it can be shown that this property is satisfied for the loss in Eq. 第一に、この性質はeqの損失に満足していることを示すことができる。 0.77
12. Then ∗ Qθ∗ = Q 12. そして ∗ Qθ∗ = Q 0.81
, and Lθ∗ (θ) = 0 ∀θ ∼ P (θ), と Lθ∗ (θ) = 0 >θ > P (θ) である。 0.64
(16) (17) i.e., a global optimum of the expected loss provides the correct flows, and in the space of functions Q(s, a) for the flow, If πθ∗ (a|s) = (16) (17) すなわち、期待損失の大域的最適性は正しい流れをもたらし、流れに対する関数 q(s, a) の空間において πθ∗ (a|s) = である。 0.84
(cid:80) a(cid:48)∈A(s) Qθ∗ (s,a(cid:48)) then we also have (cid:80) a(cid:48)・A(s) Qθ∗ (s,a(cid:48)) 0.80
there are no minima other than this global minimum. このグローバル最小値以外にミニマは存在しません。 0.64
Qθ∗ (s,a) πθ∗ (x) = Qθ∗ (s,a) πθ∗ (x) = 0.90
. (18) R(x) . (18) R(x) 0.85
Z Proof. A per-trajectory loss of 0 can be achieved by choosing a θ such that Qθ = Q (which we assumed was possible), since this makes the incoming flow equal the outgoing flow. Z 証明。 軌道毎の損失 0 は、Qθ = Q であるような θ を選択することで達成できる(これは我々が仮定した)。
訳抜け防止モード: Z 証明。 1-軌道損失 0 は、Qθ = Q となるような θ を選択することで得られる。 流入する流れが 流出する流れと等しくなるからです
0.70
Note that there always exists a solution Q∗ in the space of allow possible flow functions which satisfies the flow equations (incoming = outgoing) by construction of flow networks with only a constraint on the flow in the terminal nodes (leaves). 常に可能なフロー関数を許容する空間に解 Q∗ が存在することに注意し、フロー方程式 (incoming = outgoing) を、終点ノード(リーブ)内のフローに制限のみを課すフローネットワークの構築によって満足する。 0.84
Since having Lθ(τ ) equal to 0 for all τ ∼ P (θ) makes the expected loss 0, and this is the lowest achievable value (since Lθ(τ ) ≥ 0 ∀θ), it means that such a θ is a global minimizer of the expected loss, and we can denote it θ∗. lθ(τ ) がすべての τ(τ ) に対して 0 に等しいから、期待損失は 0 となり、(lθ(τ ) ≥ 0 であるから)最小の達成可能値となるので、そのような θ は期待損失の大域的最小値であり、それを θ∗ と表すことができる。 0.90
If we optimize Q in function space, we can directly set to 0 the gradient of the loss with respect to Q(s, a) separately. 函数空間において Q を最適化すれば、Q(s, a) に対して損失の勾配を直接 0 に設定することができる。 0.73
Doing so we find that there is only one solution, which is when the in-flow equals the out-flow, showing that the only minimum in function space is the global minimum2. これにより、インフローがアウトフローと等しい場合に唯一の解が存在することが分かり、関数空間における最小値が大域的最小値であることを示す。 0.68
Since we have chosen P with support large enough to include all the trajectories leading to a terminal state R(x) > 0, it means that Lθ(τ ) = 0 for all these trajectories and that Qθ = Q for all nodes on these trajectories. 終状態 R(x) > 0 に至るすべての軌道を含むのに十分な大きさの P を選択したので、これらすべての軌道に対して Lθ(τ ) = 0 であり、これらの軌道上の全てのノードに対して Qθ = Q となる。 0.77
We can then apply Proposition 2 (since the flows match everywhere and we have defined the policy correspondingly, as per Eq 5). すると、命題2を適用できる(フローが至る所で一致するので、Eq 5 のようにポリシーを定義した)。 0.69
We then obtain the conclusion by applying result (c) from Proposition 2. 次に、命題2から結果(c)を適用して結論を得る。 0.73
A.2 Action-value function equivalence A.2 アクション値関数同値 0.63
Here we show that the flow Q(s, a) that the proposed method learns can correspond to a “real” action-value function ˆQµ(s, a) in an RL sense, for a policy µ. ここでは、提案手法が学習するフロー Q(s, a) が、ポリシー μ に対して、RL の意味での「実」作用値関数 シュQμ(s, a) に対応できることを示す。 0.84
First note that this is in a way trivially true: in inverse RL (Ng et al , 2000) there typically exists an infinite number of solutions to defining ˆR from a policy π such that π = arg maxπi V πi(s; ˆR) ∀s, where V πi(s; ˆR) is the value function at s for reward function R. More interesting is the case where Q(s, a; R) obtained from computing the flow corresponding to R is exactly equal to some Qµ(s, a; ˆR) modulo a multiplicative factor f (s) . 逆 RL (Ng et al , 2000) において、一般に π = arg maxπi V πi(s; sR) を π = arg maxπi V πi(s; sR) と定義する解の無限個が存在し、ここで V πi(s; sR) は報酬関数 R の s における値関数である。
訳抜け防止モード: 逆 RL (Ng et al, 2000 ) では、π = arg maxπi V πi(s ; s R ) s となるようなポリシー π から πR を定義するための無限の解が存在するのが普通である。 V πi(s ; s R ) は s における報酬関数 R の値関数である。 a ; R ) が R に対応する流れの計算から得られるフローは、ちょうどいくつかの Qμ(s) と等しい。 a ; ; R ) 乗法因子 f ( s ) を変調する。
0.82
What are µ and ˆR? μ と err とは何か? 0.79
In the bijective case a simple answer exists. 単射の場合、単純な答えが存在する。 0.65
Proposition 4. Let µ be the uniform policy such that µ(a|s) = 1/|A(s)|, let f (x) =(cid:81)n 命題4。 μ を μ(a|s) = 1/|A(s)| とする一様ポリシーとし、f(x) =(cid:81)n とする。 0.66
when x ≡ (s0, s1, ..., sn), and let ˆR(x) = R(x)f (sn−1), then Qµ(s, a; ˆR) = Q(s, a; R)f (s). x > (s0, s1, ..., sn) とすると、 s R(x) = R(x)f (sn−1) とすると、Qμ(s, a; s R) = Q(s, a; R)f (s) となる。 0.90
t=0 |A(st)| t=0 |A(st)| 0.82
Proof. By definition of the action-value function in terms of the action-value at the next step and by definition of µ: 証明。 次のステップでのアクション値とμ:の定義によるアクション値関数の定義
訳抜け防止モード: 証明。 行動の定義によって -アクションの観点からの値関数。 μ の定義による次のステップでの値
0.73
(cid:48) Qµ(s, a; ˆR) = ˆR(s (cid:48) Qμ(s, a; >R) = >R(s) 0.80
) + 1 |A(s(cid:48))| ) + 1 |A(s(cid:48))| 0.86
a(cid:48)∈A(s(cid:48)) a(cid:48)・A(s(cid:48) 0.73
(cid:48) Qµ(s (cid:48)Qμ(s) 0.73
(cid:48) , a ; ˆR) (cid:48)a ; ; ; ; R) 0.72
(19) where s(cid:48) = T (s, a), as the environment is deterministic and has a tree structure. (19) ここで s(cid:48) = T (s, a) は、環境が決定論的であり、ツリー構造を持つ。 0.82
2of course this is not guaranteed anymore in parameter space, as usual for neural networks, but this is also 2もちろん、これはニューラルネットワークの通常のようにパラメータ空間では保証されないが、これも保証されている。
訳抜け防止モード: 2もちろん、これはニューラルネットワークの通常のようにパラメータ空間では保証されない。 でもこれも
0.79
what enables generalization 16 一般化できるのは 16 0.67
(cid:88) (cid:88) 0.78
英語(論文から抽出)日本語訳スコア
For some leaf s(cid:48), Qµ(s, a; ˆR) = ˆR(s(cid:48)) = R(s(cid:48))f (s). ある葉 s(cid:48) に対して、Qμ(s, a; >R) = >R(cid:48)) = R(s(cid:48))f(s) である。 0.77
Again for some leaf s(cid:48), the flow is Q(s, a; R) = R(s(cid:48)). 再び葉 s(cid:48) に対して、流れは Q(s, a; R) = R(s(cid:48)) である。 0.89
Thus Qµ(s, a; ˆR) = Q(s, a; R)f (s). したがって、Qμ(s, a; >R) = Q(s, a; R)f(s) である。 0.83
Suppose (19) is true, then by induction for a non-leaf s(cid:48): 19)が真であると仮定すると、非リーフs(cid:48): 0.63
(cid:48) Qµ(s, a; ˆR) = ˆR(s (cid:48) Qμ(s, a; >R) = >R(s) 0.80
) + (cid:48) Qµ(s ) + (cid:48)Qμ(s) 0.79
(cid:48) , a ; ˆR) (cid:48)a ; ; ; ; R) 0.72
(cid:48) Q(s (cid:48)Q(s) 0.79
(cid:48) , a (cid:48) ; R)f (s (cid:48)a (cid:48) ; R)f (s) 0.89
) (cid:88) ) (cid:88) 0.82
1 (cid:88) |A(s(cid:48))| 1 (cid:88) |A(cid:48)| 0.88
a(cid:48)∈A(s(cid:48)) a(cid:48)・A(s(cid:48) 0.73
a(cid:48)∈A(s(cid:48)) a(cid:48)・A(s(cid:48) 0.73
1 |A(s(cid:48))| (cid:88) 1 |A(s(cid:48))| (cid:88) 0.84
a(cid:48)∈A(s(cid:48)) a(cid:48)・A(s(cid:48) 0.73
Qµ(s, a; ˆR) = 0 + Qμ(s, a; >R) = 0 + 0.96
we know from Eq 4 that 私たちはEq 4から知っている。 0.66
Q(s, a; R) = Q(s, a; R) = 0.85
(cid:48) Q(s (cid:48)Q(s) 0.79
(cid:48) , a ; R) (cid:48)a ; R) 0.87
and since f (s(cid:48)) = f (s)|A(s(cid:48))|, we have that: Qµ(s, a; ˆR) = そして f(s(cid:48)) = f(s)|A(s(cid:48))| であるから、Qμ(s, a; >R) = 0.86
= Q(s, a; R)f (s(cid:48)) Q(s, a; R)f (s)|A(s(cid:48))| = Q(s, a; R)f(s(cid:48)) Q(s, a; R)f(s)|A(s(cid:48))| 0.91
|A(s(cid:48))| |A(s(cid:48))| 0.88
|A(s(cid:48))| |A(s(cid:48))| 0.88
= Q(s, a; R)f (s) = Q(s, a; R)f(s) 0.85
(20) (21) (22) (20) (21) (22) 0.85
(23) (24) (25) (23) (24) (25) 0.85
Thus we have shown that the flow in a bijective case corresponds to the action-value of the uniform policy. したがって、単射の場合の流れは一様方針の作用値に対応することが示されている。 0.72
This result suggests that the policy evaluation of the uniform policy learns something non-trivial in the tree MDP case. この結果から, 統一政策の政策評価は, ツリーMDPの場合において, 非自明なことを学習することが示唆された。 0.60
Perhaps such a quantity could be used in other interesting ways. おそらくそのような量は、他の興味深い方法で使われるだろう。 0.64
In the surjective case, since an infinite number of valid flows exists, it’s not clear that such a simple equivalence always exists. 単射の場合、無限個の有効な流れが存在するので、そのような単純な同値が常に存在するかどうかは定かではない。 0.60
As a particular case, consider the flow Q which assigns exactly 0 flow to edges that would induce multiple paths to any node. 特別な場合として、任意のノードに複数の経路を誘導するエッジにちょうど0フローを割り当てるフローqを考える。 0.78
In other words, consider the flow which induces a tree, i.e. 言い換えると、木を誘導するフロー、すなわち、フローを考える。 0.66
a bijection between action sequences and states, by disallowing flow between edges not in that bijection. アクションシーケンスと状態の間の単射で、その単射には入らないエッジ間の流れを許容する。 0.57
By Proposition 4, we can recover some valid Qµ. 命題4により、有効な Qμ を復元できる。 0.68
Since there is at least one flow for which this equivalence exists, we conjecture that more general mappings between flows and action-value functions exist. この同値性が存在する少なくとも1つのフローが存在するので、フローとアクション値関数の間のより一般的なマッピングが存在すると推測する。 0.61
Conjecture There exists f a function of n(s) the number of paths to s, A(s), and np(s) = |{(p, a)|T (p, a) = s}| the number of parents of s, such that f (s, n(s), np(s),A(s))Qµ(s, a; ˆR) = Q(s, a; R) and ˆR(x) = R(x)f (x) for the uniform policy µ and for some valid flow Q(s, a; R). 帰納法 f(s) の函数 f が存在し、np(s) = |{(p, a)|T(p, a) = s}| の親数 f(s, n(s)、np(s)、A(s))Qμ(s, a; >R) = Q(s, a; R) と >R(x) = R(x)f(x) が一様方針 μ といくつかの有効なフロー Q(s, a; R) に対して成立する。
訳抜け防止モード: 導出 f が存在し、n(s ) の s, A(s ) への経路の数である。 np(s ) = |{(p, a)|T (p, a ) = s}| は s の親の数である。 f(s)、n(s)、np(s)、A(s))Qμ(s, a) = Q(s,a) 一様方針 μ に対する a ; R ) と R(x ) = R(x)f ( x ) そして、ある有効なフロー Q(s, a ; R ) に対して。
0.81
A.3 Molecule domain details A.3 分子領域の詳細 0.63
We allow the agent to choose from a library of 72 predefined blocks. エージェントは72個の事前定義されたブロックのライブラリから選択できる。 0.80
We duplicate blocks from the point of view of the agent to allow attaching to different symmetry groups of a given block. エージェントの観点からブロックを複製し、与えられたブロックの異なる対称性群にアタッチできるようにする。 0.73
This yields a total of 105 actions per stem; stems are atoms where new blocks can be attached to. これにより、ステム当たりのアクション数は105となり、ステムは新たなブロックをアタッチできる原子である。 0.65
We choose the blocks via the process suggested by Jin et al (2020) over the ZINC dataset (Sterling and Irwin, 2015). 我々は、ZINCデータセット(Sterling and Irwin, 2015)よりもJin et al (2020)によって提案されたプロセスを通してブロックを選択する。 0.71
We allow the agent to generate up to 8 blocks. エージェントが最大8ブロックを生成できるようにします。 0.76
The 72 block SMILES are Br, C, C#N, C1=CCCCC1, C1=CNC=CC1, C1CC1, C1CCCC1, C1CCCCC1, C1CCNC1, C1CCNCC1, C1CCOC1, C1CCOCC1, C1CNCCN1, C1COCCN1, C1COCC[NH2+]1, C=C, C=C(C)C, C=CC, C=N, C=O, CC, CC(C)C, CC(C)O, CC(N)=O, CC=O, CCC, CCO, CN, CNC, CNC(C)=O, CNC=O, CO, CS, C[NH3+], C[SH2+], Cl, F, FC(F)F, I, N, N=CN, NC=O, N[SH](=O)=O, O, O=CNO, O=CO, O=C[O-], O=PO, O=P[O-], O=S=O, O=[NH+][O-], O=[PH](O)O, O=[PH]([O-])O, O=[SH](=O)O, O=[SH](=O)[O-], O=c1[nH]cnc2[nH]cnc12, O=c1[nH]cnc2c1NCCN2, O=c1cc[nH]c(=O)[nH]1, O=c1nc2[nH]c3ccccc3nc-2c(=O)[nH]1, O=c1nccc[nH]1, S, c1cc[nH+]cc1, c1cc[nH]c1, c1ccc2[nH]ccc2c1, c1ccc2ccccc2c1, c1ccccc1, c1ccncc1, c1ccsc1, c1cn[nH]c1, c1cncnc1, c1cscn1, c1ncc2nc[nH]c2n1. The 72 block SMILES are Br, C, C#N, C1=CCCCC1, C1=CNC=CC1, C1CC1, C1CCCC1, C1CCCCC1, C1CCNC1, C1CCNCC1, C1CCOC1, C1CCOCC1, C1CNCCN1, C1COCCN1, C1COCC[NH2+]1, C=C, C=C(C)C, C=CC, C=N, C=O, CC, CC(C)C, CC(C)O, CC(N)=O, CC=O, CCC, CCO, CN, CNC, CNC(C)=O, CNC=O, CO, CS, C[NH3+], C[SH2+], Cl, F, FC(F)F, I, N, N=CN, NC=O, N[SH](=O)=O, O, O=CNO, O=CO, O=C[O-], O=PO, O=P[O-], O=S=O, O=[NH+][O-], O=[PH](O)O, O=[PH]([O-])O, O=[SH](=O)O, O=[SH](=O)[O-], O=c1[nH]cnc2[nH]cnc12, O=c1[nH]cnc2c1NCCN2, O=c1cc[nH]c(=O)[nH]1, O=c1nc2[nH]c3ccccc3nc-2c(=O)[nH]1, O=c1nccc[nH]1, S, c1cc[nH+]cc1, c1cc[nH]c1, c1ccc2[nH]ccc2c1, c1ccc2ccccc2c1, c1ccccc1, c1ccncc1, c1ccsc1, c1cn[nH]c1, c1cncnc1, c1cscn1, c1ncc2nc[nH]c2n1. 0.80
We illustrate these building blocks and their attachment points in Figure 8. これらのビルディングブロックとそのアタッチメントポイントを図8に示します。 0.80
17 17 0.85
英語(論文から抽出)日本語訳スコア
Figure 8: The list of building blocks used in molecule design. 図8: 分子設計で使用されるビルディングブロックのリスト。 0.80
The stem, the atom which connects the block to the rest of the molecule, is highlighted. ブロックと分子の残りの部分とをつなぐ原子であるステムが強調される。 0.65
We compute the reward based on a proxy’s prediction. 報酬はプロキシの予測に基づいて計算します。 0.65
This proxy is trained on a dataset of 300k randomly generated molecules, whose binding affinity with a target protein has been computed with AutoDock (Trott and Olson, 2010). このプロキシは、ターゲットタンパク質との結合親和性がautodock(trott and olson, 2010)で計算された300kのランダム生成分子のデータセットでトレーニングされる。 0.81
Since the binding affinity is an energy where lower is better, we takes its opposite and then renormalize it (subtract the mean, divide by the standard deviation) to obtain the reward. 結合親和性は、より低いエネルギーが良いエネルギーであるため、その逆を取り、それを正規化(平均を標準偏差で減らし、標準偏差で割る)して報酬を得る。 0.72
We use the sEH protein and its 4JNC inhibitor. sEHタンパク質とその4JNC阻害剤を用いる。 0.85
The soluble epoxide hydrolase, or sEH, is a well studied protein which plays a role in respiratory and heart disease, which makes it an interesting pharmacological target and benchmark for ML methods. 可溶性エポキシドヒドロラーゼ(英: soluble epoxide hydrolase, seh)は、呼吸および心臓疾患においてよく研究されているタンパク質であり、興味深い薬理学的標的であり、ml法のベンチマークである。 0.60
A.4 Molecule domain implementation details a.4分子ドメイン実装の詳細 0.65
For the proxy of the oracle, from which the reward is defined, we use an MPNN (Gilmer et al , 2017) that receives the atom graph as input. 報酬が定義される託宣の代用として、原子グラフを入力として受け取るMPNN(Gilmer et al , 2017)を用いる。 0.59
We compute the atom graph using RDKit. RDKitを用いて原子グラフを計算する。 0.83
Each node in the graph has features including the one-hot vector of its atomic number, its hybridization type, its number of implicit hydrogens, and a binary indicator of it being an acceptor or a donor atom. グラフの各ノードは、原子番号の1つのホットベクトル、そのハイブリダイゼーションタイプ、暗黙の水素の数、そしてそれがアクセプターまたはドナー原子であることのバイナリ指標を含む特徴を持っている。 0.78
The MPNN uses a GRU at each iteration as the graph convolution layer is applied iteratively for 12 steps, followed by a Set2Set operation to reduce the graph, followed by a 3-layer MLP. mpnnは、グラフ畳み込み層を12ステップ繰り返し適用し、次にset2set演算を使用してグラフを縮小し、3層mlpを実行するため、各イテレーションで gru を使用する。 0.75
We use 64 hidden units in all of its parts, and LeakyReLU activations everywhere (except inside the GRU). 私たちは64個の隠されたユニットを全パーツに使用し、LeakyReLUのアクティベーションは(GRU内を除く)至るところで使用しています。 0.64
For the flow predictor Q we also use an MPNN, but it receives the block graph as input. フロー予測器QではMPNNも使用しますが、ブロックグラフを入力として受け取ります。 0.75
This graph is a tree by construction. このグラフは構成による木です。 0.76
Each node in the graph is a learned embedding (each of the 105 blocks has its own embedding and each type of bond has an edge embedding). グラフの各ノードは学習された埋め込みである(各105ブロックはそれぞれ独自の埋め込みを持ち、それぞれの結合はエッジ埋め込みを持つ)。 0.82
We again use a GRU over the convolution layer applied 10 times. 10回適用された畳み込み層に再びGRUを使用します。 0.79
For each stem of the graph (which represents an atom or block where the agent can attach a new block) we pass its corresponding embedding (the output of the 10 steps of graph convolution + GRU) into a 3-layer MLP to produce 105 logits representing the probability of attaching each block to this stem for MARS and PPO, or representing the flow Q(s, a) for GFlowNet; since each block can have multiple stems, this MLP also receives the underlying atom within the block to which the stem corresponds. グラフの各幹(エージェントが新しいブロックをアタッチできる原子またはブロックを表す)について、対応する埋め込み(グラフ畳み込み+GRUの10ステップの出力)を3層 MLP に渡して、MARS と PPO に対して各ブロックをアタッチする確率を表す105のロジットを生成し、GFlowNet に対してフロー Q(s, a) を表現している。
訳抜け防止モード: グラフの各幹について(それは) エージェントが新しいブロックをアタッチできる原子またはブロックを表す ) 対応する埋め込み(グラフ畳み込み+GRUの10ステップの出力)を3層MLPに渡して、MARSとPPOのために各ブロックをこの幹に取り付ける確率を表す105ロジットを生成する。 GFlowNet のフロー Q(s, a ) を表す場合もあります。 このMLPは、茎が対応するブロック内の基底原子も受信する。
0.76
For the stop action, we perform a global mean pooling followed by a 3-layer MLP that outputs 1 logit for each flow prediction. 停止動作では,各フロー予測に1ロジットを出力する3層MLPが続いて,グローバル平均プーリングを行う。 0.78
We use 256 hidden units everywhere as well as LeakyReLU activations. 256個の隠れユニットとLeakyReLUアクティベーションを使用します。 0.72
For further stability we found that multiplying the loss for terminal transitions by a factor λT > 1 helped. さらに安定性を高めるために, λT > 1 因子による終端遷移損失の乗算が有効であることがわかった。
訳抜け防止モード: さらなる安定性のために 終端遷移の損失を因子 λt > 1 で乗算するのに役立つ。
0.78
Intuitively, doing so prioritizes correct predictions at the endpoints of the flow, which can then propagate through the rest of the network/state space via our bootstrapping objective. 直感的には、フローの終端で正しい予測を優先順位付けし、ブートストラッピングの目的を通じて、残りのネットワーク/状態空間を伝播します。 0.65
This is similar to using reward prediction as an auxiliary task in RL (Jaderberg et al , 2017). これは、RL(Jaderberg et al , 2017)の補助タスクとして報酬予測を使用するのと似ている。 0.68
Here is a summary of the flow model hyperparameters: フローモデルハイパーパラメータの概要を以下に示す。 0.73
18 18 0.85
英語(論文から抽出)日本語訳スコア
Learning rate Minibatch size 学習率ミニバッチサイズ 0.86
Adam β,  アダム・β(Adam β) 0.57
# hidden & # embed # convolution steps # hidden & # embedded # convolution steps 0.82
Loss  Reward T Reward β 失われた。 Reward T Reward β 0.64
Random action probability ランダムアクション確率 0.77
λT Rmin 5 × 10−4 λT ルミン 5 × 10−4 0.70
4 (0.9, 0.999), 10−8 4 (0.9, 0.999), 10−8 0.79
2.5 × 10−5 2.5 × 10−5 0.59
256 10 8 10 0.05 10 0.01 256 10 8 10 0.05 10 0.01 0.78
# of trajectories per SGD step sgdステップ毎の軌道の# 0.69
 in (12) ˆR(x) = (R(x)/T )β exploratory factor leaf loss coefficient シュイン(12) シュR(x) = (R(x)/T )β探索因子葉の損失係数 0.79
R is clipped below Rmin, i.e. r は rmin 以下でクリップされる。 0.69
ˆRmin = (Rmin/T )β Rmin = (Rmin/T )β 0.87
For MARS we use a learning rate of 2.5 × 10−4 and for PPO, 1 × 10−4. MARSでは2.5×10−4、PPOでは1×10−4の学習率を用いる。 0.76
For PPO we use an entropy regularization coefficient of 10−6 and we set the reward β to 4 (higher did not help). PPO に対して、エントロピー正則化係数は 10-6 であり、報酬β を 4 に設定する(より高い値では役に立たない)。 0.62
For MARS we use the same algorithmic hyperparameters as those found in Xie et al (2021). MARS の場合、Xie et al (2021) と同じアルゴリズムのハイパーパラメータを使用する。 0.69
A.5 Multi-Round Experiments A.5 マルチトラック実験 0.66
Algorithm 1 defines the procedure to train the policy πθ and used in inner loop of the multi-round experiments in the hyper-grid and molecule domains. アルゴリズム1は、ポリシーπθを訓練する手順を定義し、超グリッドおよび分子ドメインにおける多ラウンド実験の内ループで使用される。 0.74
The effect of diverse generation becomes apparent in the multi-round setting. 多様な生成の効果はマルチラウンド設定で明らかになる。 0.75
Since the proxy itself is trained based on the input samples proposed by the generative models (and scored by the oracle, e g , using docking), if the generative model is not exploratory enough, the reward (defined by the proxy) would only give useful learning signals around the discovered modes. プロキシそのものは、生成モデルによって提案された入力サンプルに基づいて訓練されるので、生成モデルが十分に探索的でない場合、(プロキシによって定義された)報酬は、発見モードに関する有用な学習信号のみを与える。
訳抜け防止モード: プロキシ自体が生成モデルによって提案された入力サンプルに基づいてトレーニングされているため。 オラクル、例えばドッキングを使って) 生成モデルが十分に探索的でない場合、報酬(プロキシによって定義される)は、検出されたモードに関する有用な学習信号のみを与える。
0.80
The oracle outcomes O(x) are scaled to be positive, and a hyper-parameter β (a kind of inverse temperature) can be used to make the modes of the reward function more or less peaked. オラクルの結果o(x)は正にスケールされ、報酬関数のモードをよりピークにするためにハイパーパラメータβ(一種の逆温度)が使用できる。 0.59
(outer loop iterations) N; inverse temperature β (外ループ反復)N,逆温度β 0.76
Algorithm 1: Multi-Round Active Learning Input: Initial dataset D0 = {xi, yi}, i = 1, . Algorithm 1: Multi-Round Active Learning Input: Initial dataset D0 = {xi, yi}, i = 1。 0.85
. . , k ; K for T opK evaluation; number of rounds Result: A set T opK(DN ) of high valued x Initialization: Proxy M; Generative policy πθ; Oracle O; i = 1; while i <= N do . . , k ; k for t opk evaluation; number of rounds result: a set t opk(dn ) of high valued x initialization: proxy m; generative policy πθ; oracle o; i = 1; while i <= n do 0.81
Fit M on dataset Di−1; Train πθ with unnormalized probability function r(x) = M (x)β as target reward; Sample query batch B = {x1, . m をデータセット di−1 に当てはめ、非正規化確率関数 r(x) = m(x)β を目標として πθ を訓練し、サンプルクエリバッチ b = {x1, 。 0.72
. . , xb} with xi ∼ πθ; Evaluate batch B with O, ˆDi = {(x1, O(x1)), . . . xi は πθ で、バッチ B を O で評価し、 >Di = {(x1, O(x1)) とする。 0.83
. . , (xb, O(xb))}; Update dataset Di = ˆDi ∪ Di−1; i = i + 1; . . , (xb, O(xb))}; Update data Di = >Di > Di−1; i = i + 1; 0.83
end A.5.1 Hyper-grid 終わり A.5.1 ハイパーグリッド 0.54
We use the Gaussian Process implementation from botorch3 for the proxy. プロキシにはbotorch3 の Gaussian Process 実装を使用します。 0.74
The query batch size of samples generated after each round is 16. 各ラウンド後に生成されたサンプルのクエリバッチサイズは16である。 0.71
The hyper-parameters for training the generative models are set to the best performing values from the single-round experiments. 生成モデルのトレーニングのためのハイパーパラメータは、単一ラウンド実験から最高のパフォーマンス値に設定される。 0.73
3http://botorch.org/ 3http://botorch.org/ 0.47
19 19 0.85
英語(論文から抽出)日本語訳スコア
The initial dataset only contains 4 of the modes. 初期データセットは4つのモードしか含まない。 0.83
GFlowNet discovered 10 of the modes within 5 rounds, while MCMC discovered 10 within 10 rounds, whereas PPO managed to discover only 8 modes by the end (with R0 = 10−1). gflownetは5ラウンド以内に10のモードを発見し、mcmcは10ラウンド以内に10のモードを発見したが、ppoは最終的に8つのモードしか発見できなかった(r0 = 10−1)。 0.62
A.5.2 Molecules The initial set D0 of 2000 molecules is sampled randomly from the 300k dataset. A.5.2分子 2000分子の初期セットD0は300kデータセットからランダムにサンプリングされる。 0.63
At each round, for the MPNN proxy retraining, we use a fixed validation set for determining the stopping criterion. 各ラウンドでは、MPNNプロキシの再トレーニングのために、停止基準を決定するために固定された検証セットを使用します。 0.55
This validation set of 3000 examples is also sampled randomly from the 300k dataset. この3000のサンプルの検証セットは300kデータセットからランダムにサンプリングされる。 0.73
We use fewer iterations when fitting the generative model, and the rest of the hyper-parameters are the same as in the single round setting. 生成モデルに適合する際のイテレーションは少なく、残りのハイパーパラメータは単一ラウンド設定と同じです。
訳抜け防止モード: 生成モデルに適合するイテレーションは少なく、 hyper - パラメータの残りの部分は、シングルラウンド設定と同じである。
0.64
method GFlowNet メソッド GFlowNet 0.77
MARS top-100 7.76 ± 0.11 7.08 ± 0.13 火星 top-100 7.76 ± 0.11 7.08 ± 0.13 0.51
Reward after 1800 docking evaluations 1800回のドッキング評価の後 0.69
top-10 8.83 ± 0.15 8.27 ± 0.20 トップ10 8.83 ± 0.15 8.27 ± 0.20 0.62
(a) Reward=8.26 (a)報酬=8.26 0.51
(b) Reward=9.18 (b)逆算=9.18 0.53
(c) Reward=9.08 (c)Reward=9.08 0.62
(d) Reward=8.73 (d)報酬=8.73 0.53
(e) Reward=8.64 (e)Reward=8.64 0.61
Figure 9: (a) Highest reward molecule in D0 in the multi-round molecule experiments. 図9: (a)多体分子実験におけるD0の最高報酬分子。 0.87
(b) Highest Reward molecule generated by GFlowNet. (b)GFlowNetにより生成される最も高いリワード分子。 0.73
(c)-(e) Samples from the top-10 molecules generated by GFlowNet. (c)-(e)GFlowNetが生成するトップ10分子のサンプル。 0.68
A.6 Hypergrid Experiments A.6ハイパーグリッド実験 0.51
Let’s first look at what is learned by GFlowNet. まずはGFlowNetで学んだことを見てみましょう。 0.69
What is the distribution of flows learned? 学習したフローの分布は? 0.69
First, in Figure 10 (Left), we can observe that the distribution learned, πθ(x), matches almost perfectly p(x) ∝ R(x) on a grid where n = 2, H = 8. まず、図10(レフト)では、学習した分布 πθ(x) が、n = 2, H = 8 の格子上のほぼ完全に p(x) > R(x) と一致することが観察できる。 0.80
In Figure 10 (Middle) we plot the visit distribution on all paths that lead to mode s = (6, 6), starting at s0 = (0, 0). 図10(中間)では、モードs = (6, 6) に至るすべてのパスに訪問分布をプロットし、s0 = (0, 0) から始まる。 0.81
We see that it is fairly spread out, but not uniform: there seems to be some preference towards other corners, presumably due to early bias during learning as well as the position of the other modes. 学習の初期の偏見と他のモードの位置によって、他のコーナーに対する好みがあるようです。
訳抜け防止モード: かなり広く広がっているが、均一ではない。 学習の初期段階の偏見と,他のモードの位置が原因と考えられる。
0.46
In Figure 10 (Right) we plot what the uniform distribution on paths from (0, 0) to (6, 6) would look like for reference. 図10(右)では、 (0, 0) から (6, 6) までの経路上の一様分布が参照にどう見えるかをプロットする。 0.82
Note that our loss does not enforce any kind of distribution on flows, and a uniform flow is not necessarily desirable (investigating this could be interesting future work, perhaps some distributions of flows have better generalization properties). 私たちの損失はフロー上のいかなる種類の分布も強制せず、均一なフローは必ずしも望ましいものではないことに注意してください(これは将来の研究であり、フローの一部の分布はより良い一般化特性を持つかもしれない)。 0.66
Note that we also ran Soft Actor Critic (Haarnoja et al , 2018) on this domain, but we were unable to find hyperparameters that pushed SAC to find all the modes for n = 4, H = 8; SAC would find at best 10 of the 16 modes even when strongly regularized (but not so much so that the policy trivially becomes the uniform policy). また、このドメインでソフトアクタ批評家(haarnoja et al , 2018)も行いましたが、n = 4, h = 8のすべてのモードを見つけるためにsacをプッシュするハイパーパラメータを見つけることはできませんでした。
訳抜け防止モード: 私たちはまた、このドメインでSoft Actor Critic (Haarnoja et al, 2018)も実行しました。 しかし SAC に n = 4, H = 8 のモードを全て見つけさせたハイパーパラメータが見つからなかった。 しかし、その方針が自明に統一政策になるほどではない)。
0.54
While we believe our implementation to be correct, we did not think it would be relevant to include these results in figures, as they are poor but not really surprising: as would be consistent with reward-maximization, SAC quickly finds a mode to latch onto, and concentrates all of its probability mass on that mode, which is the no-diversity failure mode of RL we are trying to avoid with GFlowNet. 私たちは実装が正しいと信じていますが、これらの結果を数値に含めることには意味があるとは思っていません。それは、報酬-最大化と一致しているように、SACはすぐにラッチオンするモードを見つけ、そのモードにその確率質量を集中させます。
訳抜け防止モード: 私たちは実装が正しいと信じていますが、これらの結果を数字に含めることは重要ではないと考えていました。 彼らは貧乏だが本当に驚きではない:報酬と一致しているように、最大化 SACはすぐにラッチオンするモードを見つけ、その全ての確率質量をそのモードに集中させる。 これは、GFlowNetで避けようとしているRLのNo-ダイバーシティ障害モードです。
0.67
Next let’s look at the losses as a function of R0, again in the n = 4, H = 8 setting. 次に、損失を r0 の関数として、再び n = 4, h = 8 の設定で見てみよう。 0.74
We separate the loss in two components, the leaf loss (loss for terminal transitions) and the inner flow loss (loss for non-terminals). 葉の損失(終端遷移の損失)と内流損失(非終端の損失)の2つの成分の損失を分離する。 0.73
In Figure 11 we see that as R0 decreases, both inner flow and leaf losses get larger. 図11では、R0が減少するにつれて、内の流れと葉の損失が大きくなる。 0.74
This is reasonable for two reasons: first, for e g with R0 = 10−3, log 10−3 is a larger magnitude number which is harder for DNNs to accurately output, and second, the terminal states for which log 10−3 is the flow output are 100× rarer than in the R0 = 10−1 case (because we are sampling states on-policy), thus a DNN is less inclined to correctly predict their value correctly. まず、R0 = 10−3 の eg に対して、log 10−3 は DNN が正確に出力するのが難しい大きな等級数であり、次に、log 10−3 がフロー出力である端末状態は R0 = 10−1 の場合よりも100×レアである(なぜなら、我々は政治上の状態をサンプリングしているから)。
訳抜け防止モード: まず、R0 = 10−3 の eg について。 log 10−3 は DNN が正確に出力することを難しくする桁数である。 第2に、ログ10−3がフロー出力である端末状態は、R0 = 10−1の場合よりも100×レアである(これは、私たちが−ポリシーをサンプリングしているため)。 従って、DNNは、その値を正しく予測する傾向が低い。
0.84
This incurs 20 これは 20 0.78
英語(論文から抽出)日本語訳スコア
Figure 10: Grid with n = 2, H = 8. 図10: n = 2 の格子 H = 8 である。 0.77
Left, the distribution πθ(x) learned on the grid matches p(x) almost perfectly; measured by sampling 30k points. 左は、グリッド上で学習された分布 πθ(x) がほぼ完全な p(x) に一致し、30k点のサンプリングによって測定される。
訳抜け防止モード: 左、格子上で学んだ分布 πθ(x ) は p(x ) とほぼ完全に一致する。 30k点のサンプリングで測定。
0.70
Middle, the visit distribution on sampled paths leading to (6, 6). 中間は, (6, 6) に至るサンプルパスの訪問分布である。 0.84
Right, the uniform distribution on all paths leading to (6, 6). 右は (6, 6) に至るすべての経路上の一様分布である。 0.83
rare but large magnitude losses. Note that theses losses are nonetheless, small, in the order of 10−3 or less, and at this point the distribution is largely fit and the model is simply converging. 稀だが大きな損失。 にもかかわらず、これらの損失は10-3以下の順序で小さく、この時点で分布はほとんど適合しており、モデルは単に収束している。 0.69
Figure 11: Losses during training for the “corners” reward function in the hypergrid, with n = 4, H = 8. 図11: ハイパーグリッドの “corners” 報酬関数のトレーニング中の損失は、n = 4, H = 8である。 0.71
Shaded regions are the min-max bounds. シェード領域はmin-max境界である。 0.66
use R(x) = 0.01 +(cid:81) R(x) = 0.01 +(cid:81)を使用する 0.73
GFlowNet as an offline off-policy method To demonstrate this feature of GFlowNet, we train it on a fixed dataset of trajectories and observe what the learned distribution is. GFlowNetをオフラインのオフポリシーメソッドとして、GFlowNetのこの機能を実証するために、固定されたトラジェクトリのデータセットでトレーニングし、学習した分布が何であるかを観察します。
訳抜け防止モード: オフラインオフとしてのGFlowNet - ポリシーメソッド GFlowNetのこの機能を実証するために 軌道の固定されたデータセットでトレーニングし、学習した分布を観察します。
0.77
For this experiment we i(cos(50xi) + 1)fN (5xi), fN is the normal p.d.f., n = 2 and H = 30. この実験のために、i(cos(50xi) + 1)fN (5xi)、fN は正規 p.d.f., n = 2 および H = 30 である。 0.83
We show results for two random datasets. 2つのランダムデータセットの結果を示す。 0.66
First, in Figure 12 we show what is learned when the dataset is sampled from a uniform random policy, and second in Figure 13 when the dataset is created by sampling points uniformly on the grid and walking backwards to the root to generate trajectories. まず、図12では、データセットが一様ランダムポリシーからサンプリングされたとき、そして図13では、データセットがグリッド上に一様にサンプリングし、ルートに遡って軌跡を生成することによって生成されるとき、何を学ぶかを示す。
訳抜け防止モード: まず、図12で何を示すかを示します。 データセットが一様ランダムポリシーから サンプリングされると学習されます そして図13で、データセットが生成されるとき グリッドに一様に点をサンプリングし ルートに逆向きに歩いて 軌道を生成する
0.84
The first setting should be much harder than the second, and indeed the learned distribution matches p(x) much better when the dataset points are more uniform. 第1の設定は、第2設定よりもずっと難しく、実際に学習された分布は、データセットの点がより均一である場合、p(x)にマッチする。 0.68
Note that in both cases many points are left out intentionally as a generalization test. どちらの場合も、多くの点が意図的に一般化テストとして除外される。 0.62
These results suggest that GFlowNet can easily be applied offline and off-policy. これらの結果は、gflownetがオフラインおよびオフポリシーに容易に適用できることを示唆している。 0.46
Note that we did not do hyperparameter search on these two plots, these are purely illustrative and we believe it is likely that better generalization can be achieved by tweaking hyperparameters. この2つのプロットのハイパーパラメータ探索は行わなかったが、これらは純粋に図解であり、ハイパーパラメータを微調整することでより良い一般化が達成できる可能性が高い。
訳抜け防止モード: この2つのプロットのハイパーパラメータ探索は行わなかったことに注意。 これらは純粋なイラストで ハイパーパラメータを調整することで より良い一般化が達成できると考えています
0.73
A.7 GFlowNet results on the molecule domain A.7 GFlowNetによる分子ドメインの解析 0.74
Here we present additional results to give insights on what is learned by our method, GFlowNet. ここでは,我々の手法であるGFlowNetから学んだことについて考察する。 0.65
Let’s first examine the numerical results of Figure 4: まず、図4の数値結果を見てみましょう。 0.65
21 02460246024602460246 024602500050000SGDst eps10−410−2100totallossR0=10−1R0=10−2R0=10−302500050000SGDsteps leafloss02500050000S GDstepsflowloss 21 02460246024602460606 025050000sgdsteps10−410−2100totallossr0=10−1r0=10−2r0=10−302500050000sgdsteps leafloss02500050000s gdstepsflowloss 0.46
英語(論文から抽出)日本語訳スコア
Figure 12: Grid with n = 2, H = 30. 図12: n = 2 の格子 H = 30 である。 0.79
Left, the learned distribution πθ(x). 左は学習分布 πθ(x) である。 0.86
Middle, the true distribution. Right, the dataset distribution, here generated by executing a uniform random policy from s0. 中間、真の分布。 データセットの分布は、s0から一様ランダムポリシーを実行することで生成される。 0.74
Figure 13: Grid with n = 2, H = 30. 図13: n = 2 の格子 H = 30 である。 0.78
Left, the learned distribution πθ(x). 左は学習分布 πθ(x) である。 0.86
Middle, the true distribution. Right, the dataset distribution, here generated by sampling a point uniformly on the grid and sampling random parents until s0 is reached, thus generating a training trajectory in reverse. 中間、真の分布。 ここで、グリッド上で一様に点をサンプリングして、s0に到達するまでランダムな親をサンプリングすることで生成されたデータセット分布は、逆のトレーニング軌跡を生成する。
訳抜け防止モード: 中間、真の分布。 右、グリッド上の一様点をサンプリングして生成されたデータセット分布 s0に到達するまでランダムな両親をサンプリングします 逆の訓練軌道を 生み出します
0.75
Reward at 105 samples 105サンプルでのリワード 0.83
method GFlowNet メソッド GFlowNet 0.77
MARS PPO GFlowNet MARS PPO GFlowNet 0.85
MARS PPO top-10 MARS PPO トップ10 0.77
8.36 ± 0.01 8.05 ± 0.12 8.06 ± 0.26 8.45 ± 0.03 8.31 ± 0.03 8.25 ± 0.12 8.36 ± 0.01 8.05 ± 0.12 8.06 ± 0.26 8.45 ± 0.03 8.31 ± 0.03 8.25 ± 0.12 0.52
Reward at 106 samples 106サンプルでのリワード 0.79
top-100 8.21 ± 0.03 7.71 ± 0.09 7.87 ± 0.29 8.34 ± 0.02 8.03 ± 0.08 8.08 ± 0.12 top-100 8.21 ± 0.03 7.71 ± 0.09 7.87 ± 0.29 8.34 ± 0.02 8.03 ± 0.08 8.08 ± 0.12 0.51
top-1000 7.98 ± 0.04 7.13 ± 0.19 7.52 ± 0.26 8.17 ± 0.02 7.64 ± 0.16 7.82 ± 0.16 top-1000 7.98 ± 0.04 7.13 ± 0.19 7.52 ± 0.26 8.17 ± 0.02 7.64 ± 0.16 7.82 ± 0.16 0.51
These are means and standard deviations computed over 3 runs. これらは3回のランで計算される標準偏差である。 0.61
We see that GFlowNet produces significantly better molecules. GFlowNetはより優れた分子を生成する。 0.75
It also produces much more diverse ones: GFlowNet has a mean pairwise Tanimoto similarity for its top-1000 molecules of 0.44± 0.01, PPO, 0.62± 0.03, and MARS, 0.59 ± 0.02 (mean and std over 3 runs). GFlowNetは0.44± 0.01、PPO、0.62± 0.03、MARS、0.59± 0.02(平均3回以上)の上位1000分子に対して平均対の谷本類似性を持つ。 0.77
A random agent for this environment would yield an average pairwise similarity of 0.231 (and very poor rewards). この環境に対するランダムなエージェントは、平均的な対の類似度が0.231(および非常に低い報酬)となる。 0.72
We also see that GFlowNet produces much more diverse molecules by approximately counting the number of modes found within the high-reward molecules. また、GFlowNetは高逆分子内のモードの数を概算することで、より多様な分子を生成する。 0.67
Here, we define "modes" as molecules with an energy above some threshold T , at most similar to each other in Tanimoto space at threshold S. In other words, we consider having found a new mode representative when a new molecule has a Tanimoto similarity smaller than S to every previously found mode’s representative molecule. ここでは、「モード」を、しきい値 T 以上のエネルギーを持つ分子として定義し、最も近いのは、しきい値 S における谷本空間における互いに類似している。
訳抜け防止モード: ここでは、「モード」を、あるしきい値 t を超えるエネルギーを持つ分子として定義する。 谷本空間におけるしきい値 s における相似性 新しいモードが見つかったら 新しい分子は、sよりも小さい谷本類似性を持ち、これまでに発見されたモードsの代表分子に類似している。
0.76
We choose a Tanimoto similarity S of 0.7 as a threshold, as it is commonly used in medicinal chemistry to find similar molecules, and a reward threshold of 7 or 8. 医薬化学において、類似した分子を見つけるために一般的に用いられる0.7の谷本類似度Sと、報酬しきい値7または8を選択する。 0.74
We plot the results in Figure 14. 結果は図14でプロットします。 0.77
We see that for R > 7, GFlowNet discovers many more modes than MARS or PPO, over 500, whereas MARS only discovers less than 100. R > 7 の場合、GFlowNet は MARS や PPO よりも多くのモードを発見できるが、MARS は 100 未満しか発見できない。
訳抜け防止モード: R > 7 の場合、GFlowNet は MARS や PPO よりも多くのモードを発見する。 500以上、MARSは100未満しか発見できない。
0.79
22 010200510152025empir icaldistribution0102 00510152025truedistr ibution0102005101520 25datasetdistributio n(log-scale)01020051 0152025empiricaldist ribution010200510152 025truedistribution0 10200510152025datase tdistribution 22 010200510152025empir icaldistribution0102 0051010152025truedis tribution01020051010 152025datasetdistrib ution(log-scale)0102 00510152025empirical distribution01020051 0101525truedistribut ion01020051010101525 datasetdistribution 0.62
英語(論文から抽出)日本語訳スコア
Figure 14: Number of Tanimoto-separated modes found above reward threshold T as a function of the number of molecules seen. 図14: 見ることができる分子数の関数として、報酬閾値Tの上にある谷本分離モードの数。 0.73
See main text. Left, T = 7. 本文参照。 左、T = 7。 0.55
Right, T = 8. Figure 15: Number of diverse Bemis-Murcko scaffolds (Bemis and Murcko, 1996) found above reward threshold T as a function of the number of molecules seen. 右、T = 8。 図15:bemis-murckoの多様な足場(bemis and murcko, 1996)の数が報酬しきい値tを上回っており、分子数の関数である。 0.74
Left, T = 7.5. 左、T = 7.5。 0.83
Right, T = 8. Another way to approximate the number of modes is to count the number of diverse Bemis-Murcko scaffolds present within molecules above a certain reward threshold. 右、T = 8。 モード数を近似する別の方法は、特定の報酬閾値以上の分子に存在する多様なベミス・ムルッコの足場数を数えることである。 0.72
We plot these counts in Figure 5, where we again see that GFlowNet finds a greater number of modes. 図5でこれらの数をプロットしますが、ここでもGFlowNetがより多くのモードを見つけています。 0.71
Next, let’s try to understand what is learned by GFlowNet. 次に、gflownetが学んだことを理解することにしましょう。 0.62
In a large scale domain without access to p(x), it is non-trivial to demonstrate that πθ(x) matches the desired distribution p(x) ∝ R(x). p(x) にアクセスできない大規模領域では、πθ(x) が所望の分布 p(x) > R(x) と一致することを示すことは自明ではない。 0.79
This is due to the many-paths problem: to compute the true pθ(x) we would need to sum the pθ(τ ) of all the trajectories that lead to x, of which there can be an extremely large number. 真の pθ(x) を計算するには、x につながるすべての軌道の pθ(τ ) を合計する必要がある。
訳抜け防止モード: これは多くの-パスの問題によるものです。 真の pθ(x) を計算する )すべての軌道の pθ(τ ) を総和する必要がある。 x に導かれるが、その数は非常に多い。
0.83
Instead, we show various measures that suggest that the learned distribution is consistent with the hypothesis the πθ(x) matches p(x) ∝ R(x)β well enough. その代わり、我々は学習された分布が πθ(x) が p(x) と十分に一致するという仮説と一致することを示唆する様々な測度を示す。 0.85
In Figure 16 we show how Qθ partially learns to match R(x). 図16では、Qθ が部分的に R(x) と一致することを学習していることを示す。 0.58
In particular we plot the inflow of 特に我々は流入をプロットする 0.71
leaves (i.e. for leaves s(cid:48) the(cid:80) and ˆpθ(x)/Z match, where we use the predicted Z =(cid:80) 葉(葉) 葉 s(cid:48) に対して、予測Z =(cid:80) を用いる場合、(cid:80) と shpθ(x)/Z マッチングを行う。 0.73
s,a:T (s,a)=s(cid:48) Q(s, a)) as versus the target score (R(x)β). s,a:T (s,a)=s(cid:48) Q(s,a)を目標スコア(R(x)β)と比較する。 0.80
Another way to view that the learned probabilities are self-consistent is that the histograms of R(x)/Z a∈A(s0) Q(s0, a), and ˆpθ(x) is the inflow of 学習確率が自己整合であることの別の見方は、R(x)/Z a・A(s0) Q(s0, a) と シュプθ(x) のヒストグラムが流入であるということである。 0.72
the leaf x as above. 上のような葉のxです 0.68
We show this in Figure 17. これを図17に示します。 0.77
In terms of loss, it is interesting that our models behaves similarly to value prediction in deep RL, in the sense that the value loss never goes to 0. 損失に関しては、我々のモデルが深いRLの値予測と同様に振る舞うことが興味深い。
訳抜け防止モード: 損失に関しては、我々のモデルが深いRLの値予測と同じような振る舞いをするのが興味深い。 値損失が 0 になることはないという意味では
0.76
This is somewhat expected due to bootstrapping, and the size of the state space. これはブートストラップと状態空間のサイズによって多少期待されている。 0.73
Indeed, in our hypergrid experiments the loss does go to 0 as the model converges. 実際、超グリッド実験では、モデルが収束するにつれて損失は 0 になる。 0.68
We plot the loss separately for leaf transitions (where the inflow is trained to match the reward) and inner flow transitions (at visited states, where the inflow is trained to match the outflow) in Figure 18. 図18では、葉の遷移(流入が報酬に合致するように訓練される)と内部流れ遷移(訪問状態において、流入が流出に合致するように訓練される)について、それぞれ損失をプロットする。 0.75
23 0.00.20.40.60.81.0st atesvisited×1060100200300400500# ofmodeswithR>7GFlowNetMARSPPO0.00 .20.40.60.81.0states visited×10601020#ofmodeswith R>8GFlowNetMARSPPO0.00 .20.40.60.81.0states visited×10602000400060008000 10000#ofmodeswithR&g t;7.5GFlowNetMARSPPO0. 00.20.40.60.81.0stat esvisited×106050010001500#ofmo deswithR>8GFlowNetMARSPPO 23 0.00.20.40.60.81.0st atesvisited×1060100200400500#ofm odeswithR>7GFlowNetMARSP0.00.2 0.40.60.81.0statesvi sited×10601020#ofmodeswith R>8GFlowNetMARSP0.00.2 0.60.81.0statesvisit ed×10602,00060008000100 00#ofmodeswithR>7.5GFlowNetMARSP0.00 .20.40.60.81.0states visited×106050015001500#ofmo deswithR>8GFlowNetMARSPPO0.20 .60.81.0 0.54
英語(論文から抽出)日本語訳スコア
Figure 16: Scatter of the score (R(x)β) vs the inflow of leaves (the predicted unnormalized probability). 図16: スコア(R(x)β)と葉の流入(予想される非正規化確率)の散乱。 0.74
The two should match. 両者は一致すべきである。 0.57
We see that a log-log linear regression has a slope of 0.58 and a r of 0.69. ログログ線形回帰の傾きは 0.58 であり、r は 0.69 である。 0.83
The slope being less than 1 suggests that GFlowNet tends to underestimate high rewards (this is plausible since high rewards are visited less often due to their rarity), but nonetheless reasonably fits its data. 1未満のスロープは、GFlowNetが高い報酬を過小評価する傾向にあることを示唆している(高い報酬は希少性のために訪れる頻度が低いため、これは妥当である)。 0.70
Here β = 10. β = 10 である。 0.83
We plot here the last 5k molecules generated by a run. ランによって生成された最後の5k分子をここでプロットします。 0.56
Figure 17: Histogram of the predicted density vs histogram of reward. 図17:予測密度のヒストグラムと報酬のヒストグラム。 0.63
The two should match. 両者は一致すべきである。 0.57
We compute these with the last 10k molecules generated by a run. ランによって生成される最後の10k分子でこれを計算します。 0.62
This plot again suggests that the model is underfitted. このプロットはモデルが不適合であることを示している。 0.51
It thinks the low-reward molecules are less likely than they actually are, or vice-versa that the low-reward molecules are better than they actually are. 低リワード分子は実際よりも低い確率で、逆もまた低リワード分子の方が実際より優れていると考えている。 0.72
This is consistent with the previous plot showing a lower-than-1 slope. これは以前のプロットが1より低い斜面を示すのと一致している。 0.56
24 10−410−310−210−1100score10−410−310−210−1100predictedunnorma lizedprobabilitybina veragex=ylog-loglinearregres siona=0.58r=0.6910−610−510−410−310−210−1predictedˆp(x)0.000.010.020.03 0.04empiricalfrequen cyofˆp(x)0.000.010.020.03 0.04empiricalfrequen cyofR(x)/Z 24 10−410−310−210−1100score10−410−210−210−1100predicted unnormalizedprobabil itybinaveragex=ylog-loglinearregres siona=0.58r=0.6910−610−510−410−310−210−1predicted{p(x)0.000.010.020.03 0.04empiricalfrequen cyofasep(x)0.000.010 .020.030.04empirical frequencyofr(x)/z 0.51
英語(論文から抽出)日本語訳スコア
Figure 18: Loss as a function of training for a typical run of GFlowNet on the molecule domain. 図18: 分子ドメイン上のGFlowNetの典型的な実行のためのトレーニング機能としての損失。 0.86
The shaded regions represent the min-max over the interval. 日陰領域はこの間隔でmin-maxを表す。 0.78
We note several phases: In the initial phase the scale of the predictions are off and the leaf loss is very high. 最初のフェーズでは、予測のスケールがオフになり、葉の損失が非常に高い。
訳抜け防止モード: いくつかの段階に注目する : 初期段階では, 予測のスケールが外れ, 葉の損失が非常に高い。
0.80
As prediction scales adjust we observe the second phase where the flow becomes consistent and we observe a dip in the loss. 予測スケールが調整されるにつれて、フローが一貫した第2フェーズが観察され、損失の減少が観測される。 0.70
Then, as the model starts discovering more interesting samples, the loss goes up, and then down as it starts to correctly fit the flow over a large variety of samples. そして、モデルがより興味深いサンプルを発見し始めると、損失は増加し、さまざまなサンプルのフローに正しく適合し始めます。 0.60
The lack of convergence is expected due to the massive state space; this is akin to value-based methods in deep RL on domains such as Atari. これは、Atariのようなドメイン上の深いRLの値に基づく手法に似ている。
訳抜け防止モード: 巨大な状態空間のために収束の欠如が予想される これは、atariのようなドメインの深いrlの値ベースのメソッドに似ている。
0.68
25 100101102103104105SG Dsteps10−310−210−1100101102103losslea flossflowloss 25 100101102103104105sd steps10−310−210−1100101102103losslea flossflowloss 0.53
                                                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。