論文の概要、ライセンス

# (参考訳) Oops I Took A Gradient: 分散分散のためのスケーラブルなサンプリング [全文訳有]

Oops I Took A Gradient: Scalable Sampling for Discrete Distributions ( http://arxiv.org/abs/2102.04509v1 )

ライセンス: CC BY 4.0
Will Grathwohl, Kevin Swersky, Milad Hashemi, David Duvenaud, Chris J. Maddison(参考訳) 離散変数を持つ確率モデルに対する汎用的かつスケーラブルな近似サンプリング戦略を提案する。 提案手法は, 離散入力に対する確率関数の勾配を用いて, メトロポリス・ハスティングスサンプリング器の更新を提案する。 我々は、このアプローチがIsingモデル、Pottsモデル、制限ボルツマンマシン、および因子的隠れマルコフモデルを含む多くの困難な設定でジェネリックサンプラーを上回っていることを実証的に示す。 また,高次元離散データを用いた深層エネルギーモデル学習における改良サンプラーの使用例を示す。 このアプローチは変分オートエンコーダや既存のエネルギーベースのモデルを上回る。 最後に、ローカル更新を提案するスプリマーのクラスで、我々のアプローチがほぼ最適であることを示す境界を与える。

We propose a general and scalable approximate sampling strategy for probabilistic models with discrete variables. Our approach uses gradients of the likelihood function with respect to its discrete inputs to propose updates in a Metropolis-Hastings sampler. We show empirically that this approach outperforms generic samplers in a number of difficult settings including Ising models, Potts models, restricted Boltzmann machines, and factorial hidden Markov models. We also demonstrate the use of our improved sampler for training deep energy-based models on high dimensional discrete data. This approach outperforms variational auto-encoders and existing energy-based models. Finally, we give bounds showing that our approach is near-optimal in the class of samplers which propose local updates.
公開日: Mon, 8 Feb 2021 20:08:50 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Oops I Took A Gradient: Scalable Sampling for Discrete Distributions Oops I Took A Gradient: 分散分散のためのスケーラブルなサンプリング 0.80
Will Grathwohl 1 2 Kevin Swersky 2 Milad Hashemi 2 David Duvenaud 1 2 Chris J. Maddison 1 Will Grathwohl 1 2 Kevin Swersky 2 Milad Hashemi 2 David Duvenaud 1 2 Chris J. Maddison 1 0.89
1 2 0 2 b e F 8 1 2 0 2 b e F 8 0.85
] G L . ] G L。 0.79
s c [ 1 v 9 0 5 4 0 sc [ 1 v 9 0 5 4 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract We propose a general and scalable approximate sampling strategy for probabilistic models with discrete variables. 概要 離散変数を持つ確率モデルに対する汎用的かつスケーラブルな近似サンプリング戦略を提案する。 0.61
Our approach uses gradients of the likelihood function with respect to its discrete inputs to propose updates in a MetropolisHastings sampler. 提案手法は, 離散入力に対する確率関数の勾配を用いて, メトロポリス・ハスティングス・サンプリング器の更新を提案する。
訳抜け防止モード: 我々のアプローチは離散入力に関して可能性関数の勾配を用いる MetropolisHastingsのサンプラーで更新を提案します。
0.80
We show empirically that this approach outperforms generic samplers in a number of difficult settings including Ising models, Potts models, restricted Boltzmann machines, and factorial hidden Markov models. 我々は、このアプローチがIsingモデル、Pottsモデル、制限ボルツマンマシン、および因子的隠れマルコフモデルを含む多くの困難な設定でジェネリックサンプラーを上回っていることを実証的に示す。 0.65
We also demonstrate the use of our improved sampler for training deep energy-based models on high dimensional discrete data. また,高次元離散データを用いた深層エネルギーモデル学習における改良サンプラーの使用例を示す。 0.78
This approach outperforms variational auto-encoders and existing energy-based models. このアプローチは変分オートエンコーダや既存のエネルギーベースのモデルを上回る。 0.56
Finally, we give bounds showing that our approach is near-optimal in the class of samplers which propose local updates. 最後に、ローカル更新を提案するスプリマーのクラスで、我々のアプローチがほぼ最適であることを示す境界を与える。 0.63
1. Introduction Discrete structure is everywhere in the real world, from text to genome sequences. 1. 導入 離散構造は、テキストからゲノム配列まで、現実世界の至る所にあります。 0.82
The scientific community is building increasingly complex models for this discrete data, increasing the need for methods to sample from discrete distributions. 科学コミュニティは、この離散データのためのますます複雑なモデルを構築し、離散分布からサンプリングする方法の必要性を高めています。 0.68
Sampling from a discrete distribution may seem like a simpler task than sampling from a continuous one: even a one-dimensional continuous distribution can have an uncountable infinity of outcomes, whereas a discrete distribution is at most countable. 離散分布からのサンプリングは連続分布からサンプリングするよりも単純な作業に思える: 1次元連続分布であっても、結果の無限遠性を持つことができるが、離散分布は最大可算である。 0.86
However, most common continuous distributions have some kind of simplifying structure, such as differentiable densities, which can be exploited to speed up sampling and inference. しかし、ほとんどの一般的な連続分布は、サンプリングと推論を高速化するために利用できる微分可能な密度のような単純化構造を有する。 0.74
Of course, many discrete distributions have structure as well. もちろん、多くの離散分布も構造を持っている。 0.82
Notably, discrete distributions over combinatorial spaces often have some kind of block independence structure among their variables. 特に、組合せ空間上の離散分布は、変数間である種のブロック独立構造を持つことが多い。 0.78
Although this can be used to speed up sampling and inference, it may be difficult to detect such structure automatically. これはサンプリングと推論の高速化に使用できるが、自動的に構造を検出することは困難である。 0.76
Typically, users need to 通常、ユーザーは必要です。 0.75
1University of Toronto and Vector Institute 2Google Research, Brain Team. 1University of Toronto and Vector Institute 2 Google Research, Brain Team 0.87
Correspondence to: Will Grathwohl <wgrathwohl@cs.toront o.edu>. 対応: Will Grathwohl <wgrathwohl@cs.toront o.edu>。 0.85
Arxiv Preprint, Copyright 2021 by the author(s). Arxiv Preprint, copyright 2021 by the author(s) 0.72
know this structure a priori and must hard-code it into an algorithm to speed up sampling. この構造を事前に把握し、サンプリングを高速化するためにアルゴリズムにハードコーディングしなければならない。 0.64
Figure 1. Our approach visualized. 図1。 私たちのアプローチは視覚化された。 0.56
Often discrete distributions are defined by continuous functions whose input is restricted to a discrete set; here R2 restricted to Z 2. しばしば離散分布は、入力が離散集合に制限される連続函数によって定義される(ここで r2 は z 2 に制限される)。 0.69
We use a Taylor series computed on the underlying continuous function to estimate likelihood ratios of of making discrete moves; here ±1 in either direction. 我々は、根底にある連続関数に基づいて計算されたテイラー級数を使用して、離散移動の確率比を推定する。
訳抜け防止モード: 基礎となる連続関数で計算されたテイラー級数を使い 離散移動の確率比を、いずれの方向でも ±1 で推定する。
0.74
These estimated likelihood ratios are used to inform a proposal distribution over moves in the original discrete space. これらの推定確率比は、元の離散空間における動きに関する提案分布を知らせるために用いられる。 0.68
In search for a unifying structure, we notice that many discrete distributions are written (and implemented) as differentiable functions of real-valued inputs. 統一構造を求める際、多くの離散分布が実数値入力の微分可能関数として記述(および実装)されていることに気づく。 0.70
The discrete structure is created by restricting the continuous inputs to a discrete subset of their domain. 離散構造は、連続入力をドメインの離散部分集合に制限することによって作成される。 0.81
In this paper, we use the gradients of these underlying continuous functions to inform proposal distributions for MCMC sampling in large discrete probabilistic models. 本稿では、これらの基礎となる連続関数の勾配を用いて、大規模離散確率モデルにおけるMCMCサンプリングの提案分布を通知する。 0.76
This new family of gradient-informed proposals for MCMC may be seen as a class of adaptive Gibbs samplers or a fast approximation to locally-informed proposals (Umrigar, 1993; Liu, 1996; Zanella, 2020). MCMCのための勾配インフォームド提案の新しいファミリーは、適応ギブスサンプラーのクラスまたは局所インフォームド提案(Umrigar, 1993; Liu, 1996; Zanella, 2020)への迅速な近似と見なすことができます。 0.75
As we show, this gradient information is cheaply available for many discrete distributions and can lead to orders of magnitude improvements in sampling efficiency. このように、この勾配情報は多くの離散分布で安価に利用可能であり、サンプリング効率が桁違いに向上する可能性がある。 0.66
In some cases, it even outperforms samplers that exploit hard-coded independence structure. 場合によっては、ハードコードされた独立構造を利用するサンプルよりも優れています。 0.51
We apply these sampling techniques to improve parameter inference in discrete energy-based models such as Ising and Potts models. これらのサンプリング手法を用いて,IsingやPottsなどの離散エネルギーモデルにおけるパラメータ推論を改善する。 0.78
We also find that our method is partic- また、我々の方法は素粒子である。 0.46
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
q(x(cid:48)|x) =(cid:80) q(x(cid:48)|x) =(cid:80) 0.85
i q(x(cid:48)|x, i)q(i) where q(i) is a distribution over indices i ∈ {1, . i q(x(cid:48)|x, i)q(i) ここで q(i) は指数 i ∈ {1, 上の分布である。 0.93
. . , D} and q(x(cid:48)|x, i) = 1(x(cid:48) = x−i). . . q(x(cid:48)|x, i) = 1(x(cid:48) = x−i) である。 0.86
With this sampler we will first sample an index i ∼ q(i), then flip the i-th bit of x to obtain x(cid:48) and accept this proposed update with probability このサンプルでは、まずインデックス i > q(i) をサンプリングし、次に x の i 番目のビットを反転して x(cid:48) を取得し、この提案された更新を確率で受け入れる。 0.66
min exp(f (x(cid:48)) − f (x)) 分 exp(f(x(cid:48)) − f(x)) 0.75
, 1 . (1) (cid:27) , 1 . (1) (cid:27) 0.83
q(x|x(cid:48)) q(x(cid:48)|x) q(x|x(cid:48)) q(x(cid:48)|x) 0.82
(cid:26) ularly well-suited to sample from unnormalized discrete distributions parameterized by deep neural networks. (cid:26) 深いニューラルネットワークによってパラメータ化された非正規化離散分布のサンプルに適している。 0.71
The improved efficiency of our sampler allows us to apply many techniques from large-scale continuous EBMs to successfully train deep EBMs for discrete data. サンプル装置の効率性が向上することで,大規模連続ebmから,離散データに対する深部ebmのトレーニングに多くの技術が応用可能になった。 0.62
These models are simple to define, flexible, and outperform baseline variational auto-encoders (Kingma & Welling, 2013) and existing energy-based models. これらのモデルは、ベースラインの可変オートエンコーダ(Kingma & Welling, 2013)と既存のエネルギーベースモデルの定義、適用性、およびパフォーマンスに優れています。 0.65
2. Background In this work we are concerned with sampling from unnormalized distributions over discrete data 2. この研究の背景 私たちは離散データ上の非正規化分布からのサンプリングに関心があります 0.75
log p(x) = f (x) − log Z log p(x) = f(x) − log Z 0.85
Z =(cid:80) Z =(cid:80) 0.88
where f (x) is the unnormalized log-probability of x and x ef (x) is the normalizing constant which we assume in unknown. ここで f (x) は x の非正規化対数確率であり、x ef (x) は未知と仮定する正規化定数である。 0.78
We restrict our study to D-dimensional binary x ∈ {0, 1}D and categorical x ∈ {0, 1, . 我々は、D-次元のバイナリ x ∈ {0, 1}D と圏 x ∈ {0, 1, に限定する。 0.76
. . , K}D data as all finite-dimensional discrete distributions can be embedded in this way. . . すべての有限次元離散分布として , K}D データをこの方法で埋め込むことができる。 0.83
2.1. Gibbs Sampling 2.1. gibbsサンプリング 0.64
Gibbs sampling is perhaps the simplest and most generic method for sampling from discrete distributions. ギブズサンプリングはおそらく、離散分布からサンプリングする最も単純かつ最も一般的な方法である。 0.73
At each step, the sampler partitions the dimensions of an input x in to two groups xu and x−u where u is a subset of the D dimensions of x and −u is its complement. 各ステップにおいて、サンプラーは入力 x の次元を 2 つの群 xu と x−u に分割し、ここで u は x の d 次元の部分集合であり −u はその補集合である。
訳抜け防止モード: 各ステップにおいて、サンプルは入力 x の次元を xu と x−u の2つの群に分割する。 u は x の D 次元の部分集合である そして −u が補数である。
0.77
The next sample in the chain is created by updating xu to be a sample from p(xu|x−u), the conditional distribution of the chosen dimensions, given all others. 鎖内の次のサンプルは、選択された次元の条件分布である p(xu|x−u) のサンプルである xu を更新することによって生成される。 0.80
In some distributions, blockindependence structure exists, making certain partitions easy to sample from and update in parallel. 一部のディストリビューションでは、ブロック独立構造が存在し、特定のパーティションを並列にサンプル化し、更新することが容易である。 0.57
In the worst case, if such structure does not exist, we can let xu = xi, simply the i-th dimension of of x. 最悪の場合、そのような構造が存在しない場合、 xu = xi、単に x の i 番目の次元を許すことができる。 0.80
In this setting p(xi|x−i) is simply a one-dimensional categorical distribution over K possible outcomes, which requires K evaluations of the unnormalized log-density function. この設定では、p(xi|x−i) は単に K の可能な結果上の一次元圏分布であり、非正規化ログ密度関数の K 評価を必要とする。 0.62
We typically fix an ordering of the dimensions and iterate through this ordering to ensure that each dimension is updated. 私達は通常次元の順序を修理し、各次元が更新されることを保障するためにこの順序を通して繰り返します。 0.62
While simple, updating one dimension at a time can be problematic for high-dimensional data. 単純ではあるが、1つの次元を同時に更新することは、高次元データには問題となる。 0.49
Consider for example a binary model of the MNIST dataset. 例えば、MNISTデータセットのバイナリモデルを考えてみましょう。 0.71
Almost all dimensions will represent the background and if chosen for a Gibbs update, they will almost certainly not change. ほぼすべての次元が背景を表し、もしギブスのアップデートで選ばれたら、ほとんど確実に変更されないだろう。 0.68
Similarly, the pixels on the interior of a digit will also not change. 同様に、数字の内部のピクセルも変化しません。 0.65
This amounts to wasted computation every time we propose a dimension, which does not change. これは、私たちが次元を提案するたびに無駄な計算になるが、それは変化しない。 0.61
Ideally, if we could bias our partition choice to dimensions which are likely to change, we could build a more efficient Gibbs sampler. 理想的には、分割の選択を変化しそうな次元に偏り付けることができれば、より効率的なGibbsサンプルラを構築することができるでしょう。 0.63
Consider a similar the binary case; Metropolis-Hastings with the proposal distribution 同様の二項の場合を考える;メトロポリス-ハスティングと提案分布 0.64
sampler for sampler ですから 0.70
This approach can lead to considerable performance improvements if q(i) is biased towards dimensions which are more likely to flip. このアプローチは、q(i) が反転しやすい次元に偏りがある場合、かなりの性能改善をもたらす可能性がある。 0.66
To this end, considerable work has been done to use prior sampling data to adaptively update the q(i) while maintaining the validity of MCMC sampling (Łatuszy´nski et al., 2013; Richardson et al., 2010). この目的のために、事前サンプリングデータを使用して、mcmcサンプリングの妥当性を維持しつつ、q(i)を適応的に更新する(łatuszy ́nski et al., 2013; richardson et al., 2010)。 0.58
Revisiting our MNIST example, we can see the pixels most likely to change are those at the edge of a digit. MNISTの例を再確認すると、最も変更の可能性が高いピクセルが桁の端にあることがわかります。 0.64
Where this edge is varies considerably and depends on the entire input x. このエッジがかなり変化し、入力x全体に依存します。 0.59
Thus, we can imagine an input dependent proposal q(i|x) should be able to outperform an unconditional proposal q(i). したがって、入力依存プロポーザル q(i|x) が無条件プロポーザル q(i) を上回ることができると想像できる。 0.63
Our proposed approach does exactly that, using gradient information to inform a proposal over dimensions which leads to more efficient sampling. 提案手法は, より効率的なサンプリングを実現するため, 勾配情報を用いて次元上の提案を通知する手法である。 0.78
2.2. Locally-Informed Proposals 2.2. 地域別提案 0.66
A good Metropolis-Hastings proposal needs to balance the increase in the likelihood of the proposed point x(cid:48) with the decrease in the probability of the reverse proposal q(x|x(cid:48)). 良いメトロポリス-ハスティングスの提案は、提案された点 x(cid:48) の確率の増加と逆提案 q(x|x(cid:48)) の確率の減少のバランスをとる必要がある。 0.69
A natural strategy for increasing the likelihood is to use locally-informed proposals: 可能性を高めるための自然な戦略は、ローカルに通知された提案を使用することです。 0.51
qτ (x(cid:48)|x) ∝ e qτ(x(cid:48)|x) = e 0.78
1 τ (f (x(cid:48))−f (x))1(x(cid:48) ∈ H(x)). 1 τ (f (x(cid:48))−f (x))1(x(cid:48) ∈ H(x))。 0.90
(2) where H(x) is the Hamming ball of some size around x and τ > 0 is a temperature parameter. (2) h(x) は x の周りにある大きさのハミングボールであり、τ > 0 は温度パラメータである。 0.83
In this case, the proposal is simply a tempered Softmax over f (x(cid:48)) − f (x) for all x(cid:48) ∈ H(x). この場合、提案は単にすべての x(cid:48) ∈ H(x) に対して f(x(cid:48)) − f(x) 上の強化されたソフトマックスである。 0.78
If the temperature τ is too low, this proposal will aggressively optimize the local likelihood increase from x → x(cid:48), but possibly collapse the reverse proposal probability qτ (x|x(cid:48)). 温度 τ が低すぎる場合、この提案は x → x(cid:48) からの局所的確率増加を積極的に最適化するが、逆提案確率 qτ (x|x(cid:48)) を崩壊させる可能性がある。 0.70
If the temperature τ is too high, this proposal may increase the reverse proposal probability qτ (x|x(cid:48)), but ignore the local likelihood increase. 温度 τ が高すぎると、この提案は逆提案確率 qτ (x|x(cid:48)) を増加させるが、局所的可能性の増加は無視する。 0.72
The temperature that balances both of these terms is τ = 2 (Umrigar, 1993; Zanella, 2020). これら両方の項のバランスをとる温度は τ = 2 (umrigar, 1993; zanella, 2020) である。 0.91
We include a derivation of this fact in Appendix A. 我々は付録Aにこの事実の導出を含む。 0.70
In fact, Zanella (2020) showed that q2(x(cid:48)|x) is in the optimal subclass of locally-informed proposals. 実際、Zanella (2020) は q2(x(cid:48)|x) が局所情報に基づく提案の最適サブクラスであることを示した。 0.70
Zanella (2020) also demonstrated that this can lead to large improvements in empirical performance per sampling step compared to other generic samplers like Gibbs and the Hamming-Ball sampler (Titsias & Yau, 2017). zanella (2020) はまた、gibbs や hamming-ball sampler (titsias & yau, 2017) のような他の一般的なサンプラーと比べて、サンプリングステップごとの経験的パフォーマンスが大幅に向上することを示した。 0.61
Unfortunately, while powerful, these locally-informed proposals requires us to to compute f (x(cid:48)) − f (x) for every x(cid:48) ∈ H(x). 残念なことに、これらの局所インフォームドな提案は、すべての x(cid:48) ∈ H(x) に対して f (x(cid:48)) − f (x) を計算する必要がある。 0.69
For D-dimensional data and a Hamming window size of 1, this requires O(D) evaluations of f which D次元データとハミングウィンドウサイズが 1 の場合、これは f の O(D) 評価を必要とする。 0.80
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
can become prohibitive as D grows. Dが成長するにつれて禁止されることがある。 0.46
Our proposed approach reduces this to O(1) evaluations while incurring a minimal decrease in the efficiency of each sampling step. 提案手法では,各サンプリング工程の効率を最小限に抑えながら,O(1)評価に還元する。 0.80
3. Searching for Structure For some distributions, structure exists which enables the local differences f (x(cid:48)) − f (x) to be computed efficiently. 3. 構造探索 一部の分布について、局所差分 f (x(cid:48)) − f (x) を効率的に計算できる構造が存在する。 0.85
This is not true in general, but even in settings where it is, bespoke derivations and implementations are required. これは一般的には当てはまりませんが、たとえ設定されている場合でも、特注の導出と実装が必要です。 0.59
Ideally, we could identify a structure that is ubiquitous across many interesting discrete distributions, can be exploited in a generic and generalizable way, and can allow us to accurately estimate the local differences. 理想的には、多くの興味深い離散分布にまたがるユビキタスな構造を、汎用的で一般化可能な方法で利用でき、局所的な差異を正確に見積もることができる。 0.75
To find such structure, we examine the functional form of the unnormalized log-probability for some common, diverse families of discrete distributions in Table 1. このような構造を見つけるため、表1の離散分布の一般的な多様なファミリーに対する非正規化ログ確率の機能形式を検討する。 0.77
Distribution log p(x) + log Z 分布 log p(x) + log Z 0.82
Categorical Poisson カテゴリー別ポアソン 0.36
HMM RBM Ising HMM RBM の登場 0.86
(cid:80)T (cid:80) (cid:80)L (cid:80)T (cid:80) (cid:80)L 0.78
xT θ x log λ − log Γ(x + 1) xT は x log λ − log (x + 1) である。 0.88
t+1Axt − (wT x−y)2 t=1 xT i softplus(W x + b)i + cT x t+1Axt − (wT x−y)2 t=1 xT i softplus(W x + b)i + cT x 0.89
2σ2 xT W x + bT x 2σ2 xT W x + bT x。 0.76
i xi +(cid:80)L i xi +(cid:80)L 0.94
i,j=1 xT i Jijxj i,j=1 xT i jijxj 0.81
Potts Deep EBM fθ(x) Potts Deep EBM fθ(x) 0.96
i=1 hT Table 1. i=1 hT 表1。 0.72
Unnormalized log-likelihoods of common discrete distributions. 共通離散分布の非正規化ログ類似性。 0.63
All are differentiable with respect to x. すべて x に関して微分可能である。 0.63
The formulas in Table 1 are not only the standard way these distributions are written down, but they are also the standard way these distributions are implemented in probabilisitic programming frameworks. 表1の式は、これらの分布を記述する標準的な方法だけでなく、これらの分布を確率的プログラミングフレームワークで実装する標準的な方法でもある。 0.82
The key insight here is that these are all continuous, differentiable functions accepting real-valued inputs, even though they are evaluated only on a discrete subset of their domain. ここでの重要な洞察は、これらは全て実数値入力を受け入れる連続微分可能な関数であり、それらはドメインの離散部分集合でのみ評価される。 0.75
We propose to exploit this structure and that gradients, in the form of Taylor-series approximations, can be used to efficiently estimate likelihood ratios between a given input x and other discrete states x(cid:48). 本稿では,この構造を利用して,テイラー級数近似の形式の勾配を用いて,与えられた入力xと他の離散状態x(cid:48)の確率比を効率的に推定できることを提案する。 0.74
When we are dealing with D-dimensional binary data, we can estimate the likelihood ratios of flipping each bit with d-次元バイナリデータを扱う場合、各ビットを反転させる確率比を推定できる。 0.68
˜d(x) = −(2x − 1) (cid:12) ∇xf (x) sd(x) = −(2x − 1) (cid:12) >xf(x) 0.91
(3) where ˜d(x)i ≈ f (x−i)− f (x) and x−i is x with the i-th bit flipped. (3) ここで sd(x)i は f (x−i)− f (x) と x−i は x で i 番目のビットが反転する。 0.82
If we are dealing with D-dimensional categorical data we can estimate a similar quantity ˜d(x)ij = ∇xf (x)ij − xT D-次元の分類データを扱う場合、類似の量を見積もることができる: sd(x)ij = sxf(x)ij − xT 0.80
i ∇xf (x)i xf (x)i である。 0.77
(4) where ˜d(x)ij approximates the log-likelihood ratio of flipping the i-th dimension of x from its current value to the value j. (4) ここで、d(x)ij は x の i-次元を現在の値から j に反転させる対数様比を近似する。 0.77
Similar first-order approximations can easily be derived for larger window sizes as well with linear operators applied to the gradient of the log-probability function. 同様の一階近似は、ログ確率関数の勾配に適用される線形演算子と同様に、より大きなウィンドウサイズでも容易に導出できる。 0.68
4. Gibbs With Gradients We now present our main algorithm. 4. Gibbs With Gradients メインのアルゴリズムを紹介します。 0.80
We use a Taylor-series (Equations 3, 4) to approximate the likelihood ratios within a local window of a point x. テイラー級数 (方程式3, 4) を用いて点 x の局所窓内における確率比を近似する。 0.69
We use these estimated likelihood ratios to produce an approximation 推定された確率比を使って近似し 0.63
q∇(x(cid:48)|x) ∝ e q(x)(cid:48)|x) 0.80
˜d(x) 2 1(x(cid:48) ∈ H(x)) ~d(x) 2 1(x(cid:48) ∈ H(x)) 0.89
(5) to q2(x(cid:48)|x) of Equation 2, which we use in the standard Metropolis-Hastings algorithm. (5) から q2(x(cid:48)|x) への方程式を標準のメトロポリス・ハスティングスアルゴリズムで用いる。 0.74
Our experiments focus on a simple and fast instance of this approach which only considers local moves inside of a Hamming window of size 1. 実験では,サイズ1のハミングウィンドウ内の局所的な動きのみを考慮した,このアプローチの単純かつ高速な例に焦点を当てた。 0.70
For binary data, these window1 proposals have an even simpler form since all x(cid:48) ∈ H(x) differ by only dimension. バイナリデータに対して、これらのwindow1の提案は、すべての x(cid:48) ∈ h(x) が次元のみ異なるため、さらに単純な形式を持つ。 0.65
Proposing a move from x to x(cid:48) is equivalent to choosing which dimension i to change. x から x(cid:48) への移動を提案することは、どの次元 i を変更するかを選択することと同等である。
訳抜け防止モード: x から x(cid:48 ) への移動の提案 どの次元を変えるかという 選択と同じです
0.79
We can sample this from a categorical distribution over D choices: D 選択上の分類分布からこれをサンプル化できます。 0.78
q(i|x) = Categorical q(i|x) = Categorical 0.92
Softmax (6) Softmax (6) 0.85
(cid:32) (cid:32) ˜d(x) (cid:32) (cid:32)-d(x) 0.85
(cid:33)(cid:33) (cid:33)(cid:33) 0.75
2 Thus when x binary, to sample from q∇(x(cid:48)|x), we simply sample which dimension to change i ∼ q(i|x), and then deterministically set x(cid:48) = flipdim(x, i). 2 したがって、x バイナリーが q(x(cid:48)|x) のサンプルの場合、どの次元で i を変化させるのかを単にサンプリングし、次に x(cid:48) = flipdim(x, i) を決定論的に設定する。 0.81
In this case, when x and x(cid:48) differ only in dimension i, we have q∇(x(cid:48)|x) = q(i|x) and q∇(x|x(cid:48)) = q(i|x(cid:48)). この場合、x と x(cid:48) が次元 i でのみ異なるとき、q(x(cid:48)|x) = q(i|x) と q(x|x(cid:48)) = q(i|x(cid:48)) を持つ。 0.82
Because of the relationship to Adaptive Gibbs, we call our sampler Gibbs-With-Gradients . Adaptive Gibbsとの関係のため、サンプルをGibbs-With-Gradients と呼びます。 0.71
Pseudo-code describing our sampler can be found in Algorithm 1. サンプルを記述した擬似コードはアルゴリズム1で確認できます。 0.70
In the categorical data カテゴリーデータでは 0.73
Algorithm 1 Gibbs With Gradients Algorithm 1 Gibbs with Gradients(英語) 0.73
Input: unnormalized log-prob f (·), current sample x Compute ˜d(x) {Eq. 入力:非正規化log-prob f (·) 、現在のサンプル x は sd(x) {eq を計算する。 0.69
3 if binary, Eq. 3 if binary, eq。 0.81
4 if categorical.} 4 if categorical.} 0.85
Compute q(i|x) = Categorical Sample i ∼ q(i|x) x(cid:48) = flipdim(x, i) Compute q(i|x(cid:48)) = Categorical Accept with probability: Compute q(i|x) = Categorical Sample i(i|x) x(cid:48) = flipdim(x, i) Compute q(i|x(cid:48)) = Categorical Accept with probability: 0.97
(cid:17)(cid:17) (cid:16) ˜d(x) (cid:17)(cid:17) (cid:16) ˜d(x(cid:48)) (cid:19) (cid:17)(cid:17)(cid :16)(cid:17)(cid:17) (cid:16)(cid:48)) 0.85
(cid:16) (cid:16) (cid:16)(cid:16) 0.73
Softmax Softmax Softmax Softmax 0.85
(cid:18) 2 (cid:18) 2 0.82
2 min exp(f (x(cid:48)) − f (x)) 2 分 exp(f(x(cid:48)) − f(x)) 0.78
q(i|x(cid:48)) q(i|x) q(i|x(cid:48)) q(i|x) 0.78
, 1 setting, the proposal must choose not only which dimension to change, but also to what value. , 1 設定、提案は変更する寸法だけでなく、どの値にも選択する必要があります。 0.78
Thus, q(i|x) in this setting is a DK-way Softmax. したがって、この設定の q(i|x) は dk-way softmax である。 0.69
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
We describe some simple extensions in Appendix D. いくつかの簡単な拡張を appendix d で記述する。 0.65
4.1. Analyzing Approximations 4.1. 近似の分析 0.68
Zanella (2020) proved that “locally-balanced” proposals, like q2(x(cid:48)|x) in Equation 2, are the optimal locally-informed proposals for Metropolis-Hastings. zanella (2020) は、等式 2 の q2(x(cid:48)|x) のような「局所均衡」の提案が、メトロポリス-ハスティングの最適局所的不定な提案であることを証明した。 0.56
In this section we show that, under smoothness assumptions on f, our methods are within a constant factor of q2(x(cid:48)|x) in terms of asymptotic efficiency. この節では、f 上の滑らか性仮定の下で、我々の手法は漸近効率の観点から q2(x(cid:48)|x) の定数因子内にあることを示す。 0.72
To understand the asymptotic efficiency of MCMC transition kernels, we can study the asymptotic variance and spectral gap of the kernel. MCMCトランジションカーネルの漸近的効率を理解するために,カーネルの漸近的分散とスペクトルギャップについて検討することができる。 0.70
The asymptotic variance is defined as asymptotic variance は次のように定義されます。 0.52
(cid:32) T(cid:88) (cid:32) T(cid:88) 0.78
t=1 (cid:33) t=1 (cid:33) 0.69
varp(h, Q) = lim T→∞ varp(h, Q) = lim T→∞ 0.98
1 T var h(xt) 1T var h(xt) 0.82
(7) where h : X → R is a scalar-valued function, Q is a pstationary Markov transition kernel, and X1 ∼ p(x). (7) ここで h : X → R はスカラー値関数であり、Q は pstationary Markov transition kernel であり、X1 は p(x) である。 0.86
The spectral gap is defined as スペクトルギャップは次のように定義される 0.58
Gap(Q) = 1 − λ2 Gap(Q) = 1 − λ2 0.94
(8) where λ2 is the second largest eigenvalue of the transition probability matrix of Q. (8) λ2 は Q の遷移確率行列の第二の最大の固有値である。 0.86
Both of these quantities measure the asymptotic efficiency of Q. どちらの量もqの漸近効率を測定する。 0.62
The asymptotic variances measures the additional variance incurred when using sequential samples from Q to estimate Ep[h(x)]. 漸近分散は、Q からの逐次サンプルを用いて Ep[h(x)] を推定する際に生じる追加の分散を測定する。 0.68
The spectral gap is related to the mixing time, with larger values corresponding to faster mixing chains (Levin & Peres, 2017). スペクトルギャップは混合時間と関連しており、より高速な混合鎖に対応する値が大きい(levin & peres, 2017)。 0.78
Since our method approximates q2(x(cid:48)|x), we should expect some decrease in efficiency. 本手法は q2(x(cid:48)|x) を近似するため, 効率の低下が期待できる。 0.74
We characterize this decrease in terms of the asymptotic variance and spectral gap, under the assumption of Lipschitz continuity of ∇xf (x). 我々は、xf (x) のリプシッツ連続性の仮定の下で、漸近的分散とスペクトルギャップの観点からこの減少を特徴付ける。 0.70
In particular, we show that the decrease is a constant factor that depends on the Lipschitz constant of ∇xf (x) and the window size of our proposal. 特に,この減少は,イクスフ (x) のリプシッツ定数と提案のウィンドウサイズに依存する定数因子であることを示す。 0.62
Theorem 1 Let Q(x(cid:48), x) and Q∇(x(cid:48), x) be the Markov transition kernels given by the Metropolis-Hastings algorithm using the locally balanced proposal q2(x(cid:48)|x) and our approximation q∇(x(cid:48)|x). 定理 1 Q(x(cid:48), x) と Q(x(cid:48), x) を、局所平衡プロポーザル q2(x(cid:48)|x) と近似 q(x(cid:48)|x) を用いてメトロポリス・ハスティングスアルゴリズムによって与えられるマルコフ遷移核とする。 0.80
Let f be an L-smooth logprobability function and p(x) = exp(f (x)) (a) varp(h, Q∇) ≤ varp(h,Q) (b) Gap(Q∇) ≥ c · Gap (Q) where c = e− 1 f を L-平滑なログ確率関数とし、p(x) = exp(f(x)) (a) varp(h, Q ) ≤ varp(h, Q) (b) Gap(Q ) ^ c · Gap(Q) を c = e− 1 とする。 0.91
H and DH = supx(cid:48)∈H(x) ||x − x(cid:48)||. H と DH = supx(cid:48)∈H(x) ||x − x(cid:48)|| である。 0.79
. Then it holds . その後保持します。 0.68
2 LD2 + 1−c 2 LD2 + 1−c 0.79
c · varp(h) c ·varp(h) 0.78
Z c A proof can be found in Appendix B. Z c 証明は付録Bで見つけることができます。 0.81
This roughly states that Q∇(x(cid:48), x) is no less than c-times as efficient than Q(x(cid:48), x) per step for estimating expectations. これは概して、Q(x(cid:48), x) は予想を推定するためのステップ毎の Q(x(cid:48), x) よりも効率的である。 0.78
As expected, our approach matches the efficiency of the target proposal when the Taylor-series approximation is accurate. 予想通り,テイラー級数近似が正確である場合,提案手法は目標提案の効率に合致する。 0.75
An example: Consider an Ising model on a cyclic 2D lattice. 例:周期的2次元格子上のIsingモデルを考える。 0.77
This model has log-probability function f (x) = θ · xT Jx − log Z where J is the binary adjacency matrix of the lattice, θ is the connectivity strength and Z is the unknown normalizing constant. このモデルには、J が格子の二進隣接行列であり、Z が連結強度であり、Z が未知の正規化定数であるログ確率関数 f (x) = s · xT Jx − log Z がある。 0.78
We can see the gradient is ∇xf (x) = 2θ · Jx and can bound L ≤ 2σ(J)θ = 8θ. 勾配は xf (x) = 2θ · Jx で、L ≤ 2σ(J)θ = 8θ と有界である。 0.74
For θ = .1 and a Hamming window of size 1, this gives c = .67, regardless of D. Since a single evaluation of f has an O(D2) cost, it costs O(D3) to compute1 q2(x(cid:48)|x). θ = .1 とサイズ 1 のハミング窓の場合、これは C = .67 を D によらず与える。 f の単一の評価は O(D2) のコストを持つので、1 q2(x(cid:48)|x) を計算するのに O(D3) のコストがかかる。 0.79
Compared to the exact local-differences proposal, the GibbsWith-Gradients proposal q∇(x(cid:48)|x) incurs at most a constant loss in sampling efficiency per-iteration but gives a O(D) increase in speed. GibbsWith-Gradients 提案 q(x(cid:48)|x) は、正確な局所微分提案と比較すると、イテレーションあたりのサンプリング効率が一定に低下するが、速度が O(D) 向上する。 0.71
5. Relationship to Continuous Relaxations Why hasn’t this relatively simple approach been proposed before? 5. 継続的緩和との関係 なぜこの比較的単純なアプローチが提案されていないのか? 0.78
A number of prior works have used gradient information for discrete sampling. 多くの先行研究では、離散的なサンプリングに勾配情報を用いた。 0.63
Instead of using gradients to inform discrete updates directly, these methods transport the problem into a continuous relaxation, perform updates there, and transform back after sampling. 勾配を使って離散的な更新を直接知らせる代わりに、これらの方法は問題を継続的に緩和し、そこで更新を行い、サンプリング後に変換する。 0.63
This approach incurs many of the pitfalls of continuous sampling without providing the scalability. このアプローチは、スケーラビリティを提供することなく、継続的サンプリングの落とし穴の多くを引き起こします。 0.52
We find these methods are not competitive with Gibbs-With-Gradients in high dimensions. これらの方法はGibs-With-Gradientsと高次元では競合しない。 0.53
In more detail, these methods use the discrete target distribution to create a related continuous distribution (relaxation) whose samples can be transformed to samples from the target distribution. より詳しくは、これらの手法は離散的目標分布を用いて、サンプルを対象分布からサンプルに変換するための関連する連続分布(緩和)を生成する。 0.85
They then apply gradient-based sampling methods such as Stein Variational Gradient Descent (Liu & Wang, 2016) or Hamiltonian Monte-Carlo (HMC) (Neal et al., 2011) to the new distribution. 彼らは、新しい分布にスタイン変分勾配 Descent (Liu & Wang, 2016) やハミルトニアンモンテカルロ (HMC) (Neal et al., 2011) のような勾配に基づくサンプリング手法を適用する。 0.81
Examples of such methods are the recently proposed DiscreteSVGD (D-SVGD) (Han et al., 2020) and Discontinuous HMC (Nishimura et al., 2017). そのような手法の例として、最近提案されたDiscreteSVGD (D-SVGD) (Han et al., 2020) や Discontinuous HMC (Nishimura et al., 2017) がある。 0.76
A key challenge of these approaches is that the relaxed distribution can be arbitrarily difficult to sample from, highly multi-modal and require small step-sizes. これらのアプローチの重要な課題は、緩和された分布が任意にサンプル化が困難で、高度にマルチモーダルであり、小さなステップサイズを必要とすることである。 0.60
Further, metrics of MCMC performance and mixing in the relaxed space may not indicate performance and mixing in the discrete space. さらに、リラックスした空間におけるMCMCの性能と混合の指標は、離散空間における性能と混合を示すものではない。
訳抜け防止モード: さらにmcmc性能の指標と リラックスした空間での混合 離散空間における性能と混合を示すものではない。
0.80
These methods also require the tuning of many additional hyper-parameters such as step-size, momentum, and the temperature of the relaxation. これらの方法は、ステップサイズ、運動量、緩和温度などの多くの追加のハイパーパラメータのチューニングも必要である。 0.66
In contrast, our approach operates directly in discrete space, and has no hyper-parameters. 対照的に、我々の手法は離散空間で直接動作し、ハイパーパラメータを持たない。 0.70
Figure 2 compares these approaches on the task of sampling from restricted Boltzmann machines (RBMs) of up to 1000 dimensions. 図2は、1000次元までの制限ボルツマン機械(rbms)からサンプリングするタスクにおけるこれらのアプローチを比較します。 0.75
We compare to D-SVGD and two relaxation-based baselines derived from the Metropolis- D-SVGDと2つの緩和ベースラインの比較- 0.62
1The local difference function of an Ising model can be computed more efficiently. 1 イジングモデルの局所差分関数をより効率的に計算することができる。 0.83
However, this requires a bespoke derivation and implementation, and is not possible for general pmfs, such as those parameterized by neural networks. しかし、これは特注の導出と実装を必要とし、ニューラルネットワークによってパラメータ化されたような一般的なpmfでは不可能である。 0.59
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
Adjusted Langevin Algorithm (Besag, 1994) and HMC. 調整されたランゲビンアルゴリズム(Besag, 1994)とHMC。 0.74
We compare the log-MMD between generated samples and “ground-truth” samples generated with Block-Gibbs. 生成されたサンプルとBlock-Gibbsで生成された「グラウンドトルース」サンプルのログMMDを比較します。 0.61
We also display samples from an MNIST-trained model. MNISTトレーニングモデルのサンプルも展示しています。 0.71
In contrast to all three baselines, our approach does not degrade with dimension. これら3つのベースラインとは対照的に、我々のアプローチは次元で劣化しない。 0.57
Additional results, details, and discussion can be found in Appendix C. These relaxation-based approaches do not scale beyond 200 dimensions, so we do not compare to them in our main experimental results section これらの緩和に基づくアプローチは200次元以上ではスケールしないので、主要な実験結果のセクションではそれらと比較しない。
訳抜け防止モード: さらなる結果、詳細、議論は、Appendix Cで見ることができる。 これらの緩和 - ベースアプローチは200次元を超えない。 主な実験結果のセクションでは 比較しませんが
0.71
Restricted Boltzmann Machines latent-variable models defined as: Restricted Boltzmann Machines latent-variable model 0.62
are unnormalized log p(x) = log(1 + exp(W x + c)) + bT x − log Z (9) where {W, b, c} define its parameters and x ∈ {0, 1}D. We train an RBM with 500 hidden units on the MNIST dataset using contrastive divergence (Hinton, 2002). 非正規化され log p(x) = log(1 + exp(W x + c)) + bT x − log Z(9) ここで {W, b, c} はそのパラメータと x ∈ {0, 1}D を定義する。
訳抜け防止モード: 非正規化され log p(x ) = log(1 + exp(W x + c ) ) + bT x − log Z ( 9 ) ここで { W, b, c } はそのパラメータと x ∈ { 0 を定義する。 我々はMNISTデータセット上に500個の隠れたユニットを持つRBMを、対照的な発散(Hinton, 2002)を用いて訓練する。
0.64
We generate samples with various MCMC samplers and compare them in two ways. 様々なMCMCサンプラーでサンプルを生成し、2つの方法で比較します。 0.71
First, using the Maximum Mean Discrepancy (MMD) (Gretton et al., 2012) between a set of samples from each sampler and a set of “ground-truth” samples generated using the structured Block-Gibbs sampler available to RBMs (see Appendix E for details). まず、各サンプルからのサンプルセットと、RBMで利用可能な構造化Block-Gibbsサンプルラーを用いて生成された"グラウンド・トゥルース"サンプルのセットの間に、最大平均離散性(MMD)(Gretton et al., 2012)を使用する。 0.82
Next, we report the Effective Sample Size (ESS) of a summary statistic over sampling trajectories. 次に,サンプリング軌跡に関する要約統計の有効サンプルサイズ(ESS)について報告する。 0.82
Results can be seen in Figure 3. 結果は図3に示すことができる。 0.84
Figure 2. Comparison to gradient-based samplers with continuous relaxations. 図2。 連続緩和を伴う勾配型サンプルラーとの比較 0.74
GWG, D-SVGD, R-HMC, and R-MALA refer to gibbs-with-gradients , Discrete SVGD, Relaxed HMC and Relaxed MALA, respectively. GWG, D-SVGD, R-HMC, R-MALAはそれぞれ, gibbs-with-gradients , Discrete SVGD, Relaxed HMC, Relaxed MALAを参照。 0.72
Left: Log-MMD (lower is better) between true samples and generated samples for RBMs of increasing dimension (over 3 runs). 左: 真のサンプルと生成されたサンプルの間のログMMD (低い方がよい) 寸法の増加 (3 回以上) の RBM のための。 0.72
“Target” is log-MMD between two sets of Block-Gibbs samples. Target”は2セットのBlock-Gibbsサンプル間のログMMDである。 0.70
Right: Visualized samples from an RBM trained on MNIST. 右:MNISTで訓練されたRBMのサンプルを可視化する。 0.71
6. Sampling From EBMs To demonstrate the benefits and generality of our proposed approach to sampling, we present results sampling from 3 distinct and challenging distributions; Restricted Boltzmann Machines, Lattice Ising models, and Factorial Hidden Markov Models. 6. ebmsからサンプリングし,提案手法の利点と汎用性を示すために,ボルツマン機械,格子イジングモデル,因子付き隠れマルコフモデルという3つの異なる,挑戦的な分布からサンプリングした結果を示す。 0.84
Each is evaluated differently based on the properties of the distribution. 各々は分布の性質に基づいて異なる評価を行う。 0.83
We compare our sampler, Gibbs-With-Gradients , against standard Gibbs sampling and the Hamming Ball Sampler (Titsias & Yau, 2017) – two generic approaches for discrete sampling. 私たちは、標準的なギブスサンプリングとハミングボールサンプラー(Titsias & Yau, 2017) - 離散サンプリングのための2つの一般的なアプローチと比較します。 0.63
When available, we also compare with samplers which exploit known structure in the distribution of interest. 利用可能な場合、興味の分布の既知の構造を利用するサンプルとの比較を行う。 0.75
In the following, Gibbs-X refers to Gibbs sampling with a block-size of X, and HB-X-Y refers to the Hamming Ball sampler with a block size of X and a hamming ball size of Y , and GWG refers to Gibbs-With-Gradients . 以下に、Gibs-XはブロックサイズXのギブスサンプリング、HB-X-YはブロックサイズXのハミングボールサンプリング、YのハミングボールサイズYのハミングボールサンプリング、GWGはGibs-With-Gradientsを示す。 0.65
Gibbs-1 is the fastest sampler tested. Gibbs-1はテストされる最も速いサンプラーです。 0.60
In our current implementation, we find Gibbs-2, HB-10-1, and GWG have approximately 1.6, 6.6, 2.1 times the cost of Gibbs-1 per step, respectively. 現在の実装では、Gibs-2、HB-10-1、GWGはそれぞれ1ステップあたりのGibs-1の約1.6倍、6.6倍、2.1倍のコストである。 0.44
Thus the run-time of GWG is most comparable to Gibbs-2. したがって、GWGのランタイムはGibbs-2に最も匹敵する。 0.66
Figure 3. RBM sampling results. 図3。 RBMサンプリング結果。 0.70
Left: Log-MMD of samples over steps (lower is better). 左:ステップ上のサンプルのログMMD (より低いですよりよい)。 0.78
“Target” is Log-MMD between two sets of Block-Gibbs samples. Target”は2セットのBlock-Gibbsサンプル間のログMMDである。 0.70
Right: Log-ESS of various samplers after 10,000 steps. 右:10,000ステップ後のさまざまなサンプラーのログレス。 0.58
Gibbs-With-Gradients matches Block-Gibbs in MMD and outperforms unstructured baselines in ESS. Gibbs-With-Gradients はMDDのBlock-Gibbsとマッチし、ESSの非構造ベースラインを上回る。 0.51
We see on the left that GWG matches the structured BlockGibbs sampler in MMD (“Target” in the Figure), while the other samplers do not. GWGはMDDの構造化されたBlockGibbsサンプルラー(図の“ターゲット”)と一致しているが、他のサンプルラーは一致しない。 0.69
On the right we see that the effective sample size of GWG is notably above the baselines and is approximately halfway between the baselines and the Block-Gibbs sampler (in log-space). 右側では、GWGの有効サンプルサイズが特にベースラインより高く、ベースラインとBlock-Gibbsサンプルラー(ログスペース)のほぼ中間にあることが分かる。 0.65
We note, Block-Gibbs can update all 784 dimensions in each iterations. Block-Gibbsは、各イテレーションで784のディメンションを更新できる。 0.72
GWG and Gibbs-1 can update 1 and Gibbs-2 and Hamming Ball can update 2 dimensions per iteration. GWGとGibs-1は1とGibs-2を更新でき、Hamming Ballはイテレーションごとに2次元を更新できる。 0.61
Lattice Ising Models by Lattice Ising Models by by 0.96
are models for binary data defined バイナリデータを定義するモデルです 0.81
log p(x) = θ · xT Jx − log Z log p(x) = θ · xT Jx − log Z 0.85
(10) where θ is the connectivity strength and J is the binary adjacency matrix, here restricted to be a 2D cyclic lattice. (10) θ は接続強度、J は二元隣接行列であり、ここでは2次元巡回格子に制限される。 0.75
This model was originally proposed to model the spin magnetic particles (Ising, 1924). このモデルは当初スピン磁性粒子をモデル化するために提案された(inging, 1924)。 0.79
We sample from models with increasing dimension and connectivity strength. 寸法と接続性が増すモデルからサンプルを採取する。 0.69
We evaluate 評価します 0.63
英語(論文から抽出)日本語訳スコア
using Effective Sample Size (ESS)2 of a summary statistic (full details in Appendix F). 要約統計(付録fの完全な詳細)の効果的なサンプルサイズ(ess)2を使用する。 0.82
Results can be seen in Figure 4. 結果は図4に示すことができる。 0.84
Gibbs with Gradients Gibbs with Gradients 0.85
Figure 4. Ising model sampling results. 図4。 isingモデルサンプリング結果。 0.71
The y-axis shows log-ESS over 100,000 samples steps. y軸は10万回以上のサンプルステップを示す。 0.59
Left: 10x10 lattice, right: 40x40 lattice. 左:10x10格子、右:40x40格子。 0.64
We see GWG outperforms in most settings. ほとんどの設定でGWGが上回ります。 0.76
We see GWG provides a notable increase in ESS for Ising models with higher connectivity. GWGは、接続性が高いIsingモデルのESSを顕著に増加させています。 0.67
These models are harder to sample from as their dimensions are more correlated. これらのモデルは、寸法がより相関しているため、サンプルが困難です。 0.63
Factorial Hidden Markov Models (FHMM) are latentvariable time-series models, similar to HMMs but their hidden state consists of distinct, independent factors. FHMM(Factial Hidden Markov Models)は、HMMと同様の潜在変数の時系列モデルであるが、その隠れ状態は独立した因子から構成される。 0.71
The continuous data y ∈ RL of length L is generated by the binary hidden state x ∈ {0, 1}L×K with K factors as L の長さの連続データ y ∈ RL は、K 因子を持つ二進非表示状態 x ∈ {0, 1}L×K によって生成される。 0.84
p(x, y) = p(y|x)p(x) p(y|x) = p(x, y) = p(y|x)p(x) p(y|x) = 0.99
L(cid:89) N (yt; W xt + b, σ2) L(cid:89) N (yt; W xt + b, σ2) 0.88
t=1 p(x) = p(x1) t=1 p(x) = p(x1) 0.76
L(cid:89) p(xt|xt−1) L(cid:89) p(xt|xt−1) 0.75
(11) t=2 We create a random FHMM with 1000 time-steps and a 10-dimensional hidden state and then draw samples y. (11) t=2 1000の時間ステップと10次元の隠れ状態を持つランダムなFHMMを作成し、サンプルyを描画する。 0.74
We generate posterior samples p(x|y) and evaluate our samplers using reconstruction error and joint likelihood. 後部サンプルp(x|y)を生成し,再構成誤差と接合率を用いて試料の評価を行った。 0.64
Full model description and experimental details can be found in Appendix G and results can be seen in Figure 5. 完全なモデル記述と実験的な詳細はappendix gで確認でき、結果は図5で確認できます。 0.86
In this setting, the Hamming-Ball sampler exploits known structure in the problem. この設定では、ハミング・ボールサンプルは問題の既知の構造を利用する。 0.57
Each block chosen by the sampler consists of the 10-dimensional latent state xt, as opposed to 10 random dimensions. サンプラーによって選択される各ブロックは、10のランダム次元とは対照的に、10次元潜入状態xtからなる。 0.67
Thus, the Hamming-Ball sampler in this setting is a stronger baseline. 従って、この設定のHamming-Ballのサンプラーはより強いベースラインです。 0.60
Despite this, we find GWG notably outperforms the baseline samplers. これにもかかわらず、GWGは特にベースラインサンプラーを上回っています。 0.60
Figure 5. Factorial Hidden Markov Model results. 図5。 ファクトリー隠れマルコフモデルの結果。 0.70
“Block-HB” refers to the block-structured hamming ball sampler. ブロックhb」はブロック構造のハミングボールサンプラーを指す。 0.77
Left, log-joint density and right, mean log-reconstruction error. left, log-joint density and right, mean log-reconstruction error。 0.81
GWG performs best in both evaluations, outperforming the Hamming Ball sampler which exploits model structure. GWGは両方の評価において最善を尽くし、モデル構造を利用するハミングボールサンプラーを上回っている。
訳抜け防止モード: GWGはどちらの評価でも最高である。 モデル構造を利用するハミングボールサンプリング器のパフォーマンス。
0.67
tation of the normalizing constant Z =(cid:80) 正規化定数 Z =(cid:80) のtation 0.87
x efθ(x) which is typically intractable. x efθ(x) は一般に難解である。 0.83
Thankfully, the gradient of likelihood can be more easily expressed as: ありがたいことに、確率の勾配は次のように簡単に表現できる。 0.60
∇θ log p(x) = ∇θfθ(x) − Epθ(x)[∇θfθ(x)] sθ log p(x) = sθfθ(x) − epθ(x)[sθfθ(x)] 0.90
(12) therefore, if samples can be drawn from pθ(x), then an unbiased gradient estimator can be derived. (12) したがって、サンプルを pθ(x) から引き出すことができれば、偏りのない勾配推定器を導出することができる。 0.77
We can approximate this estimator using MCMC. この推定値はmcmcで近似できる。 0.59
When a slow-mixing MCMC sampler is used to draw these samples, we obtain biased gradient estimates and this leads to sub-par learning. 遅い混合MCMCサンプルを用いてこれらのサンプルを描画すると、偏りのある勾配推定値が得られ、これがサブパーラーニングに繋がる。 0.69
Improvements in MCMC can then lead to improvements in parameter inference for unnormalized models. MCMCの改善は、非正規化モデルに対するパラメータ推論の改善につながる。 0.81
We explore how GWG can be applied to parameter inference for some classical discrete EBMs. 古典的離散ESMのパラメータ推定にGWGを適用する方法について検討する。 0.68
7.1. Training Ising models on generated data 7.1. 生成データを用いたイジングモデルの訓練 0.76
We generate Ising models with different sparse graph structures; a 2D cyclic lattice and a random Erdos-Renyi graph. 異なるスパースグラフ構造を持つIsingモデルを生成します。2D周期格子とランダムなErdos-Renyiグラフです。 0.77
We generate training data with a long-run Gibbs chain and train models using Persistent Contrastive Divergence (Tieleman, 2008) with an (cid:96)1 penalty to encourage sparsity. 持続的なコントラスト発散(tieleman, 2008)と(cid:96)1のペナルティを用いて,gibbsチェーンとトレインモデルを用いたトレーニングデータを生成する。 0.78
We evaluate our models using the RMSE between the inferred connectivity matrix ˆJ and the true matrix J. 実行列 J と推定接続行列 J の RMSE を用いたモデルの評価を行った。
訳抜け防止モード: 私たちはモデルを評価します 推論接続行列 yJ と真の行列 J の間の RMSE を用いる。
0.79
Full experimental details and additional results can be found in Appendix F.2, F.3 and results can be seen in Figure 6. 完全な実験の詳細と追加の結果はAppendix F.2, F.3で、その結果は図6で見ることができる。 0.82
In all settings, GWG greatly outperforms Gibbs sampling. すべての設定において、GWGはGibsサンプリングを大幅に上回る。 0.58
This allows for much faster training than standard Gibbs while recovering higher-quality solutions. これにより、高品質なソリューションを回復しながら、通常のギブよりはるかに高速なトレーニングが可能になる。 0.37
7. Training EBMs Training EBMs is a challenging task. 7. EBMの訓練 EBMの訓練は難しい課題だ。 0.82
Computing the likelihood for Maximum Likelihood inference requires compu- 最大度推論の確率を計算するには compu- 0.70
2Computed using Tensorflow Probability 2Tensorflow Probabilityを用いた計算 0.65
7.2. Protein Coupling Prediction with Potts Models 7.2. pottsモデルによるタンパク質結合予測 0.75
Proteins are defined by a discrete sequence of 20 amino acids x ∈ {1, . タンパク質は20個のアミノ酸x ∈ {1, の離散配列で定義される。 0.81
. . , 20}D where D is the length of the protein. . . , 20}D ここでDはタンパク質の長さである。 0.85
The Potts model has long been a popular approach for modelling the evolutionary distribution of protein se- Pottsモデルは長い間、タンパク質seの進化分布をモデル化する一般的なアプローチでした。 0.72
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
Full experimental details and additional results can be found in Appendix H and results can be seen in Figure 7. 完全な実験的な詳細と追加の結果はappendix hで確認でき、結果は図7で確認できます。 0.80
For the smaller protein, Gibbs sampling outperforms PLM but for the larger protein, the slow-mixing of the sampler causes the performance to drop below that of PLM. 小さいタンパク質の場合、ギブスサンプリングはplmよりも優れるが、大きいタンパク質では、サンプラーの混合が遅いため、plmよりも性能が低下する。 0.57
Despite the increased size, GWG performs the best. サイズが大きくなるにもかかわらず、GWGは最高の性能を発揮する。 0.58
Figure 6. Training Ising models with increasing MCMC steps. 図6。 トレーニング MCMCステップの増加を伴うIsingモデル。 0.78
Left: Lattice Ising (dim = 625, θ = .25). 左:Lattice Ising (dim = 625, θ = .25)。 0.85
Right: Erdos-Renyi Ising. 右:Erdos-Renyi Ising。 0.74
Values are log(RMSE) between the learned and true J. GWG leads to better solutions with lower computational cost. 値は学習と真のJ.GWGの間のログ(RMSE)であり、計算コストの低いより良いソリューションにつながります。 0.76
quences (Lapedes et al., 1999). quences (Lapedes et al., 1999)。 0.77
The model takes the form モデルはフォームを取ります 0.91
D(cid:88) D(cid:88) D(cid:88) D(cid:88) 0.84
log p(x) = log p(x) = 0.85
hT i xi + hT i xi +。 0.90
i=1 i,j=1 i Jijxj − log Z xT i=1 i,j=1 i Jijxj − log Z xT 0.74
(13) Figure 7. Recall Curves for contact prediction with Potts models. (13) 図7。 Pottsモデルとの接触予測のためのリコール曲線。 0.78
Gibbs-With-Gradients leads to higher recall. Gibbs-With-Gradients はリコール率を高める。 0.53
where xi is a one-hot encoding of the i-th amino acid in x, J ∈ R{D×D×20×20} and h ∈ R{D×20} are the model’s parameters and Z is the model’s normalizing constant. ここで xi は x の i 番目のアミノ酸の1ホットエンコーディングであり、J ∈ R{D×D×20×20} と h ∈ R{D×20} はモデルのパラメータであり、Z はモデルの正規化定数である。 0.86
The Potts model’s likelihood is the sum of pairwise interactions. pottsモデルの可能性は、ペアワイズ相互作用の和である。 0.68
Marks et al. (2011) demonstrated that the strength of these interactions can correspond to whether or not two amino acids touch when the protein folds. マークなど。 (2011) は、タンパク質が折り畳むと2つのアミノ酸が接触するかどうかにこれらの相互作用の強さが一致することを示した。 0.55
These inferred contacts can then be used to infer the 3D structure of the protein. これらの推論された接触は、タンパク質の3D構造を推測するために用いられる。 0.55
Since the Potts model is unnormalized, maximum likelihood learning is difficult, and (cid:96)1-regularize d Pseudo-likelihood Maximization (PLM) (Besag, 1975) is used to train the model. Potts モデルは正規化されていないため、最大極大学習は困難であり、(cid:96)1-正規化 Pseudo-likelihood Maximization (PLM) (Besag, 1975) を用いてモデルを訓練する。 0.72
Recently Ingraham & Marks (2017) found that improved contact prediction could be achieved with MCMCbased maximum likelihood learning. 最近 Ingraham & Marks (2017) は、MCMCに基づく最大可能性学習により、接触予測の改善が達成できることを示した。 0.55
Unfortunately, due to the limitations of discrete MCMC samplers, their study was restricted to small proteins (less than 50 amino acids). 残念なことに、MCMCサンプルの離散的な制限のため、研究は小さなタンパク質(50アミノ酸未満)に限られていた。 0.73
GWG allows these performance improvements to scale to large proteins as well. GWGは、これらのパフォーマンスの改善を大きなタンパク質にも拡張できる。 0.71
We train Potts models on 2 large proteins: OPSD BOVIN, and CADH1 HUMAN. OPSD BOVINとCADH1 HUMANの2つの大きなタンパク質上でPottsモデルを訓練する。 0.68
We train using PCD where samples are generated with GWG and Gibbs. GWG と Gibbs でサンプルを生成する PCD を使用してトレーニングします。 0.74
We run PLM as a baseline. PLMをベースラインとして運用しています。 0.56
These proteins are much larger than those studied in Ingraham & Marks (2017) with OPSD BOVIN, and CADH1 HUMAN having 276, and 526 amino acids, respectively3. これらのタンパク質は、OPSD BOVINでIngraham & Marks (2017)で研究されたものよりもはるかに大きく、CADH1 HUMANはそれぞれ276、および526アミノ酸を有する。 0.76
We predict couplings using the J parameter of our models. モデルのJパラメータを用いて結合を予測する。 0.73
We compute a “coupling-strength” for each pair of aminoacids as ||Jij||2 which gives a measure of how much indices i and j interact to determine the fitness of a protein. アミノ酸対の結合強度を ||Jij||2 と計算し、タンパク質の適合度を決定するために、i と j の相互作用の度合いを測る。 0.72
We sort index pairs by their coupling strength and compare the highest scoring pairs with known contacts in the proteins. 索引対を結合強度でソートし、最も得点の高い対とタンパク質中の既知の接点を比較する。 0.69
3After standard data pre-processing as in Ingraham & Marks Ingraham & Marksの3After標準データ前処理 0.81
(2017) 8. Deep EBMs for Discrete Data Deep Energy-Based Models have rapidly gained popularity for generative modeling. (2017) 8. Deep EBMs for Discrete Data Deep Energy-Based Modelsは、ジェネレーションモデリングの人気を急速に高めています。 0.80
These models take the form log p(x) = fθ(x) − log Z これらのモデルは log p(x) = fθ(x) − log Z 0.80
(14) where fθ : RD → R is a deep neural network. (14) ここで f* : RD → R はディープニューラルネットワークである。 0.85
The recent success of these models can be attributed to a few advancements including; the use of tempered Langevin samplers (Nijkamp et al., 2020) and large persistent chains (Du & Mordatch, 2019). これらのモデルの最近の成功は、誘引されたランゲヴィンサンプルラー(Nijkamp et al., 2020)や大きな永続チェーン(Du & Mordatch, 2019)の使用など、いくつかの進歩に起因している。 0.76
This has enabled EBMs to become a competitive approach for image-generation (Song & Ermon, 2019), adversarial robustness (Grathwohl et al., 2019; Hill et al., 2020), semi-supervised learning (Song & Ou, 2018; Grathwohl et al., 2020a) and many other problems. これにより、EMMは画像生成(Song & Ermon, 2019)、敵対的堅牢性(Grathwohl et al., 2019; Hill et al., 2020)、半教師付き学習(Song & Ou, 2018; Grathwohl et al., 2020a)などの多くの問題に対する競争的アプローチとなりました。 0.81
These advances rely on gradient-based sampling which requires continuous data. これらの進歩は、連続データを必要とする勾配に基づくサンプリングに依存している。 0.51
Thus, these scalable methods cannot be applied towards training deep EBMs on discrete data. したがって、これらのスケーラブルな手法は離散データ上で深いebmを訓練するために適用できない。 0.59
We explore how Gibbs-With-Gradients can enable the training of deep EBMs on high-dimensional binary and categorical data. Gibbs-With-Gradients は、高次元バイナリおよびカテゴリデータの深層EMMのトレーニングを可能にする方法を検討します。 0.50
To our knowledge, models of this form have not be successfully trained on such data in the past. 我々の知る限り、この形式のモデルは過去にそのようなデータでうまく訓練されていない。 0.78
We train deep EBMs parameterized by Residual Networks (He et al., 2016) on small binary and continuous image datasets using PCD (Tieleman, 2008) with a replay buffer as in Du & Mordatch (2019); Grathwohl et al. 我々は,pcd (tieleman, 2008) と du & mordatch (2019), grathwohl et al のリプレイバッファを用いて,残差ネットワーク(he et al., 2016) によってパラメータ化された深層ebmsを,小さなバイナリおよび連続画像データセット上で訓練する。 0.78
(2019). The continuous images were treated as 1-of-256 categorical data. (2019). 連続画像は1-of-256分類データとして扱われた。 0.73
PCD training is very sensitive to the choice of MCMC sampler. PCDトレーニングはMCMCサンプルの選定に非常に敏感である。 0.81
As an initial experiment, we attempted to train these models using standard Gibbs but found that the sampler was too slow to enable stable training within a reasonable compute budget. 最初の実験では、標準ギブを使ってこれらのモデルをトレーニングしようとしたが、サンプルがあまりに遅いため、妥当な計算予算内で安定したトレーニングができないことがわかった。 0.57
On the binary data we needed to train with 800 バイナリデータでは800のトレーニングが必要でした。 0.71
英語(論文から抽出)日本語訳スコア
Data Type Dataset データ型 データセット 0.69
Binary (log-likelihood ↑) Omniglot バイナリ (log-likelihood)Omni glot 0.64
Static MNIST Dynamic MNIST 静的MNIST動的MNIST 0.74
Caltech Silhouettes Frey Faces Histopathology Caltech Silhouettes Freyの病理組織 0.84
Categorical (bits/dim ↓) Categorical (bits/dim ) 0.94
Gibbs with Gradients Gibbs with Gradients 0.85
VAE (MLP) -86.05 -82.42 -103.52 -112.08 VAE (MLP) -86.05 -82.42 -103.52 -112.08 0.50
4.61 5.82 VAE (Conv) -82.41 -80.40 -97.65 -106.35 4.61 5.82 VAE (Conv) -82.41 -80.40 -97.65 -106.35 0.50
4.49 5.59 EBM (GWG) -80.01 -80.51 -94.72 -96.20 4.65 5.08 4.49 5.59 EBM (GWG) -80.01 -80.51 -94.72 -96.20 4.65 5.08 0.49
EBM (Gibbs) -117.17 -121.19 -142.06 -163.50 EBM (Gibbs) -117.17 -121.19 -142.06 -163.50 0.50
— — RBM DBN — — RBM DBN 0.85
-86.39 -85.67 -86.39 -85.67 0.47
-100.47 -100.78 -100.47 -100.78 0.47
— — — — — — — — — — — — — — — — 0.85
Table 2. Test-set log-likelihoods for models trained on discrete image datasets. 表2。 個別の画像データセットでトレーニングされたモデルのテストセットログライクレーション。 0.68
RBM and DBN results are taken from Burda et al. RBMおよびDBNの結果はBurdaらから取られます。 0.81
(2015), VAE results taken from Tomczak & Welling (2018). (2015) VAE results taken from Tomczak & Welling (2018)。 0.77
Gibbs sampling steps per training iteration. トレーニングイテレーション毎にステップをサンプリングするギブス。 0.58
All models we trained with fewer steps quickly diverged. 少ないステップでトレーニングしたすべてのモデルがすぐに分岐しました。 0.54
GWG required only 40. GWGは40名だった。 0.74
This made training with Gibbs 9.52x slower than GWG. これにより、GWGよりもGibs 9.52xのトレーニングが遅くなった。 0.51
For a fair comparison, the Gibbs results in Table 2 were trained for an equal amount of wall-clock time as the GWG models. 比較として,表2におけるギブスの結果はGWGモデルと同程度のウォールクロック時間で訓練された。 0.79
For the categorical data, we could not train models with Gibbs sampling. 分類データでは,gibbsサンプリングによるモデルのトレーニングはできなかった。 0.69
Each step of Gibbs requires us to evaluate the energy function 256 (for each possible pixel value) times. ギブスの各ステップはエネルギー関数256(可能なピクセル値毎に)の時間を評価する必要がある。 0.81
GWG requires 2 function evaluations. GWGは2つの機能評価を必要とする。 0.56
Thus the amount of compute per iteration for Gibbs is 128x greater than GWG. したがって、Gibsのイテレーションごとの計算量はGWGよりも128倍大きい。 0.74
Further, to make Gibbs train stably, we would need to use many more steps, as with the binary data. さらに、Gibsを安定してトレーニングするには、バイナリデータと同様に、さらに多くのステップを使用する必要があります。 0.55
This would give roughly a 870x increase in run-time. これにより、実行時間はおよそ870倍増加する。 0.76
Therefore, training a model of this form with Gibbs is simply not feasible. したがって、この形式のモデルをギブスで訓練することは不可能である。 0.70
Full experimental details can be found in Appendix I. 完全な実験的な詳細は appendix i で確認できる。 0.78
We present long-run samples from our trained models in Figure 8 and test-set likelihoods in Table 2. トレーニング済みモデルの長期サンプルを図8に、テストセットの可能性を表2に示します。 0.76
Likelihoods are estimated using Annealed Importance Sampling (Neal, 2001). 可能性は Annealed Importance Sampling (Neal, 2001) を用いて推定される。 0.76
We compare the performance of our models to Variational Autoencoders (Kingma & Welling, 2013) and two other EBMs; an RBM and a Deep Belief Network (DBN) (Hinton, 2009). モデルの性能をVariational Autoencoders (Kingma & Welling, 2013) と他の2つの EBM (RBM and a Deep Belief Network (DBN) (Hinton, 2009) と比較した。 0.81
On most datasets, our Resnet EBM outperforms the other two EBMs and the VAEs. ほとんどのデータセットでは、Resnet EBMは他の2つのEMMとVAEよりも優れています。 0.50
Our improved sampler enables deep EBMs to become a competitive approach to generative modeling on high-dimensional discrete data. 当社の改良されたサンプラーにより、深層EMMは高次元離散データに対する生成モデリングの競争的アプローチとなります。 0.64
We include some preliminary results using Gibbs-WithGradients to train EBMs for text data in Appendix J. Appendix J のテキストデータに EBM をトレーニングするために Gibbs-WithGradients を使った予備的な結果を含める。 0.71
9. Future Directions and Conclusion In this work we have presented Gibbs-With-Gradients , a new approach to MCMC sampling for discrete distributions. 9. 今後の方向性と結論 この研究では、離散分布に対する MCMC サンプリングの新しいアプローチである Gibbs-With-Gradients を紹介した。 0.78
Our approach exploits a powerful structure, gradient information, which is available to a very large class of important discrete distributions. このアプローチでは,重要な離散分布の非常に大きなクラスで利用可能な,強力な構造である勾配情報を利用する。 0.76
We then use this gradient information to construct proposal distributions for Metropolis-Hastings. 次に、この勾配情報を用いてメトロポリス・ハスティングの提案分布を構築する。 0.55
We have demonstrated on a diverse set of distributions that this approach to sampling considerably outperforms baseline samplers which do not exploit known structure in the 我々は,本手法が既知の構造を生かしていないベースラインサンプリング器よりかなり優れていることを,多種多様な分布で実証した。 0.67
Figure 8. Left: data. 図8。 左:データ。 0.76
Right: Samples from ResNet EBM. 右:ResNet EBMのサンプル。 0.65
Samples generated with annealed Markov chain using 300,000 GibbsWith-Gradients steps. 300,000 GibbsWith-Gradients 法によるアニールマルコフ鎖生成試料 0.73
Top to bottom: MNIST, omniglot, Caltech Silhouettes, Frey Faces, Histopathology. 上から下へ:mnist, omniglot, caltech silhouettes, frey faces, histopathology。 0.75
target distribution as well as many that do. ターゲットの分布だけでなく 多くも対象とします 0.73
Further, we find our approach outperforms prior discrete samplers which use gradient information with continuous relaxations. さらに, この手法は, 連続緩和を伴う勾配情報を用いた従来の離散サンプリングよりも優れていた。
訳抜け防止モード: さらに 我々のアプローチは 連続的な緩和を伴う 勾配情報を用いた 事前の離散サンプリングよりも優れています
0.66
We find Gibbs-With-Gradients performs very well at sampling from deep energy-based models and allows, for the first time, unconstrained deep EBMs to be trained on discrete data and outperform other deep generative models. Gibbs-With-Gradients は、深層エネルギーモデルからのサンプリングにおいて非常によく機能し、非制約の深部ESMを離散データでトレーニングし、他の深部生成モデルより優れた性能を発揮する。 0.72
We believe there is considerable room for future work building on top of our method. 当社の手法の上に、将来の作業構築のための十分なスペースがあると信じています。 0.53
We only explored samplers which modify 1 variable per proposed update. 提案された更新毎に1変数を変更するサンプルのみを探索した。 0.60
We believe considerable improvements could be made if the window size of the sampler was expanded but this would require more efficient algorithms to sample from the larger proposal. サンプルのウィンドウサイズを拡大すれば,大幅な改善が期待できるが,より大きな提案からサンプリングを行うには,より効率的なアルゴリズムが必要である。 0.85
Next, we have shown that gradient-based approximations to the local difference function can be accurate and useful for complex discrete distributions. 次に,局所差分関数に対する勾配に基づく近似は,複素離散分布に対して正確かつ有用であることを示す。 0.79
Local difference functions have been used in the past to generalize Score Matching (Lyu, 2012), and Stein Discrepancies (Han & Liu, 2018). 局所差分関数は、Score Matching (Lyu, 2012) や Stein Discrepancies (Han & Liu, 2018) を一般化するために過去に用いられてきた。 0.82
We believe there is great potential to explore how gradient-based approximations could enable the generalization of recent deep EBM training methods based on Score Matching and Stein Discrepancies (Song & Ermon, 2019; Grathwohl et al., 2020b) to models of discrete data. Score Matching と Stein Discrepancies (Song & Ermon, 2019; Grathwohl et al., 2020b) に基づく近年の深いEMM トレーニング手法の離散データモデルへの一般化には,勾配に基づく近似がいかに可能か,検討する上で大きな可能性を秘めている。 0.79
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
10. Acknowledgements We would like to thank Eli Weinstein for helping us properly present our protein results and we would like to thank Kelly Brock for help and feedback for working with the protein data. 10. 認識 私たちは、Eli Weinsteinがタンパク質結果を適切に提示するのを助けてくれたことに感謝し、タンパク質データを扱うための助けとフィードバックをKelly Brockに感謝したいと思います。 0.79
We thank Jesse Bettencourt, James Lucas, Matt Hoffman, Rif Saurous, David Madras, and Jacob Kelly for helpful feedback on our draft. 私たちはJesse Bettencourt氏、James Lucas氏、Matt Hoffman氏、Rif Saurous氏、David Madras氏、Jacob Kelly氏に、ドラフトに対する有益なフィードバックを感謝します。
訳抜け防止モード: Jesse Bettencourt、James Lucas、Matt Hoffman、Rif Saurousに感謝します。 David Madras氏とJacob Kelly氏によるドラフトのフィードバックをお願いします。
0.74
References Besag, J. 出典: Besag, J。 0.65
Statistical analysis of non-lattice data. 非格子データの統計的解析 0.83
Journal of the Royal Statistical Society: Series D (The Statistician), 24(3):179–195, 1975. Journal of the Royal Statistical Society: Series D (The Statistician), 24(3):179–195, 1975年。 0.93
Besag, J. Comments on “representations of knowledge in complex systems” by u. grenander and mi miller. Besag, J。 u. grenander氏とmi miller氏の“representations of knowledge in complex systems”に対するコメント。 0.82
J. Roy. Statist. J. Roy 統計官 0.61
Soc. Ser. B, 56:591–592, 1994. Soc サー。 b、56:591–592、1994。 0.55
Burda, Y., Grosse, R., and Salakhutdinov, R. Accurate and conservative estimates of mrf log-likelihood using reverse annealing. Burda, Y., Grosse, R., Salakhutdinov, R. Accurate and conservative estimates of mrf log-likelihood using reverse annealing。 0.86
In Artificial Intelligence and Statistics, pp. 人工知能と統計学』、p。 0.68
102–110, 2015. 102–110, 2015. 0.84
Deng, Y., Bakhtin, A., Ott, M., Szlam, A., and Ranzato, M. Residual energy-based models for text generation. Deng, Y., Bakhtin, A., Ott, M., Szlam, A., and Ranzato, M. Residual Energy-based model for text generation。 0.90
arXiv preprint arXiv:2004.11714, 2020. arXiv preprint arXiv:2004.11714, 2020 0.81
Du, Y. and Mordatch, I. Du, Y. and Mordatch, I. 0.94
eralization in energy-based models. エネルギーモデルにおける消去 0.78
arXiv:1903.08689, 2019. arXiv:1903.08689, 2019。 0.64
Implicit generation and genarXiv preprint 暗黙の生成とgenarXivプリプリント 0.66
Gers, F. A., Schmidhuber, J., and Cummins, F. Learning to Gers, F. A., Schmidhuber, J., Cummins, F. Learning to 0.88
forget: Continual prediction with lstm. 忘れる: lstmとの連続的な予測。 0.70
1999. Grathwohl, W., Wang, K.-C., Jacobsen, J.-H., Duvenaud, D., Norouzi, M., and Swersky, K. Your classifier is secretly an energy based model and you should treat it like one. 1999. Grathwohl, W., Wang, K.-C., Jacobsen, J.-H., Duvenaud, D., Norouzi, M., and Swersky, K。
訳抜け防止モード: 1999. Grathwohl, W., Wang, K.-C., Jacobsen, J.-H. Duvenaud, D., Norouzi, M., Swersky, K。 分類器は秘密裏にエネルギーベースモデルである あなたはそれを1つとして扱うべきです。
0.83
arXiv preprint arXiv:1912.03263, 2019. arXiv preprint arXiv:1912.03263, 2019 0.81
Grathwohl, W., Kelly, J., Hashemi, M., Norouzi, M., Swersky, K., and Duvenaud, D. No mcmc for me: Amortized sampling for fast and stable training of energy-based models. Grathwohl, W., Kelly, J., Hashemi, M., Norouzi, M., Swersky, K., and Duvenaud, D. No mcmc for me: Amortized sample for fast and stable training of energy-based model. (英語) 0.92
arXiv preprint arXiv:2010.04230, 2020a. arXiv preprint arXiv:2010.04230, 2020a 0.73
Grathwohl, W., Wang, K.-C., Jacobsen, J.-H., Duvenaud, D., and Zemel, R. Learning the stein discrepancy for training and evaluating energy-based models without sampling. Grathwohl, W., Wang, K.-C., Jacobsen, J.-H., Duvenaud, D., Zemel, R. Learning thestein discrepancy for training and evaluation of energy-based models without sample。 0.92
In International Conference on Machine Learning, pp. 英語) international conference on machine learning, pp. 0.80
3732–3747. 3732–3747. 0.71
PMLR, 2020b. PMLR、2020b。 0.85
Gretton, A., Borgwardt, K. M., Rasch, M. J., Sch¨olkopf, B., and Smola, A. Gretton, A., Borgwardt, K. M., Rasch, M. J., Sch solkopf, B., Smola, A。 0.89
A kernel two-sample test. カーネルの2サンプルテスト。 0.74
The Journal of Machine Learning Research, 13(1):723–773, 2012. Journal of Machine Learning Research, 13(1):723–773, 2012 0.84
Gutmann, M. and Hyv¨arinen, A. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. Gutmann, M. and Hyv sarinen, A. Noise-contrastive estimate: 非正規化統計モデルのための新しい推定原理。 0.77
In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, pp. 第13回人工知能と統計に関する国際会議に参加して 0.63
297–304. JMLR Workshop and Conference Proceedings, 2010. 297–304. JMLR Workshop and Conference Proceedings, 2010 (英語) 0.77
Han, J. and Liu, Q. Stein variational gradient descent with- Han, J. and Liu, Q. Steinvarial gradient descend with- 0.91
out gradient. arXiv preprint arXiv:1806.02775, 2018. 勾配外だ arXiv preprint arXiv:1806.02775, 2018 0.65
Han, J., Ding, F., Liu, X., Torresani, L., Peng, J., and Liu, Q. Stein variational inference for discrete distributions. Han, J., Ding, F., Liu, X., Torresani, L., Peng, J., and Liu, Q. 離散分布に対する変分推論。 0.80
arXiv preprint arXiv:2003.00605, 2020. arXiv preprint arXiv:2003.00605, 2020 0.81
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
He, K., Zhang, X., Ren, S., and Sun, J. He, K., Zhang, X., Ren, S., and Sun, J。 0.82
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. Proceedings of the IEEE conference on computer vision and pattern recognition, pp。 0.72
770–778, 2016. 770–778, 2016. 0.84
He, T., McCann, B., Xiong, C., and Hosseini-Asl, E. Joint energy-based model training for better calibrated natural language understanding models. He, T., McCann, B., Xiong, C., and Hosseini-Asl, E. Joint Energy-based model training for better calibrated natural language understanding model。 0.94
arXiv preprint arXiv:2101.06829, 2021. arXiv preprint arXiv:2101.06829, 2021 0.80
Hill, M., Mitchell, J., and Zhu, S.-C. Stochastic security: Adversarial defense using long-run dynamics of energybased models. Hill, M., Mitchell, J., and Zhu, S.-C. Stochastic Security: エネルギーベースモデルの長期力学を用いた敵防衛。 0.81
arXiv preprint arXiv:2005.13525, 2020. arXiv preprint arXiv:2005.13525, 2020 0.81
Hinton, G. E. Training products of experts by minimizing contrastive divergence. Hinton, G. E. Training Product of Expert by Minimizing contrastive divergence。 0.81
Neural computation, 14(8):1771– 1800, 2002. 神経計算, 14(8):1771–1800, 2002。 0.75
Hinton, G. E. Deep belief networks. Hinton, G. E. Deep belief network 0.89
Scholarpedia, 4(5): Scholarpedia, 4(5) 0.65
5947, 2009. 5947, 2009. 0.85
Ingraham, J. and Marks, D. Variational inference for sparse and undirected models. Ingraham, J. and Marks, D. Variational inference for sparse and undirected models。 0.92
In International Conference on Machine Learning, pp. 英語) international conference on machine learning, pp. 0.80
1607–1616. 1607–1616. 0.71
PMLR, 2017. 2017年、PMLR。 0.66
Ising, E. Beitrag zur Theorie des Ferround Paramagnetismus. Ising、E。 Beitrag zur Theorie des Ferround Paramagnetismus (英語) 0.77
PhD thesis, PhD thesis (MathematischNaturwi ssenschaftliche Fakult¨at der Hamburgischen . 博士論文、博士論文(Mathematisch Naturwissenschaftlic he Fakult sat der Hamburgischen)。 0.72
. . , 1924. . . , 1924. 0.85
Kingma, D. P. and Ba, J. Adam: A method for stochastic Kingma, D. P. and Ba, J. Adam:確率的方法 0.81
optimization. arXiv preprint arXiv:1412.6980, 2014. 最適化。 arXiv preprint arXiv:1412.6980, 2014 0.75
Kingma, D. P. and Welling, M. Auto-encoding variational Kingma, D. P. and Welling, M. Auto-Encoding variational 0.77
bayes. arXiv preprint arXiv:1312.6114, 2013. ベイズ arXiv preprint arXiv:1312.6114, 2013 0.58
Lapedes, A. S., Giraud, B. G., Liu, L., and Stormo, G. D. Correlated mutations in models of protein sequences: phylogenetic and structural effects. Lapedes, A. S., Giraud, B. G., Liu, L., Stormo, G. D. Correlated mutations in model of protein sequence: phylogenetic and structure effect 0.88
Lecture Notes-Monograph Series, pp. 講義ノート-モノグラフシリーズ, pp。 0.68
236–256, 1999. 236–256, 1999. 0.84
Łatuszy´nski, K., Roberts, G. O., Rosenthal, J. S., et al. K., Roberts, G. O., Rosenthal, J. S.など。 0.73
Adaptive gibbs samplers and related mcmc methods. Adaptive gibbs samplersと関連するmcmcメソッド。 0.78
The Annals of Applied Probability, 23(1):66–98, 2013. The Annals of Applied Probability, 23(1):66–98, 2013 0.91
Levin, D. A. and Peres, Y. Markov chains and mixing times, Levin, D. A. and Peres, Y. Markov chains and mix time 0.93
volume 107. American Mathematical Soc., 2017. 107巻。 American Mathematical Soc.、2017年。 0.66
Liu, J. S. Peskun’s theorem and a modified discrete-state Liu, J. S. Peskun の定理と修正離散状態 0.77
gibbs sampler. ギブス・サンプルラーだ 0.41
Biometrika, 83(3), 1996. Biometrika, 83(3), 1996。 0.73
Liu, Q. and Wang, D. Stein variational gradient descent: A general purpose bayesian inference algorithm. Liu, Q. and Wang, D. Stein variational gradient descend: A general purpose bayesian inference algorithm。 0.85
Advances in neural information processing systems, 29:2378–2386, 2016. ニューラル情報処理システムの進歩,29:2378–2386, 2016 0.79
Lyu, S. Interpretation and generalization of score matching. Lyu, S. スコアマッチングの解釈と一般化。 0.80
arXiv preprint arXiv:1205.2629, 2012. arXiv preprint arXiv:1205.2629, 2012 0.80
Maddison, C. J., Mnih, A., and Teh, Y. W. The concrete distribution: A continuous relaxation of discrete random variables. Maddison, C. J., Mnih, A., and Teh, Y. W. The concrete distribution: A continuous relaxation of discrete random variables。 0.92
arXiv preprint arXiv:1611.00712, 2016. arXiv preprint arXiv:1611.00712, 2016 0.80
Marks, D. S., Colwell, L. J., Sheridan, R., Hopf, T. A., Pagnani, A., Zecchina, R., and Sander, C. Protein 3d structure computed from evolutionary sequence variation. The Marks, D. S., Colwell, L. J., Sheridan, R., Hopf, T. A., Pagnani, A., Zecchina, R., and Sander, C. Protein 3d structure computeed from Evolution sequence variation。 0.96
PloS one, 6(12):e28766, 2011. PloS 1、6(12):e28766、2011。 0.64
Neal, R. M. Annealed importance sampling. Neal, R.M. 重要サンプリング。 0.79
Statistics and computing, 11(2):125–139, 2001. 統計学 11(2):125-139, 2001。 0.71
Neal, R. M. et al. ニール、R.M.ら。 0.57
Mcmc using hamiltonian dynamics. ハミルトン力学を用いたMcmc。 0.64
Hand- book of markov chain monte carlo, 2(11):2, 2011. 手 book of markov chain monte carlo, 2(11):2, 2011を参照。 0.82
Nijkamp, E., Hill, M., Han, T., Zhu, S.-C., and Wu, Y. N. On the anatomy of mcmc-based maximum likelihood learning of energy-based models. Nijkamp, E., Hill, M., Han, T., Zhu, S.-C., Wu, Y. N. mcmcに基づくエネルギーベースモデルの最大極大学習の解剖学について 0.89
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pp. The Proceedings of the AAAI Conference on Artificial Intelligence, Volume 34, pp。 0.76
5272–5280, 2020. 5272–5280, 2020. 0.84
Nishimura, A., Dunson, D., and Lu, J. Discontinuous hamiltonian monte carlo for sampling discrete parameters. 西村, A., Dunson, D., and Lu, J. Discontinuous hamiltonian monte carlo 離散パラメータをサンプリングする。 0.82
arXiv preprint arXiv:1705.08510, 2, 2017. arXiv preprint arXiv:1705.08510, 2, 2017 0.85
Ramachandran, P., Zoph, B., and Le, Q. V. Searching for activation functions. Ramachandran, P., Zoph, B., and Le, Q. V. 活性化関数の探索。 0.92
arXiv preprint arXiv:1710.05941, 2017. arXiv preprint arXiv:1710.05941, 2017 0.80
Richardson, S., Bottolo, L., and Rosenthal, J. S. Bayesian models for sparse regression analysis of high dimensional data. Richardson, S., Bottolo, L., and Rosenthal, J.S. Bayesian model for sparse regression analysis of high dimensional data。 0.88
Bayesian Statistics, 9:539–569, 2010. Bayesian Statistics, 9:539–569, 2010 0.81
Song, Y. and Ermon, S. Generative modeling by estimating gradients of the data distribution. データ分布の勾配を推定したSong, Y. and Ermon, S. Generative Modeling 0.87
In Advances in Neural Information Processing Systems, pp. ニューラル・インフォメーション・プロセッシング・システムにおける進歩, pp. 0.59
11918–11930, 2019. 11918–11930, 2019. 0.84
Song, Y. and Ou, Z. Song, Y. and Ou, Z 0.81
Learning neural random fields arXiv preprint ニューラルランダム場 arXiv プレプリントの学習 0.78
with inclusive auxiliary generators. arXiv:1806.00271, 2018. 包括的補助発電機で arXiv:1806.00271, 2018 0.74
Taylor, A., Marcus, M., and Santorini, B. Taylor, A., Marcus, M. and Santorini, B. 0.85
The penn treebank: The Penn Treebank: 0.73
an overview. Treebanks, pp. 概要。 Treebanks, pp。 0.64
5–22, 2003. 5–22, 2003. 0.84
Tieleman, T. Training restricted boltzmann machines using approximations to the likelihood gradient. Tieleman, T. Trainingは、確率勾配の近似を用いてボルツマンマシンを制限した。 0.58
In Proceedings of the 25th international conference on Machine learning, pp. 第25回機械学習国際会議Proceedings of the 25th International Conference on Machine Learning, pp。 0.68
1064–1071, 2008. 1064–1071, 2008. 0.84
Tieleman, T. and Hinton, G. Using fast weights to improve persistent contrastive divergence. Tieleman, T. and Hinton, G. Using fast weights to improve persistent contrastive divergence。 0.91
In Proceedings of the 26th Annual International Conference on Machine Learning, pp. 第26回年次機械学習国際会議(international conference on machine learning, pp.)の開催報告 0.64
1033–1040, 2009. 1033–1040, 2009. 0.84
Titsias, M. K. and Yau, C. The hamming ball sampler. Titsias, M. K. and Yau, C. The hamming ball sampler 0.95
Journal of the American Statistical Association, 112(520): 1598–1611, 2017. journal of the american statistical association, 112 (520): 1598–1611, 2017年。 0.88
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
Tomczak, J. and Welling, M. Vae with a vampprior. Tomczak, J. and Welling, M. Vae with a vampprior。 0.97
In International Conference on Artificial Intelligence and Statistics, pp. International Conference on Artificial Intelligence and Statistics, pp。 0.72
1214–1223. 1214–1223. 0.71
PMLR, 2018. 2018年、PMLR。 0.68
Umrigar, C. J. Umrigar, C. J。 0.93
Accelerated metropolis method. Phys. 加速大都市法。 Phys 0.57
Rev. Lett., 71:408–411, Jul 1993. doi: 10.1103/PhysRevLett. Rev 71:408–411, Jul 1993. doi: 10.1103/PhysRevLett. 0.60
71.408. URL https://link.aps.org /doi/10. 71.408. URL https://link.aps.org /doi/10 0.58
1103/PhysRevLett.71. 408. 1103/PhysRevLett.71. 408 0.42
Zanella, G. Informed proposals for local mcmc in discrete spaces. Zanella, G. Informed proposals for local mcmc in discrete space。 0.83
Journal of the American Statistical Association, 115(530):852–865, 2020. Journal of the American Statistical Association, 115(530):852–865, 2020 0.92
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
A. Balancing Locally-Informed Proposals As discussed in Section 2.2, locally informed proposals need to balance the likelihood increase with the reverse proposal probability. A。 局所情報に基づく提案のバランス 第2節2で述べたように、局所情報に基づく提案は、可能性の増加と逆提案確率のバランスをとる必要がある。 0.63
In particular, consider proposals of the form: 特に、以下の形式の提案を考える。 0.67
qτ (x(cid:48)|x) ∝ e qτ(x(cid:48)|x) = e 0.78
1 τ (f (x(cid:48))−f (x))1(x(cid:48) ∈ H(x)). 1 τ (f (x(cid:48))−f (x))1(x(cid:48) ∈ H(x))。 0.90
(15) where H(x) is the Hamming ball of some size around x and τ > 0 is a temperature parameter. (15) h(x) は x の周りにある大きさのハミングボールであり、τ > 0 は温度パラメータである。 0.83
Here we provide a derivation of the fact that τ = 2 balances these two terms. ここで、τ = 2 がこれら2つの項のバランスをとるという事実の導出を与える。 0.62
When we examine the acceptance rate (Equation 1) of this proposal we find この提案の受諾率(式1)を調べると、私たちは見つけます。 0.67
exp(f (x(cid:48)) − f (x)) exp(f(x(cid:48)) − f(x)) 0.94
qτ (x|x(cid:48)) qτ (x(cid:48)|x) = exp(f (x(cid:48)) − f (x)) qτ(x|x(cid:48)) qτ(x(cid:48)|x) = exp(f(x(cid:48)) − f(x)) 0.86
(cid:18)(cid:18) where Z(x) =(cid:80) (cid:18)(cid:18) ここで Z(x) =(cid:80) 0.78
= exp (cid:19) =exp (cid:19) 0.76
exp( 1 exp( 1 exp( 1 exp( 1) 0.93
τ (f (x) − f (x(cid:48)))Z(x) τ (f (x(cid:48)) − f (x))Z(x(cid:48)) (16) τ (f (x) − f (x(cid:48))))z(x) τ (f (x(cid:48)) − f (x))z(x(cid:48)) (16) 0.97
(cid:19) Z(x) (cid:19)Z(x) 0.91
Z(x(cid:48)) Z(x(cid:48)) 0.94
(f (x(cid:48)) − f (x)) (f(x(cid:48)) − f(x)) 0.94
1 − 2 τ x(cid:48)∈H(x) exp( 1 1 − 2 τ x(cid:48)∈H(x) exp( 1) 0.85
τ (f (x(cid:48)) − f (x)) is the normalizing constant of the proposal. τ (f (x(cid:48)) − f (x)) は提案の正規化定数である。 0.82
By setting τ = 2, the most variable terms cancel and we are left with Z(x) Z(x(cid:48)). τ = 2 を設定することで、最も可変な項はキャンセルされ、Z(x) Z(x(cid:48)) で残される。 0.83
Thus, the acceptance rate is equal to the ratio of the normalizing constants of the proposal distributions. したがって、受入率は、提案分布の正規化定数の比率に等しい。 0.66
If the Hamming ball is small and the function f is well behaved (i.e Lipschitz) then, since x(cid:48) is near x, Z(x(cid:48)) will be near Z(x) and the acceptance rate will be high. ハミングボールが小さく、関数 f がうまく振る舞う場合 (すなわち Lipschitz)、x(cid:48) が x に近く、Z(x(cid:48)) が Z(x) に近く、受容率が高くなる。 0.69
B. Proof of Theorem 1 Our proof follows from Theorem 2 of Zanella (2020) which states that for two p-reversible Markov transition kernels Q1(x(cid:48), x) and Q2(x(cid:48), x), if there exists c > 0 for all x(cid:48) (cid:54)= x such that Q1(x(cid:48), x) > c · Q2(x(cid:48), x) then B。 Theorem 1 の証明は Zanella (2020) の Theorem 2 に従い、2つの p-可逆マルコフ遷移核 Q1(x(cid:48), x) と Q2(cid:48), x) に対して、すべての x(cid:48) (cid:54)= x に対して c > 0 が存在して Q1(x(cid:48), x) > c · Q2(x(cid:48), x) となる。 0.83
(a) varp(h, Q1) ≤ varp(h,Q1) (b) Gap(Q1) ≥ c · Gap(Q2) (a) varp(h, Q1) ≤ varp(h, Q1) (b) Gap(Q1) ≥ c · Gap(Q2) 0.95
c + 1−c c · varp(h) c + 1−c c ·varp(h) 0.78
where varp(h, Q) is the asymptotic variance defined in Equation 7, Gap(Q) is the spectral gap defined in Equation 8, and varp(h) is the standard variance Ep[h(x)2] − Ep[h(x)]2. ここで varp(h, Q) は Equation 7 で定義される非対称分散であり、 Gap(Q) は Equation 8 で定義されるスペクトルギャップであり、 varp(h) は Ep[h(x)2] − Ep[h(x)]2 の標準分散である。 0.87
Our proof proceeds by showing we can bound Q∇(x(cid:48), x) ≥ c · Q(x(cid:48), x), and the results of the theorem then follow directly from Theorem 2 of Zanella (2020). 我々の証明は Q を有界(x(cid:48), x) ≥ c · Q(x(cid:48), x) とし、定理の結果は Zanella (2020) の Theorem 2 から直接従う。
訳抜け防止モード: 私たちの証明は、Q(x(cid:48)、x )、c · Q(x(cid:48) をバインドできることを示すことによって進む。 定理の結果は、Zanella (2020 ) の Theorem 2 から直接従います。
0.83
B.1. Definitions ease of notion we define some values B.1。 定義 概念の容易さ 価値を定義します 0.69
∆(x(cid:48), x) := f (x(cid:48)) − f (x) ∇(x(cid:48), x) := ∇xf (x)T (x(cid:48) − x) ||x(cid:48) − x|| x(x(cid:48), x) := f(x(cid:48)) − f(x)(x(cid:48), x) := yxf(x)T(x(cid:48) − x) ||x(cid:48) − x||| 0.91
DH := sup x(cid:48)∈H(x) DH :=sup x(cid:48)∈H(x) 0.82
We restate the target proposal for x(cid:48) ∈ H(x) x(cid:48) ∈ H(x) のターゲット提案を再開する。 0.82
where we have defined q2(x(cid:48)|x) = 定義しました q2(x(cid:48)|x) = 0.72
exp (cid:88) exp (cid:88) 0.82
Z(x) = exp Z(x) = exp 0.85
x(cid:48)∈H(x) x(cid:48)∈H(x) 0.88
2 Z(x) (cid:17) (cid:16) ∆(x(cid:48),x) (cid:18) ∆(x(cid:48), x) (cid:27) 2 Z(x) (cid:17) (cid:16) (x(cid:48), x) (cid:18) (x(cid:48), x) (cid:27) 0.87
2 (cid:19) 2 (cid:19) 0.82
. This proposal leads to the Markov transition kernel . この提案はMarkov遷移カーネルにつながる 0.77
Q(x(cid:48), x) = q2(x(cid:48)|x) min Q(x(cid:48), x) = q2(cid:48)|x) min 0.97
(cid:26) (cid:16) ∆(x(cid:48),x) (cid:26) (cid:16) s(x(cid:48),x) 0.88
1, Z(x) Z(x(cid:48)) 1, Z(x) Z(x(cid:48)) 0.92
(cid:17) 2 Z(x) (cid:17) 2 Z(x) 0.82
exp ,  exp exp , exp (複数形 exps) 0.70
(cid:16) ∆(x(cid:48),x) (cid:16)~(x(cid:48), x) 0.91
2 Z(x(cid:48)) 2 Z(x(cid:48)) 0.90
(cid:17)  . (cid:17)  . 0.82
= min We now restate our approximate proposal for x(cid:48) ∈ H(x) =民 現在我々は x(cid:48) ∈ H(x) に関する近似的な提案を再開する。 0.55
(cid:17) (cid:16)∇(x(cid:48),x) (cid:18)∇(x(cid:48), x) (cid:17) (cid:16)-(x(cid:48), x) (cid:18)-(x(cid:48), x) 0.95
2 ˜Z(x) (cid:19) 2-Z(x) (cid:19) 0.85
q∇(x(cid:48)|x) = q(x(cid:48)|x) = 0.81
exp (cid:88) exp (cid:88) 0.82
˜Z(x) = exp ~Z(x) = exp 0.89
x(cid:48)∈H(x) x(cid:48)∈H(x) 0.88
2 where we have defined q∇(x(cid:48)|x) min 2 定義しました q (x(cid:48)|x) min 0.76
which leads to the Markov transition kernel Q∇(x(cid:48), x) = すなわち、マルコフ遷移核 Q*(x(cid:48), x) = となる。 0.68
1, (cid:16)∇(x(cid:48),x)  exp 1, (cid:16) =(x(cid:48),x) exp 0.81
2 ˜Z(x) exp 2-Z(x) exp 0.88
exp (∆(x(cid:48), x)) exp (x(cid:48), x) 0.66
(cid:16)∇(x(cid:48),x)−∇(x,x(cid:48)) (cid:17) (cid:16)(x(cid:48)、x(x、x(cid:48))(cid:17) 0.90
(cid:16) 2 (cid:16) 2 0.82
exp , ∆(x(cid:48), x) + ˜Z(x(cid:48)) exp , s(x(cid:48), x) + sz(x(cid:48)) 0.82
 (cid:17) ˜Z(x)  (cid:17)-Z(x) 0.88
˜Z(x(cid:48)) ∇(x,x(cid:48)) Z(x(cid:48))(x,x(cid :48)) 0.90
2 = min (cid:17) 2 =民 (cid:17) 0.68
 . B.2.  . b.2. 0.76
Preliminaries It can be seen that ∇(x(cid:48), x) is a first order Taylor-series approximation to ∆(x(cid:48), x) and it follows directly from the Lipschitz continuity of ∇xf (x) that |∇(x(cid:48), x) − ∆(x(cid:48), x)| ≤ L 2 プリリミナリー(英語版)(preliminaries)は、x) は1階のテイラー級数近似である(x(cid:48), x) であり、x) {\displaystyle x} のリプシッツ連続性(英語版)(lipschitz continuity)から直接従う: |(x(cid:48), x) − s(x(cid:48), x)| ≤ l 2 である。 0.70
||x(cid:48) − x(cid:48)||2 x(cid:48) − x(cid:48)|2 0.75
(17) and since we restrict x(cid:48) ∈ H(x) we have (17) そして x(cid:48) ∈ H(x) を制限するので 0.84
We begin by writing down the proposal distribution of interest and their corresponding Markov transition kernels. まず、提案の関心分布とその対応するマルコフ遷移核を記述することから始める。 0.70
For − L 2 H ≤ ∇(x(cid:48), x) − ∆(x(cid:48), x) ≤ L D2 2 のために -L2 H ≤ s(x(cid:48), x) − s(x(cid:48), x) ≤ L D2 2 0.72
D2 H (18) D2 H (18) 0.87
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
˜Z(x) = B.3. ~Z(x) = B.3。 0.79
Normalizing Constant Bounds We derive upper- and lower-bounds on ˜Z(x) in terms of Z(x). 定数境界の正規化 Z(x) の点において、Z(x) 上の上界と下界を導出する。 0.69
exp exp x(cid:48)∈H(x) exp exp x(cid:48)∈H(x) 0.86
(cid:88) (cid:88) ≤ (cid:88) (cid:88) (cid:88) ≤ (cid:88) 0.76
= x(cid:48)∈H(x) = x(cid:48)∈H(x) 0.87
x(cid:48)∈H(x) x(cid:48)∈H(x) 0.88
≤ exp = exp ≤ exp =exp 0.80
exp (cid:18) LD2 (cid:18) LD2 exp (cid:18) LD2 (cid:18) LD2 0.78
4 H H 4 (cid:19) (cid:19) (cid:19) 4 H H 4 (cid:19)(cid:19) 0.85
2 (cid:18)∇(x(cid:48), x) (cid:18) ∆(x(cid:48), x) (cid:18) ∆(x(cid:48), x) (cid:19) (cid:88) (cid:19) 2 (cid:18)(x(cid:48)、x(cid:18)、x(x(cid:48)、x)、cid:18(x(cid:48)、x)、cid:19(cid:88) 0.88
x(cid:48)∈H(x) x(cid:48)∈H(x) 0.88
2 2 Z(x) exp 2 2 Z(x) exp 0.85
(cid:18)∇(x(cid:48), x) − ∆(x(cid:48), x) (cid:18) LD2 (cid:18) ∆(x(cid:48), x) (cid:18)-(x(cid:48), x) − s(x(cid:48), x) (cid:18) LD2 (cid:18) s(x(cid:48), x) 0.94
(cid:19) (cid:19) (cid:19)(cid:19) 0.73
2 4 H exp exp 2 4 H exp exp 0.85
2 (19) Following the same argument we can show 2 (19) 同じ議論に従えば 0.69
˜Z(x) ≥ exp Z(x) ≥ exp 0.80
Z(x). (20) Z(x)。 (20) 0.83
(cid:18)−LD2 (cid:18)−LD2 0.65
H (cid:19) H (cid:19) 0.82
4 B.4. Inequalities of Minimums We show Q∇(x(cid:48), x) ≥ c · Q(x(cid:48), x) for c = exp Since both 4 B.4。 最小値の不等式 Q(x(cid:48), x) ≥ c · Q(x(cid:48), x) for c = exp since both 0.77
(cid:16)−LD2 (cid:16)−LD2 0.65
H 2 (cid:17) H 2 (cid:17) 0.83
. Now the b terms b∇ b . さて b の項 b (複数形 bs) 0.60
= = = (cid:19) = = = (cid:19) 0.83
(cid:16) exp (cid:16) exp 0.82
Z(x(cid:48)) ˜Z(x(cid:48)) Z(x(cid:48)) ˜Z(x(cid:48)) Z(x(cid:48)) > Z(cid:48)) Z(x(cid:48)) > Z(cid:48)) 0.94
∆(x(cid:48), x) + ˜Z(x(cid:48)) s(x(cid:48), x) + sz(x(cid:48)) 0.76
exp (cid:17) exp (cid:17) 0.82
∇(x,x(cid:48)) (x,x(cid:48)) 0.77
2 (cid:17) 2 (cid:17) 0.82
Z(x(cid:48)) Z(x(cid:48)) 0.94
(cid:16) ∆(x(cid:48),x) (cid:17) (cid:16)(x(cid:48),x )(cid:17) 0.90
2 2 2 exp (cid:19) 2 2 2 exp (cid:19) 0.84
∇(x, x(cid:48)) x(x, x(cid:48)) 0.74
exp ∇(x,x(cid:48)) exp (countable かつ uncountable, 複数形 exps) 0.54
∆(x(cid:48), x) + は(x(cid:48), x) + 0.69
(cid:16) (cid:17) (cid:16) ∆(x(cid:48),x) (cid:18) ∆(x(cid:48), x) (cid:19) (cid:18) ∆(x(cid:48), x) (cid:19) (cid:18)∇(x, x(cid:48)) − ∆(x, x(cid:48)) (cid:19) (cid:18)−LD2 (cid:19) (cid:19) (cid:16) (cid:17) (cid:16) (cid:16) (cid:48), x) (cid:18) (cid:19) (cid:18) (cid:18) (x(cid:48), x) (cid:19) (cid:18) (cid:18) (cid:x, x(cid:48)) − s(x, x(cid:48)) (cid:19) (cid:18)-ld2 (cid:19) (cid:19) 0.78
∇(x, x(cid:48)) x(x, x(cid:48)) 0.74
exp exp exp exp exp exp 0.85
+ + 2 2 2 2 + + 2 2 2 2 0.85
2 2 4 H H H 2 2 4 H H H 0.85
H 4 exp (cid:18)−LD2 (cid:18)−LD2 (cid:18)−LD2 (cid:18)−LD2 H 4 exp (cid:18)−LD2 (cid:18)−LD2 (cid:18)−LD2 (cid:18)−LD2 0.79
4 4 H 2 ≥ exp 4 4 H 2 ≥exp 0.84
= exp ≥ exp = exp =exp ≥exp =exp 0.76
(cid:19) (cid:19) (cid:19)(cid:19) 0.73
(22) B.5. Conclusions (22) B.5。 結論 0.71
We have b∇ ≥ exp b ≥ exp がある。 0.75
(cid:16)−LD2 (cid:16)−LD2 0.65
shown (cid:17) 示します (cid:17) 0.72
H 2 that a∇ ≥ exp H 2 あれ 略称「exp」。 0.70
(cid:16)−LD2 (cid:16)−LD2 0.65
H 2 (cid:17) H 2 (cid:17) 0.83
a and b and therefore it holds that あ... そして Bはそれを保持します 0.47
Q∇(x(cid:48), x) ≥ exp Q(x(cid:48), x) ≥ exp 0.88
Q(x(cid:48), x) Q(x(cid:48), x) 0.94
(23) (cid:18)−LD2 (23) (cid:18)−LD2 0.75
H (cid:19) H (cid:19) 0.82
2 Q(x(cid:48), x) = min{a, b} 2 Q(x(cid:48), x) = min{a, b} 0.88
From this, the main result follows directly from Theorem 2 of Zanella (2020). このことから、主な結果はZanella(2020)のTheorem 2から直接続きます。 0.72
and Q∇(x(cid:48), x) = min{a∇, b∇} そして Q*(x(cid:48), x) = min{a*, b*} 0.80
it is sufficient to show a∇ ≥ c · a and b∇ ≥ c · b to prove the desired result. a ≥ c · a と b ≥ c · b を示して所望の結果を証明するのに十分である。 0.85
We begin with the a terms まずは a の用語から始めます 0.63
(cid:16)∇(x(cid:48),x) (cid:16)~(x(cid:48), x) 0.92
a∇ a = exp 2 ˜Z(x) あーあ = exp 2-Z(x) 0.73
= Z(x) ˜Z(x) ≥ exp = Z(x) > Z(x) ≥ exp 0.87
≥ exp = exp exp ≥exp =exp exp 0.79
(cid:18)−LD2 (cid:18)−LD2 (cid:18)−LD2 (cid:18)−LD2 (cid:18)−LD2 (cid:18)−LD2 0.61
4 4 2 exp (cid:17) (cid:18)∇(x(cid:48), x) (cid:19) (cid:19) (cid:19) 4 4 2 exp (cid:17) (cid:18) (x(cid:48), x) (cid:19) (cid:19) (cid:19) 0.85
exp exp 2 H exp exp 2 H 0.85
H H 2 Z(x) H H 2 Z(x) 0.85
(cid:16) ∆(x(cid:48),x) (cid:17) (cid:19) − ∆(x(cid:48), x) (cid:18)∇(x(cid:48), x) − ∆(x(cid:48), x) (cid:18)−LD2 (cid:19) (cid:16) s(x(cid:48), x) (cid:17) (cid:19) - s(x(cid:48), x) (cid:18) s(x(cid:48), x) − s(x(cid:48), x) (cid:18)-ld2 (cid:19) 0.86
2 2 2 H 4 (cid:19) 2 2 2 H 4 (cid:19) 0.84
(21) C. Relationship to Relaxations Han et al. (21) C. 緩和とハンらとの関係 0.78
(2020) show that sampling from any discrete distribution can be transformed into sampling from a continuous distribution with a piece-wise density function. (2020)は、任意の離散分布からのサンプリングを、片方向密度関数を備えた連続分布からのサンプリングに変換できることを示した。 0.76
For simplicity we focus on a distribution p(x) over binary data x ∈ {0, 1}D. To do this we will create a D-dimensional continuous distribution pc(z) where z ∈ RD. 単純化のために、二進データ x ∈ {0, 1}D 上の分布 p(x) に焦点を当てる。これを行うために、z ∈ RD が成り立つ D-次元連続分布 pc(z) を作成する。 0.83
We must specify a base distribution p0(z) which we choose to be N (0, I). N (0, I) を選択する基底分布 p0(z) を指定しなければならない。 0.77
We must then specify a function Γ(z) : RD → {0, 1}D which maps regions of equal mass under the base distribution to values in {0, 1}D. A natural choice is Γ(z) = sign(z) We then define pc(z) as すると、基底分布の下で等しい質量の領域を {0, 1}D の値にマッピングする関数 t(z) : RD → {0, 1}D を指定しなければならない。
訳抜け防止モード: すると、函数 t(z ) : RD → { 0 を指定しなければならない。 1}D は基底分布の下で等しい質量の領域を {0, 1}D の値にマッピングする。 sign(z) ) pc(z ) を次のように定義する。
0.78
pc(z) = N (z; 0, I)p(Γ(z)) and it can be easily verified that generating pc(z) = N (z; 0, I)p(sh(z)) であり、生成が容易に検証できる。 0.82
z ∼ pc(z), z は pc(z) である。 0.77
x = Γ(z) will produce a sample from p(x). x = γ(z) p(x)からサンプルを生成します。 0.75
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
Thus, we have transformed a discrete sampling task into a task of sampling from a continuous distribution with a piece-wise density. そこで我々は,離散的なサンプリングタスクを分割密度の連続分布からサンプリングするタスクに変換した。 0.80
Han et al. (2020) further relax this by defining ハンなど。 (2020年)これをさらに緩和して 0.55
c (x) = N (z; 0, I)p(Γλ(z)) pλ c (x) = N (z; 0, I)p(*λ(z)) pλ 0.90
with step-size . The proposal x(cid:48), v(cid:48) is accepted with probability ステップサイズで。 提案 x(cid:48), v(cid:48) は確率で受け入れられる 0.73
(cid:26) H(x, v) (cid:26) H(x, v) 0.98
(cid:27) H(x(cid:48), v(cid:48)) where H is the target Hamiltonian (cid:27) H(x(cid:48), v(cid:48) ここでHはターゲットハミルトンである 0.83
min , 1 where Γλ(x) is a continuous approximation to Γ(x). 分 , 1 ここで λ(x) は λ(x) に対する連続近似である。 0.75
A natural choice for sign(x) is a tempered sigmoid function sign(x) の自然選択は温和な sigmoid 関数である 0.81
H(x, v) = − log pc(x) + H(x, v) = − log pc(x) + 0.85
1 2 vT M v. 1 2 vT M v。 0.83
(26) Γλ(x) = (26) シュλ(x) = 0.84
1 1 + e−x/λ 1 1 + e−x/λ 0.72
with temperature λ which controls the smoothness of the relaxation. 緩和の滑らかさを制御する温度λを使って。 0.76
This is similar to the Concrete relaxation (Maddison et al., 2016) for binary variables. これは二変数に対するコンクリートの緩和(Maddison et al., 2016)に似ている。 0.80
D-SVGD proposes to use the gradients of log pλ c (x) to produce updates for their continuous samples which are adjusted using an importance-weighted correction as proposed in Han & Liu (2018). D-SVGD は log pλ c (x) の勾配を用いて連続サンプルの更新を行い、ハン・アンド・リュー (2018) で提案されているように重み付け補正を用いて調整する。 0.69
We can apply this same approach to other sampling methods such as MALA and HMC. このアプローチは、MALAやHMCなどの他のサンプリング方法にも適用できます。 0.78
C.1. Relaxed MCMC C.1。 Relaxed MCMC 0.74
Gradient-based MCMC samplers such as MALA or HMC consist of a proposal distribution, q(x(cid:48)|x), and a metropolis accept/reject step. MALAやHMCのようなグラデーションベースのMCMCサンプラーは、提案分布、q(x(cid:48)|x)、およびメトロポリスの受入/拒絶ステップからなる。 0.64
As a baseline of comparison, we present two straight-forward applications of the above relaxation to sampling from discrete distributions. 比較のベースラインとして、離散分布からのサンプリングに対する上記の緩和の2つのストレートフォワード応用を示す。 0.77
In both settings we will use the continuous, differentiable surrogate pλ c (x) to generate a proposal and we will perform our Metropolis step using the piece-wise target pc(x). どちらの設定でも、連続的に微分可能な pλ c (x) を用いて提案を生成し、断片的対象 pc(x) を用いてメトロポリスのステップを実行する。 0.64
Relaxed MALA (R-MALA): Given a sample x, we sample a proposed update x(cid:48) from:  2 緩和MALA(R-MALA):サンプルxを与えられたら、提案された更新x(cid:48)をサンプル化します。 0.73
q(x(cid:48)|x) = N(cid:16) q(x(cid:48)|x) = N(cid:16) 0.87
∇x log pλ x(cid:48); x + × log pλ x(cid:48); x + 0.80
(24) and we accept this proposal with probability (24) この提案を確率的に受け入れます 0.80
c (x), 2(cid:17) (cid:27) c (x) (cid:17) (cid:27) 0.90
(cid:26) pc(x(cid:48))q(x|x(cid:48)) (cid:26) pc(cid:48))q(x|x(cid:48)) 0.87
pc(x)q(x(cid:48)|x) pc(x)q(x(cid:48)|x) 0.96
min , 1 . (25) 分 , 1 . (25) 0.78
R-MALA has two parameters; the stepsize  and the temperature of the relaxation λ. R-MALAは2つのパラメータを持つ: 段数 λ と緩和 λ の温度。 0.81
We search over  ∈ {.1, .01, .001} and λ ∈ {2., 1., .5} λ ∈ {.1, .01, .001} と λ ∈ {2., 1., .5} を探索する。 0.88
Relaxed HMC (R-HMC) works similarly to R-MALA. Relaxed HMC (R-HMC) はR-MALAと同様に機能する。 0.65
Given a sample x we sample an initial momentum vector v ∼ N (0, M ) where M is the mass matrix. サンプル x が与えられたとき、M を質量行列とする初期運動量ベクトル v > N (0, M ) をサンプリングする。 0.81
We perform k steps of leapfrog integration on the relaxed Hamiltonian 緩和ハミルトニアン上で跳躍積分の k ステップを実行する 0.57
H λ(x, v) = − log pλ H λ(x, v) = − log pλ 0.92
c (x) + 1 2 c (x) + 1 2 0.85
vT M v We fix the mass matrix M = I and the number of steps k = 5. vT M v 質量行列 M = I とステップ k = 5 の数を固定する。 0.75
This leaves two parameters, the ste-psize  and temperature λ. これにより、ste-psize と temperature λ の2つのパラメータが残される。 0.65
As with R-MALA we search over  ∈ {.1, .01, .001} and λ ∈ {.5, 1, 2. R-MALAと同様に、 λ ∈ {.1, .01, .001} と λ ∈ {.5, 1, 2 を探索する。 0.80
}. C.2. Experimental Details }. c.2. 実験的詳細 0.78
We compare D-SVGD, R-MALA, and R-HMC to GibbsWith-Gradients at the task of sampling from RBMs. 我々は,RBMのサンプリング作業において,D-SVGD,R-MALA,R-HMC とGibbsWith-Gradientsを比較した。 0.55
We present results in two settings; random RBMs with increasing dimension, and an RBM trained on MNIST using Contrastive Divergence. 本研究では, 次元が増大するランダムなRBMと, コントラストダイバージェンスを用いたMNISTで訓練されたRBMの2つの設定について述べる。 0.65
The dimension [25, 50, 100, 250, 500, 1000] and all have 100 hidden units. 次元[25、50、100、250、500、1000]およびすべてに100の隠された単位があります。 0.82
The MNIST RBM has 784 visible units and 500 hidden units and is trained as in Appendix E.1. MNIST RBMには784の可視ユニットと500の隠蔽ユニットがあり、Appendix E.1で訓練されている。 0.72
Following Han et al. Han et alに続く。 0.86
(2020) the random RBMs are initialized as (2020)ランダムRBMは初期化される 0.87
random RBMs visible ランダムなRBM 見える 0.73
have W ∼ N (0, .05I), 持ってる W > N (0, .05I) 0.60
b, c ∼ N (0, I). b, c , N (0, I) である。 0.82
All samples are initialized to a random uniform Bernoulli distribution and all samplers are run for 2000 steps. すべてのサンプルはランダムな均一なベルヌーイ分布に初期化され、全てのサンプルは2000ステップで実行される。
訳抜け防止モード: すべてのサンプルはランダムな均一なベルヌーイ分布に初期化される サンプルは全部で2000歩です
0.79
We evaluate by computing the Kernelized MMD between each sampler’s set of samples and a set of approximate “groundtruth” samples generated with the RBMs efficient blockGibbs sampler. RBMsの効率の良いblockGibbsサンプラーで生成された、各サンプルのセットとおよその「基底真」サンプルのセットの間にKernelized MMDを計算することによって評価します。 0.72
We generate 500 ground truth samples and 100 samples for each sampler tested. テストしたサンプルにつき500の基底真理サンプルと100のサンプルを生成します。 0.73
In Figure 2 we plot the final log-MMD with standard-error over 5 runs with different random seeds. 図2では、異なるランダムなシードで5以上の標準エラーで最終ログMMDをプロットします。 0.65
Samples on the right of the figure are generated in the same way from the MNIST RBM. 図の右側のサンプルは、MNIST RBMから同じように生成されます。 0.70
For D-SVGD we search over relaxation temperatures λ ∈ {.5, 1., 2.}. D-SVGD では、リラクゼーション温度 λ ∈ {.5, 1., 2.} を探索する。 0.76
We optimize the samples with the Adam optimizer (Kingma & Ba, 2014). 我々はAdam Optimizationrを用いてサンプルを最適化する(Kingma & Ba, 2014)。 0.84
We search over learning rates in {.01, .001, .0001}. 学習率を {.01, .001, .0001} で検索する。 0.82
We use an RBF kernel k(x, x(cid:48)) = exp and h = med2/(2 log(n + 1)) where med is the median pairwise distance between the current set of n samples. RBFカーネル k(x, x(cid:48)) = exp と h = med2/(2 log(n + 1)) を用いる。
訳抜け防止モード: RBF カーネル k(x, x(cid:48 ) ) = exp を使用します。 h = med2/(2 log(n + 1 )) です。 medはnのサンプルの現在のセット間の中央の対方距離です。
0.78
All reported results for D-SVGD, R-MALA, and R-HMC are the best results obtained over all tested hyper-parameters. D-SVGD, R-MALA, R-HMCのすべての報告結果は, 試験された全ハイパーパラメータに対して最もよい結果である。 0.59
We found all of these methods to be very sensitive to their hyper-parameters – in particular, the relaxation temperature λ. これらの手法はすべてハイパーパラメーター、特に緩和温度λに対して非常に敏感であることがわかった。 0.74
We believe it may be possible to improve the performance of these methods through further tuning of these parameters but we found doing so beyond the scope of this comparison. これらのパラメータのさらなるチューニングにより,これらの手法の性能向上が可能であると考えられるが,本比較の範囲を超えている。 0.81
(cid:16)−||x−x(cid:48)||2 (cid:16)−|x−x(cid:48)|2 0.58
(cid:17) h (cid:17) H 0.78
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
D. Gibbs-With-Gradients Extensions D.1. D. Gibbs-With-Gradients Extensions D.1 0.55
Extensions To Larger Windows 大型Windowsへの拡張 0.85
We can easily extend our approach to proposals with larger window sizes. より大きなウィンドウサイズで提案へのアプローチを簡単に拡張できます。 0.81
This would amount to a a Taylor-series approximation to likelihood ratios where more than 1 dimension of the data has been perturbed. これは、データの1次元以上が摂動された確率比に対するテイラー級数近似になる。 0.62
These would come in the form of linear functions of f (x) and ∇xf (x). これらは f (x) と sxf (x) の線型函数の形で現れる。 0.74
It is likely, of course, that as the window-size is increased, the accuracy of our approximation will decrease as will the quality of the sampler. ウィンドウサイズが大きくなるにつれて, 試料の品質が向上するにつれて, 近似の精度が低下する可能性が高い。 0.64
In all of our experiments, we found a window-size of 1 to give a considerable improvement over various baselines so we did not explore further. 実験の結果,ウィンドウサイズが1で,様々なベースラインに対して大幅な改善が得られたので,それ以上の探索は行わなかった。 0.72
We believe this is an exciting avenue for future work. 私たちはこれが将来の仕事のエキサイティングな道だと信じています。 0.54
D.2. Multi-Sample Variant D.2。 マルチサンプルバリアント 0.69
As mentioned, all experiments presented in the main paper use a window size of 1 meaning only 1 dimension can be changed at a time. 前述のように、本論文で紹介されたすべての実験では、一度に1次元だけ変更できるという意味のウィンドウサイズが1である。 0.68
In the binary case, we sample a dimension i ∼ q(i|x) which tells us which dimension to flip to generate our proposed update. 二項の場合、我々は、どの次元をフリップして提案されている更新を生成するかを示す次元 i s q(i|x) をサンプリングする。 0.65
A simple, and effective extension to this is to simply re-sample multiple indices from this same distribution これに対する単純で効果的な拡張は、同じ分布から複数のインデックスを再サンプリングすることである 0.75
i1, . . . , iN ∼ q(i|x) i1だ . . iN, q(i|x) 0.79
where N is the number of draws. ここで N は引出しの数です。 0.76
We then generate x(cid:48) by flipping the bit at each sampled index in. 次に各サンプルインデックスinでビットを反転させてx(cid:48)を生成する。 0.76
This changes the acceptance probability to これは受け入れ確率を変化させます 0.77
min exp(f (x(cid:48)) − f (x)) 分 exp(f(x(cid:48)) − f(x)) 0.75
, 1 . (27) , 1 . (27) 0.85
(cid:81)N (cid:81)N n=1 q(in|x(cid:48)) n=1 q(in|x) (cid:81)N(cid:81)N=1 q(in|x(cid:48))n=1 q(in|x) 0.73
(cid:41) (cid:40) (cid:41) (cid:40) 0.78
This proposal makes a larger number of approximations and assumptions but we find that in some settings it can provide faster convergence and can have reasonable acceptance rates. この提案は近似や仮定を多用するが、いくつかの設定ではより高速な収束を提供し、合理的な受容率が得られる。 0.70
We demonstrate this in our RBM experiments in Figure 9. 図9のRBM実験でこれを実証します。 0.75
We replicate Figure 3 but add the multi-sample variant described above with N = 3 and N = 5 samples. 図3を再現するが、N = 3 と N = 5 のサンプルで上述の多重サンプル不変量を加える。 0.80
We find in this case the multi-sample variant has faster convergence and greater ESS. この場合、マルチサンプルバリアントはより高速な収束とより大きなESSを有する。 0.77
E. Restricted Boltzmann Machines Restricted Boltzmann Machines define a distribution over binary data x and latent variables h. The model is defined as: E. Restricted Boltzmann Machines Restricted Boltzmann Machines は、バイナリデータ x と潜入変数 h 上の分布を定義する。 0.73
log p(x, h) = hT W x + bT x + cT h − log Z log p(x, h) = hT W x + bT x + cT h − log Z 0.85
(28) where Z is the normalizing constant and {W, b, c} are the model’s parameters. (28) ここで Z は正規化定数であり、{W, b, c} はモデルのパラメータである。 0.85
In this model we can efficiently このモデルでは効率的に 0.79
Figure 9. RBM Sampling with Gibbs-With-Gradients extensions. 図9。 Gibbs-With-Gradients 拡張によるRBMサンプリング。 0.65
GWG-3 and GWG-5 are the multi-sample variant of GWG described above with n = 3 and n = 5, respectively. GWG-3 と GWG-5 はそれぞれ n = 3 と n = 5 の GWG の多重サンプル変種である。 0.87
marginalize out the latent variable h to obtain: 取得する潜入変数 h をマージン化します。 0.62
log p(x) = log log p(x) = log 0.85
p(x, h) (cid:88) (cid:88) p(x, h) (cid:88)(cid:88) 0.80
h exp(hT W x + bT x + cT h) H exp(hT W x + bT x + cT h) 0.81
= log = log(1 + exp(W x + c)) + bT x − log Z (29) log = log(1 + exp(W x + c)) + bT x − log Z (29) 0.80
h While the joint and marginal are both unnormalized, we can see the conditional distirbutions can be easily normalized and take the form: H 関節と辺縁はともに非正規化されているが、条件分散は容易に正規化され、形を取ることができる。 0.69
p(x|h) = Bernoulli(W x + c) p(h|x) = Bernoulli(W T h + b). p(x|h) = Bernoulli(W x + c) p(h|x) = Bernoulli(W T h + b)。 0.97
We can exploit this structure to more efficiently sample from RBMs. この構造を利用してrbmsより効率的にサンプルを採取することができる。 0.58
We can perform Block-Gibbs updates by starting at some initial x, and repeatedly sample h ∼ p(h|x), x ∼ p(x|h). いくつかの初期 x からブロックギブズ更新を行い、繰り返し h を p(h|x), x を p(x|h) とする。 0.65
Exploiting this structure leads to much more efficient sampling than standard Gibbs and other samplers (see Figure 3). この構造を利用すると、標準的なギブスや他のサンプリング機よりもはるかに効率的なサンプリングができる(図3参照)。 0.55
E.1. Experimental Details E.1。 実験的詳細 0.71
We explore the performance of various approaches to sample from an RBM trained on the MNIST dataset. MNISTデータセットで訓練されたRBMからサンプルへの様々なアプローチのパフォーマンスを調べます。 0.80
The RBM has 500 hidden units (and 784 visible units). RBMには500の隠しユニット(および784の可視ユニット)がある。 0.77
We train the model using contrastive divergence (Hinton, 2002) for 1 epoch through the dataset using a batch size of 100. 対照的発散(Hinton, 2002)を用いて,100のバッチサイズを用いてデータセットを1エポックでトレーニングした。 0.70
We use 10 steps of MCMC sampling using the Block-Gibbs sampler defined above to generate samples for each training iteration. 上記のBlock-Gibbsサンプルを用いたMCMCサンプリングの10ステップを使用して,トレーニングイテレーション毎にサンプルを生成する。 0.74
We use the Adam (Kingma & Ba, 2014) optimizer with a learning rate of .001. 学習率.001のAdam(Kingma & Ba, 2014)オプティマイザを使用しています。 0.77
Our first result compares samples generated by various approaches with samples generated with the Block-Gibbs sampler described above. 第1報では, 種々の手法で生成したサンプルと, 上述のブロックギブス・サンプラーで生成したサンプルを比較した。 0.58
We generate a set of 500 samples using the Block-Gibbs sampler run for 10,000 steps. 1万ステップのblock-gibbs samplerを使って500のサンプルを生成します。 0.76
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
At this length, the samples are very close to true samples from the model. この長さでは、サンプルはモデルからの真のサンプルに非常に近い。 0.81
Next we generate a set of 100 samples from a number of other samplers: Gibbs, Hamming Ball and Gibbs-With-Gradients . 次に、Gibs、Hamming Ball、Gibbs-With-Gradients などの他のサンプラーから100サンプルのセットを生成します。 0.66
After every MCMC transition we compute the Kernelized Maximum Mean Discrepancy (Gretton et al., 2012) between the current set of samples and our “ground-truth” long-run Block-Gibbs samples. MCMC移行のたびに、現在のサンプルセットと「グラウンドトラス」の長期実行ブロックギブスサンプルの間のKernelized Maximum Mean Disrepancy(Gretton et al., 2012)を計算します。 0.77
We use an exponential average Hamming kernel K(x, x(cid:48)) = exp to compute the MMD. 指数平均ハミングカーネルK(x, x(cid:48)) = expを使用してMDDを計算します。 0.68
The next result is the effective sample size of a test statistic for each sampler. 次の結果は、各サンプルデータに対するテスト統計の有効サンプルサイズである。 0.89
Following Zanella (2020), our test statistic is the Hamming distance between the current sample and a random input configuration. zanella (2020) に続いて、現在のサンプルとランダムな入力構成の間のハミング距離がテスト統計値である。 0.80
We present a box-plot showing the median, standard-deviation, and outliers over 32 chains. 我々は,32チェーンの中央値,標準値,外れ値を示すボックスプロットを示す。 0.66
(cid:16)−(cid:80)D (cid:16)-(cid:80)D 0.88
1(xi=x(cid:48) i) 1(xi=x(cid:48) i) 0.81
(cid:17) i=1 (cid:17) i=1 0.69
D E.2. Additional Results D E.2。 追加結果 0.74
We visualize the samples after 10,000 steps of each tested sampler in Figure 10. テストした各サンプルの1万ステップ後のサンプルを図10で視覚化する。 0.73
We can see the Gibbs-With-Gradients samples much more closely matches the Block-Gibbs samples. Gibbs-With-Gradients サンプルはBlock-Gibbsサンプルと非常によく一致しています。 0.60
This result is reflected in the improved MMD scores see in Figure 3 (left). この結果は、図3(左)のMDDスコアの改善に反映されます。 0.72
Figure 10. Sets of samples drawn from a fixed RBM with various MCMC approaches after 10,000 steps. 図10。 10,000ステップ後に様々なMCMCアプローチの固定RBMから引き出されたサンプルのセット。 0.75
F. Ising Models Ising models are unnormalized models for binary data defined as F. イジングモデル イジングモデルは、定義されているバイナリデータの非正規化モデルである 0.71
log p(x) = xT Jx + bT x − log Z log p(x) = xT Jx + bT x − log Z 0.85
(30) where J and b are the model’s parameters and Z is the normalizing constant. (30) ここで J と b はモデルのパラメータであり、Z は正規化定数である。 0.85
J determines which other variables each xi is correlated with. J は各xi が関係する他の変数を決定する。 0.72
If J = 0 then the model becomes a factorized Bernoulli distribution. J = 0 であれば、モデルは分解ベルヌーリ分布となる。 0.73
If all of the non-zero indices of J are the same, then we can pull out this value J の 0 でない指標がすべて同じであれば、この値を取り出すことができる。 0.75
and rewrite the model as log p(x) = θxT Jx + bT x − log Z モデルを書き換えて log p(x) = θxT Jx + bT x − log Z 0.70
(31) where now θ controls how correlated each xi is with its connected variables and J controls which variables each xi is connected to. (31) そして、各 xi がどの変数に接続されているか、各 xi がどの変数に接続されているか、J コントロールします。 0.75
Our lattice Ising models take this form where the J is the adjacency matrix of a cyclic 2D lattice and θ controls the strength of the connectivity. 我々の格子イジングモデルは、J が巡回2次元格子の隣接行列であり、θ が接続の強さを制御するこの形式をとる。 0.72
F.1. Experimental Details: Sampling F.1。 実験の詳細:サンプリング 0.77
We experiment with our sampler’s ability to sample from Ising models on the 2D cyclic lattice as various factors chage. 我々は,2次元循環格子上のイジングモデルから,様々な因子をチェージとして試料を採取する実験を行った。 0.76
These include the connectivity strength and the size of the lattice. これには接続強度と格子の大きさが含まれる。 0.82
We run each sampler for 100,000 steps and evaluate using the ESS of a test statistic. それぞれのサンプルを10万のステップで実行し、テスト統計のESSを用いて評価する。 0.72
Following Zanella (2020) our test statistic is the Hamming distance between the current sample and a random input configuration. Zanella (2020) に続くテスト統計は、現在のサンプルとランダムな入力構成の間のハミング距離である。 0.82
We present the ESS (in log-scale), averaged with standard-errors, over 32 random seeds. 標準エラーと32種以上のランダムな種子を平均したess(log-scale)を提示する。 0.65
We can see in both 10x10 and 40x40 lattice sizes, our sampler outperforms Gibbs and the Hamming ball. 10x10と40x40の格子サイズで見ることができ、サンプルはギブスやハミングボールより優れています。 0.66
F.2. Experimental Details: Training F2。 実験の詳細:訓練 0.81
We create Ising models with 2 kinds of graph structure; a cyclic 2D lattice and a random Erdos-Renyi (ER) graph. 周期的な2次元格子とランダムなErdos-Renyi(ER)グラフの2種類のグラフ構造を持つIsingモデルを作成します。 0.80
For the lattice we create models with a 10x10, 25x25, and 40x40 lattice leading to 100, 625, and 1600 dimensional distributions. 格子に対して、10x10, 25x25, 40x40格子を持つモデルを作成し、100, 625, 1600次元分布に導く。 0.76
We train models with connectivity θ ∈ [−.1, 0.0, .1, .25, .5]. 我々は接続性 θ ∈ [−.1, 0.0, .1, .25, .5] でモデルを訓練する。 0.70
For the ER graph, we create a model with 200 nodes. ERグラフでは、200ノードのモデルを作成します。 0.77
The ER edge probability is chosen so each node has an average of 4 neighbors. ERエッジ確率は、各ノードが平均4つの隣人を持つように選択される。 0.75
The strength of each edge is IID sampled それぞれのエッジの強度をIIDでサンプリングする 0.82
from N(cid:0)0, 1 から N(cid:0)0, 1 0.90
(cid:1). 4 (cid:1)。 4 0.81
A dataset of 2000 examples is generated from each model using 1,000,000 steps of Gibbs sampling. Gibbsサンプリングの1,000,000ステップを使用して、2000のサンプルのデータセットが各モデルから生成される。
訳抜け防止モード: 各モデルから2000例のデータセットを生成する Gibbsサンプリングの10万ステップを使用する。
0.80
We train models using persistent contrastive divergence (Tieleman, 2008) with a buffer size of 256 examples. 永続的なコントラスト差(Tieleman, 2008)を用いて,256例のバッファサイズでモデルをトレーニングする。 0.75
Models are trained with the Adam optimizer (Kingma & Ba, 2014) using a learning rate of .001 and a batch size of 256. モデルはAdam Optimizationr (Kingma & Ba, 2014)で訓練され、学習レートは.001、バッチサイズは256である。 0.75
We update the persistent samples using Gibbs and Gibbs-With-Gradients . GibbsとGibbs-With-Gradients を使って永続的なサンプルを更新する。 0.52
We train models with {5, 10, 25, 50, 100} steps of MCMC per training iteration and compare their results. 5, 10, 25, 50, 100} のモデルをトレーニングイテレーション毎に MCMC のステップでトレーニングし、その結果を比較します。 0.80
We train all models with an (cid:96)1 penalty to encourage sparsity with strength .01. すべてのモデルを(cid:96)1ペナルティでトレーニングし、力でスパーシティを奨励します。 0.59
We compare results using the root-mean-squared-er ror between the true connectivity matrix J and the inferred connectivity matrix ˆJ. 実接続行列 J と推定接続行列 ^J のルート平均二乗誤差を用いて結果を比較する。 0.73
英語(論文から抽出)日本語訳スコア
F.3. Additional Results: Training Ising Models F.3。 追加の結果:トレーニングイジングモデル 0.66
Gaussian noise added. ガウスノイズの追加。 0.71
Gibbs with Gradients Gibbs with Gradients 0.85
In Figure 11, we present an expanded version of Figure 6 which presents additional results. 図11では、追加の結果を示す図6の拡張版を提示します。 0.80
In these additional experiments we find Gibbs-With-Gradients considerably outperforms training with Gibbs sampling. これらの追加実験では、Gibs-With-Gradients はGibbs サンプリングによるトレーニングよりもかなり優れています。 0.42
Figure 11. Training Ising models. 図11。 訓練用モデル。 0.74
Top Left: Lattice Ising with increasing θ (dim = 50, steps = 50). 左上: Lattice Ising with increasing θ (dim = 50, steps = 50)。 0.74
Top Right: Lattice Ising with increasing dimension (θ = .25, steps = 25). 右上: 次元が増加する格子イジング(θ = .25, ステップ = 25)。 0.75
Bottom Right: Lattice Ising with increasing steps (dim = 25, θ = .25). Bottom Right: Lattice Ising with increasing steps (dim = 25 θ = .25)。 0.80
Bottom Right: Erdos-Renyi Ising with increasing steps. Bottom Right: Erdos-Renyiはステップを増やしています。 0.66
Values are log(RMSE) between the learned J and the true J. Gibbs-With-Gradients leads to better solutions with lower computational cost. 値は学習したJと真のJ. Gibbs-With-Gradients の間のログ(RMSE)であり、計算コストの低いより良いソリューションにつながります。 0.69
G. Factorial Hidden Markov Models Factorial Hidden Markov Models (FHMM) are a generalization of Hidden Markov Models and model real-valued time-series data. G. Factorial Hidden Markov Models Factorial Hidden Markov Models (FHMM) は、隠れマルコフモデルと実数値時系列データの一般化である。 0.89
The observed data y ∈ RL is generated conditioned on a discrete latent-variable x ∈ {0, 1}L×K. 観測されたデータ y ∈ RL は、離散潜在変数 x ∈ {0, 1}L×K に条件付けされる。 0.79
This latent-variable is drawn from the product of K independent Markov processes as seen below. この潜在変数は、以下に示すように、K 独立マルコフ過程の積から引き出される。 0.53
The data yt is generated by by the K-dimensional state vector xt with データ yt は K-次元状態ベクトル xt によって生成される。 0.88
p(x, y) = p(y|x)p(x) p(y|x) = p(x, y) = p(y|x)p(x) p(y|x) = 0.99
L(cid:89) N (yt; W xt + b, σ2) L(cid:89) N (yt; W xt + b, σ2) 0.88
p(x) = p(x1) p(x) = p(x1) 0.94
p(xt|xt−1) p(xt|xt−1) 0.65
p(x1) = t=2 p(x1) = t=2 0.79
Bernoulli(x1k; αk) Bernoulli (複数形 Bernoullis) 0.72
L(cid:89) t=1 L(cid:89) t=1 0.71
K(cid:89) K(cid:89) K(cid:89) K(cid:89) 0.81
k=1 p(xt+1|xt) = k=1 p(xt+1|xt) = 0.65
Bernoulli(x(t+1)k; βxtk Bernoulli(x(t+1)k; βxtk 0.90
k (1 − βk)1−xtk ) (32) The posterior p(x|y) has no closed form and thus we must rely on MCMC techniques to sample from it. k (1 − βk)1−xtk ) (32) 後部 p(x|y) は閉形を持たないため、MCMC 法に頼らなければならない。 0.75
k=1 G.1. Experimental Details k=1 G1。 実験的詳細 0.68
We sample the parameters of an FHMM randomly as FHMMのパラメータをランダムにサンプリングします。 0.71
W, b ∼ N (0, I) W, b は N (0, I) である。 0.81
(33) and set σ2 = .5, αk = .1 and βk = .95 for for all k. We then sample x ∼ p(x) and y ∼ p(y|x) and run all samplers for 10,000 steps to generate samples from p(x|y). (33) そして、すべての k に対して σ2 = .5, αk = .1 と βk = .95 をセットする。次に、x(x|y) と y(y|x) をサンプリングし、すべてのサンプラーを 10,000 ステップ実行して p(x|y) からサンプルを生成する。 0.78
The Hamming Ball Sampler (Titsias & Yau, 2017) is special for this model as it exploits the known block-structure of the posterior. ハミングボールサンプリング(Titsias & Yau, 2017)は、後部の既知のブロック構造を利用するため、このモデルに特有である。 0.79
We use a block size of 10 and the blocks are chosen to be all 10 dims of the latent state at a randomly chosen time xt. 我々は、10のブロックサイズを使用し、ブロックはランダムに選択された時間xtで遅延状態のすべての10ディムに選ばれる。 0.82
Thus, this sampler is aware of more hardcoded structure in the model than the Gibbs baseline and Gibbs-With-Gradients . したがって、このサンプラーはGibsベースラインとGibs-With-Gradientsよりもモデルのハードコード構造を認識しています。 0.58
H. Potts Models for Proteins We train the MCMC models using PCD (Tieleman, 2008) with a buffer size of 2560. H. Potts Models for Proteins 我々はPCD(Tieleman, 2008)を用いてMCMCモデルを訓練し、バッファサイズは2560である。 0.79
At each training iteration we sample a mini batch of 256 examples and 256 random samples from the persistent sample buffer. トレーニングイテレーション毎に、永続的なサンプルバッファから256のサンプルと256のランダムサンプルのミニバッチをサンプリングします。 0.84
These are updated using 50 steps of either Gibbs or Gibbs-With-Gradients and the gradient estimator of Equation 12 is used to update the model parameters. これらはGibsまたはGradientsの50ステップを使用して更新され、Equation 12の勾配推定器を使用してモデルパラメータを更新します。 0.71
We train for 10,000 iterations using the Adam optimizer (Kingma & Ba, 2014). adam optimizer(kingma & ba, 2014)を使って10,000回のイテレーションをトレーニングしています。 0.59
Following Marks et al. Marks et al. (英語) 0.55
(2011) we use block-(cid:96)1 regularization. (2011)block-(cid:96) 1正規化を用いる。 0.77
This regularizer takes the form この正規化器は形を取る 0.55
L1(J) = ||Jij||2. L1(J) = |Jij||2。 0.73
(34) We add this regularizer to the maximum likelihood gradient estimator. (34) この正則化器を最大度勾配推定器に追加する。 0.73
We tested regularization strength parameters in 正規化強度パラメータをテストしました 0.65
ij (cid:88) ij (cid:88) 0.82
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
{.1, .03, .01} and found .01 to work best for PLM, Gibbs, and Gibbs-With-Gradients . 1, 03, .01} は PLM, Gibbs, Gibbs-With-Gradients に最適である。 0.72
Ground truth couplings were extracted from an experimentally validated distance-map. 実験により検証された距離マップから地中真理結合を抽出した。 0.60
As is standard, we consider any pair of amino acids to be a contact if they are within 5 angstroms of each other. 標準的なように、任意の一対のアミノ酸が、互いに5アングストローム内にある場合、接触であると考える。 0.75
H.1. Recall on PF10018 H.1。 PF10018のリコール 0.73
We do not present results on PF10018 in the main body as it was used to to tune hyper-parameters. pf10018はハイパーパラメータのチューニングに用いられており,本体では結果が示されていない。 0.66
For completeness, we present them here in Figure 12. 完全性のために、図12でそれらをここに示します。 0.60
As with the other protiens, the MCMC-based training outperforms PLM but by a smaller margin and GWG and Gibbs perform comparably here. 他のプロティエンスと同様、MCMCベースのトレーニングはPLMより優れているが、マージンが小さく、GWGとGibsは相容れない。 0.57
This further supports the benefit of MCMC training over PLM sets in on larger data as does the benefit of GWG over Gibbs. これは、GWG over Gibbsのメリットと同様に、より大きなデータに対してPMMセット上のMCMCトレーニングの利点をさらにサポートします。 0.63
Figure 12. Recall Curves for contact prediction with Potts models. 図12。 Pottsモデルとの接触予測のためのリコール曲線。 0.75
H.2. Visualized Contacts H.2。 可視化コンタクト 0.69
We visualize the inferred couplings for CADH1 HUMAN in Figure 13. 図13でCADH1 HUMANの推論結合を可視化する。 0.75
We see that GWG most accurately matches the known structure with Gibbs inferring spurious couplings and PLM missing many couplings near the diagonal. GWGは既知の構造に最も正確に一致し、Gibsはスプリアス結合を推測し、PLMは対角線付近で多くの結合を欠いた。 0.64
I. Deep EBMs I.1. 私。 ディープ EBM I.1。 0.66
Architectures We train on two types of data; binary and categorical. 建築 2つのタイプのデータ、バイナリとカテゴリをトレーニングします。 0.72
For the binary datasets, the data is represented as {0, 1}D where D is the dimension of the data. バイナリデータセットの場合、データは {0, 1}D として表され、D はデータの次元である。 0.81
For the categorical datasets, each categorical variable is represented as a “one-hot” vector. 分類的データセットでは、各カテゴリ変数は“ワンホット”ベクトルとして表現される。 0.75
Thus, for image data, each pixel is represented with a 256-dimensional vector. したがって、画像データの場合、各ピクセルは256次元ベクトルで表現される。 0.78
To deal with the very high dimensionality of this input parameterization, we first map each one-hot vector to a learned, low-dimensional embedding with a linear transformation. この入力パラメータ化の非常に高次元性を扱うために、まず1ホットベクトルを線形変換で学習された低次元埋め込みにマッピングする。 0.83
We map to Dp = 4 dimensions for all models tested. テストされたすべてのモデルのDp = 4次元にマップします。 0.71
We then feed this (D × Dp)-dimensional input to our network. 次に、この(D × Dp)次元の入力をネットワークに供給します。 0.79
There are certainly more efficient ways to represent this これを表現するより効率的な方法があります。 0.62
Figure 13. Inferred Couplings for CADH1 HUMAN. 図13。 CADH1 HUMANの推論カップリング。 0.73
“Ground Truth” is the matrix of known distances between amino acids. 基底真理」はアミノ酸間の既知の距離の行列である。 0.77
All other matrices are the norms of the Potts model Jij parameter. 他のすべての行列は、ポッツモデルJijパラメータのノルムです。 0.70
data, but our intention was not to achieve state-of-the-art results on these datasets and instead to demonstrate our sampler could enable the training of energy-based models on high-dimensional discrete data, so we use the most straightforward parameterization. しかし、我々の意図は、これらのデータセットで最先端の結果を達成することではなく、高次元離散データ上でエネルギーベースのモデルのトレーニングを可能にすることであり、最も簡単なパラメータ化を使用する。 0.64
The ResNet used for our EBM is identical for all datasets. EBMで使用されるResNetは、すべてのデータセットで同じです。 0.64
The network has 8 residual blocks with 64 feature maps. ネットワークには64のフィーチャーマップを持つ8つの残存ブロックがある。 0.63
Each residual block has 2 convolutional layers. 各ブロックは2つの畳み込み層を有する。 0.66
The first two residual blocks have a stride of 2. 最初の2つの残留ブロックは2のストライドを有する。 0.77
The output features are mean-pooled across the spatial dimensions and a single linear layer is used on top to provide the energy. 出力特性は空間次元にわたって平均プールされ、その上に1つの線形層を用いてエネルギーを供給する。 0.68
The Swish (Ramachandran et al., 2017) nonlinearity (x · σ(x)) is used throughout. swish (ramachandran et al., 2017) 非線形性 (x · σ(x)) は全体に使われる。 0.86
I.2. Experimental Details I.2。 実験的詳細 0.73
We trained all models Adam (Kingma & Ba, 2014) using a learning rate of 0.0001. 私たちはAdam(Kingma & Ba, 2014)を0.0001の学習率でトレーニングしました。 0.77
We linearly warm-up the learning rate for the first 10,000 iterations. 最初の1万回の学習率を線形にウォームアップします。 0.55
We found this was necessary to help burn in the replay buffer of samples. これはサンプルの再生バッファを燃やすのに必要であることがわかった。 0.74
For the large datasets (static/dynamic MNIST, Omniglot) we use a replay buffer with 10,000 samples. 大きなデータセット(静的/動的mnist、omniglot)では、10,000サンプルのリプレイバッファを使用します。 0.63
For the smaller datasets (Caltech, Freyfaces, Histopathology) the buffer size is 1000. 小さなデータセット(Caltech, Freyfaces, Histopathology)の場合、バッファサイズは1000である。 0.85
Unlike recent work on continuous EBMs (Du & Mordatch, 2019; Grathwohl et al., 2019), we do not reinitialize the buffer samples to noise. 最近の連続ebms(du & mordatch, 2019; grathwohl et al., 2019)とは異なり、バッファサンプルをノイズに再活性化することはできません。 0.76
We found this resulted in unstable training and lower likelihoods. これは不安定な訓練と低い可能性をもたらしました。 0.59
We train all models for 50,000 iterations. すべてのモデルを5万イテレーションでトレーニングします。 0.52
We use the same 私たちは同じ方法を使い 0.55
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
Figure 14. AIS likelihood estimates as the number of intermediate distributions increases for our Caltech Silhouettes Resnet EBM. 図14。 AISは、Caltech Silhouettes Resnet EBMの中間分布数が増加すると推定します。 0.74
Values converge after 30, 000 ≈ 104.5 step s 値は 30,000 × 104.5 ステップ後に収束する 0.72
training/validation/ testing splits as Tomczak & Welling (2018). Tomczak & Welling (2018)としてトレーニング/検証/テストの分割。 0.58
We evaluate models every 5000 iterations using 10,000 steps of AIS. AISの1万ステップを使用して,5000回毎にモデルを評価する。 0.57
We select the model which performs the best on the validation data under this procedure. 本手法では,検証データに対して最善を尽くすモデルを選択する。 0.74
Final results in Table 2 are generated from the selected models by running 300,000 iterations of AIS. テーブル2の最終結果は、30万回のAISを実行することで選択されたモデルから生成される。 0.66
We evaluate using a model who’s weights are given by an exponential moving average of the training model’s weights. トレーニングモデルの重みの指数的な移動平均によって与えられる重みのモデルを用いて評価する。 0.73
This is analogous to training with “fast-weights” as in Tieleman & Hinton (2009). これは Tieleman & Hinton (2009) のような “fast-weights” によるトレーニングに似ている。 0.75
We find this greatly improves likelihood performance and sample quality. これは性能とサンプルの品質を大幅に向上させる。 0.74
We use an exponential moving average with weight 0.999 and did not experiment with other values. 重量0.999の指数移動平均を使い、他の値では実験しなかった。 0.69
We believe better results could be obtained with larger models or alternative architectures, but we leave this for future work. 私たちは、より大きなモデルや代替アーキテクチャでより良い結果が得られると信じています。 0.65
I.2.1. PARTITION FUNCTION ESTIMATION WITH AIS I.2.1。 AISを用いた分割関数推定 0.51
We estimate likelihoods by estimating the partition function using Annealed Importance Sampling (AIS) (Neal, 2001). annealed importance sampling (ais) (neal, 2001) を用いて分割関数を推定することで推定する。 0.75
AIS underestimates the log-partition-functi on leading to over-estimating the likelihood. AISはログ分割関数を過小評価し、可能性の過大評価につながる。 0.43
The estimation error can be reduced by using a larger number of intermediate distributions or a more efficient MCMC sampler. 推定誤差は、より多くの中間分布またはより効率的なMCMCサンプリング器を使用することで低減することができる。 0.72
Results presented in Table 2 were generated with 300,000 intermediate distributions. 表2に示した結果は30万の中間分布で得られた。 0.72
We chose this number as it appears to be sufficiently high for our partition function estimate to converge. 分割関数の推定値が収束するのに十分高いように見えるため、我々はこの数を選んだ。
訳抜け防止モード: 私たちはこの数を選びました 分割関数の推定値が収束するには 十分高いようです
0.78
Despite this, these are upper-bounds and therefore should not be considered definitive proof that one model achieves higher likelihoods than another. それにもかかわらず、これらは上界であり、従ってあるモデルが他のモデルよりも高い可能性を達成するという決定的な証明と考えるべきではない。 0.51
We anneal between our model’s unnormalized logprobability f (x) and a multivariate Bernoulli or Categorical distribution, log pn(x), fit to the training data, for binary and categorical data, respectively. モデルの非正規化ログプロbability f (x) と多変量BernoulliまたはCategorical distribution, log pn(x) をそれぞれトレーニングデータに適合させ、バイナリデータとカテゴリデータの両方にアニーリングします。 0.81
ft(x) = βtf (x) + (1 − βt) log pn(x) ft(x) = βtf (x) + (1 − βt) log pn(x) 0.93
(35) where βt is linearly annealed from 0 to 1. (35) βt は 0 から 1 まで直線的にアニールされる。 0.79
Alternative strategies such as sigmoid annealing could be used, but we leave this for future work. sigmoid annealingのような代替戦略が利用できるが、私たちはこれを今後の作業に残している。 0.68
In Figure 14 we plot the estimated likleihoods for our Caltech Silhouettes models as the number of intermediate distributions increases. 図14では、中間分布の数が増加するにつれて、カルテックシルエットモデルに対する推定リクルートをプロットする。 0.78
It can be seen that between 30,000 and 300,000 (≈ 104.5 → 105.5) the values appear to be converged, thus we feel our reported number faithfully represent our models’ performance. 30,000から300,000(104.5 → 105.5)の値が収束しているように見えるので、我々の報告された数値はモデルの性能を忠実に表していると感じている。 0.65
I.3. Additional Results Figure 15. I.3。 追加結果 図15。 0.71
Static MNIST Samples 静的MNISTサンプル 0.73
We present additional long-run samples from our convolutional EBM. 畳み込みebmからさらに長期にわたるサンプルを紹介する。 0.58
These samples were generated using an annealed Markov Chain (as described above) and Gibbs-WithGradients as the base MCMC sampler. これらの試料は(前述のように)アニールしたマルコフ・チェインとギブス-WithGradientsをベースMCMC試料として生成した。
訳抜け防止モード: これらのサンプルは Annealed Markov Chain (上述のとおり) と Gibbs - WithGradients をベースMCMCサンプルとして使用します。
0.77
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
Figure 16. Dynamic MNIST Samples 図16。 動的MNISTサンプル 0.78
Figure 18. Caltech Silhouette Samples 図18。 カルテックのシルエットサンプル。 0.61
Figure 17. Omniglot Samples 図17。 Omniglot サンプル 0.76
Figure 19. Freyfaces Samples 図19。 Freyfaces サンプル 0.78
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
Figure 20. Histopathology Samples 図20。 病理組織学サンプル 0.67
英語(論文から抽出)日本語訳スコア
Gibbs with Gradients Gibbs with Gradients 0.85
We train using PCD with a buffer size of 1000 and we use 20 steps of MCMC with Gibbs-With-Gradients to update the samples at every training iteration. バッファサイズ1000のPCDをトレーニングし、Gibs-With-GradientsとMCMCの20ステップを使用して、トレーニングイテレーション毎にサンプルを更新する。 0.72
Besides this, training was identical to our image EBMs in section 8. これに加えて、訓練はセクション8の私達のイメージ EBMsと同一でした。 0.70
We compare with a simple autoregressive language model which is based on an LSTM with 512 hidden units and use a learned word embedding of size 256. 512の隠れたユニットを持つLSTMに基づく単純な自動回帰言語モデルと比較し、256のサイズの学習された単語埋め込みを使用します。 0.82
We find the autoregressive model slightly outperforms the EBM. 自己回帰モデルは EBM をわずかに上回る。 0.60
The test-set log-likelihoods of the EBM and autoregressive model are −77.16 and −74.0, respectively. ebm と自己回帰モデルの試験集合 log-likelihood はそれぞれ −77.16 と −74.0 である。 0.62
For comparison, a uniform distribution over possible tokens obtains −184.21 and a Categorical distribution fit to the training data obtains −100.05. 比較のために、可能なトークン上の均一分布は−184.21を取得し、トレーニングデータに適合するカテゴリ分布は−100.05を得る。 0.52
While we are aware these are far from state-of-the-art language modelling results, we believe they demonstrate that Gibbs-With-Gradients can enable MCMC-trained EBMs to successfully model text data with large vocabulary sizes. 我々はこれらが最先端の言語モデリング結果とは程遠いことを知っているが、Gibs-With-GradientsがMCMCで訓練されたEMMが大きな語彙サイズでテキストデータをモデル化できることを示した。 0.63
At every step, the sampler has 10, 000×20 = 200, 000 choices for possible updates. あらゆるステップにおいて、サンプルは10,000×20 = 200,000の選択肢を持つ。 0.74
Despite this massive sampling space, we find our acceptance rates during training are just above 70% making our approach at least 3500 times more efficient than Gibbs sampling. この膨大なサンプリングスペースにもかかわらず、トレーニング中の受け入れ率は70%を超えており、gibbsサンプリングよりも少なくとも3500倍効率的です。 0.67
We believe improvements could be obtained through larger models and more tuning. より大きなモデルとさらなるチューニングによって改善が得られればと考えています。 0.60
To further scale this approach, we believe we will need to develop further approximations which make sampling from very large categorical distributions more efficient and numerically stable. このアプローチをさらに拡大するには、非常に大きなカテゴリーの分布からのサンプリングをより効率的で数値的に安定させる、さらなる近似を開発する必要があると考えています。
訳抜け防止モード: このアプローチをさらに拡大するためです 我々は必要だと信じています 極めて大きなカテゴリ分布からのサンプリングをより効率的かつ数値的に安定な近似を開発する。
0.73
We leave this for future work. 私たちはこれを将来の仕事に残します。 0.59
J. Preliminary Text EBM Results There has recently been interest in learning Energy-Based Models of text data. J。 予備テキスト EBM結果最近テキストデータのエネルギーベースのモデルを学ぶことに興味があります。 0.75
An EBM for text could enable nonautoregressive generation and more flexible conditioning than autoregressive models. テキスト用のEMMは、自動回帰モデルよりも非自己回帰生成と柔軟な条件付けを可能にする。 0.45
For example, an EBM trained on language pairs p(x, y) could be used to translate in either direction without retraining and could be structured as log p(x, y) = fθ(x)T gφ(y) − log Z so that each language component could be trained separately. 例えば、言語対 p(x, y) で訓練されたebm は、再訓練せずにどちらの方向にも翻訳することができ、各言語成分を別々に訓練できるように log p(x, y) = fθ(x)t gφ(y) − log z として構成できる。 0.78
We also have much more architectural freedom when specifying EBMs meaning fθ is free to be a CNN, RNN, transformer, or MLP. CNN, RNN, transformer, MLP が自由であるという意味の EBM を指定すると,アーキテクチャ上の自由度もはるかに高くなる。 0.76
A few works have had success training and applying text EBMs. テキストEBMのトレーニングと適用に成功した作品がいくつかあります。 0.61
Deng et al. (2020) find that EBMs can be used to improve the generative modeling performance of large-scale transformer language models and He et al. dengら。 (2020) では, 大規模変圧器言語モデルの生成モデリング性能向上に EBM が有効であることが確認された。 0.58
(2021) find that Joint Energy-Based Models (Grathwohl et al., 2019) can improve the calibration of text classifiers. (2021) 共同エネルギーベースモデル (Grathwohl et al., 2019) はテキスト分類器の校正を改善することができる。 0.86
Because of the discrete structure of the text data, both of these works train using Noise Contrastive Estimation (Gutmann & Hyv¨arinen, 2010) using a pretrained autoregressive language model as the noise distribution. テキストデータの離散構造のため、これら2つは雑音分布として事前訓練された自己回帰言語モデルを用いたノイズコントラスト推定(gutmann & hyv sarinen, 2010)を用いて訓練される。 0.77
NCE requires a noise distribution which can be sampled from and enables exact likelihood computation. NCEは、サンプリング可能なノイズ分布を必要とし、正確な可能性計算を可能にします。
訳抜け防止モード: NCEはノイズ分布を必要とする サンプルを採取し 正確な精度の計算を可能にします
0.71
Thus, these approaches rely on and are limited by the quality of these autoregressive models. したがって、これらのアプローチは、これらの自己回帰モデルの品質に依存し、制限されます。 0.58
Ideally, we could train a text EBM on its own, without an auxiliary model. 理想的には、補助モデルなしで、独自のテキストebmをトレーニングできる。 0.63
One way to do this is to use the gradient estimator of Equation 12 but the MCMC sampling task is very challenging. これを行う方法の1つは、方程式12の勾配推定器を使用することですが、MCMCサンプリングタスクは非常に困難です。 0.68
Text models typically have a vocabulary above 10,000 words so the size of the discrete sample space is tremendous. テキストモデルは一般的に1万語以上の語彙を持つため、離散的なサンプル空間のサイズは膨大である。 0.69
Further, as noted in Section 8, to apply Gibbs sampling to a model like this we would need to evaluate the energy function over 10,000 times to perform a single step of sampling! さらに、第8節で述べたように、このようなモデルにギブスサンプリングを適用するには、1万回以上のエネルギー関数を評価して、サンプリングの1ステップを実行する必要がある! 0.71
We believe Gibbs-With-Gradients can provide an avenue to train and sample from these kinds of models. Gibbs-With-Gradients は、これらの種類のモデルからトレーニングとサンプルを提供することができると信じています。 0.56
As a preliminary experiment we train non-autoregressvive language models on a shortened version of the Penn Tree Bank dataset (Taylor et al., 2003). 予備実験として、Penn Tree Bankデータセットの短縮版(Taylor et al., 2003)で非自己回帰言語モデルを訓練する。 0.76
This is a dataset of short sentences with 10,000 words. これは1万語からなる短い文のデータセットです。 0.73
We cut out all sentences with greater than 20 words and pad all shorter sentences with an “end of sequence” token. 20語以上ですべての文をカットし、短い文をすべて“シーケンスの終端”トークンでパッドしました。 0.65
We feel this simplified setting is sufficient for a proof-of-concept as the configuration space is very large and Gibbs sampling is not feasible. 構成空間が非常に大きく、ギブスサンプリングは不可能であるため、この単純化された設定は概念実証に十分だと感じている。 0.62
Our model consists of a bidirectional LSTM (Gers et al., 1999) with 512 hidden units. 我々のモデルは512個の隠蔽ユニットを持つ双方向LSTM(Gers et al., 1999)で構成されている。 0.73
We project the 10,000 words to an embedding of size 256 with a learned mapping. 1万語の単語を、学習したマッピングで256サイズの埋め込みに投影します。 0.64
To compute the energy, we take the last hidden-state from each direction, concatenate them together to a 1024-dimensional vector. エネルギーを計算するために、各方向から最後の隠れ状態を取り、それらを1024次元ベクトルに結合する。 0.76
We project this to 512 dimensions with a linear layer, apply a Swish nonlinearity and then map to 1 dimension with another linear layer. これを線形層を持つ512次元に投影し、スウィッシュ非線形性を適用し、別の線型層と1次元に写像する。 0.82
                                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。