論文の概要、ライセンス

# (参考訳) VAEとGANを一般化した統一f分割フレームワーク [全文訳有]

A Unified f-divergence Framework Generalizing VAE and GAN ( http://arxiv.org/abs/2205.05214v1 )

ライセンス: CC BY 4.0
Jaime Roquero Gimenez and James Zou(参考訳) 確率距離の多様な尺度を柔軟に取り入れる深層生成モデルの開発は重要な研究分野である。 本稿では, VAEとf-GANの両方を組み込んだf-divergence生成モデルの統一的な数学的枠組みを開発し,一般のf-divergencesによる学習を可能にする。 f-GMにより、ネットワークの構造や学習手順を変更することなく、実験者がf分割関数を柔軟に設計することができる。 f-GMは、ジェネレータ、推論ネットワーク、密度推定器の3つのコンポーネントを共同でモデル化する。 したがって、潜在変数のサンプリング、後方推定、および任意のデータムの可能性の評価を同時に行うことができる。 f-GM はエンコーダ・デコーダ GAN のクラスに属する:我々の密度推定器は、潜在符号と観測空間の結合空間におけるサンプル間の判別器の役割を担っていると解釈できる。 本稿では,f-GM が標準 VAE と f-GAN を特殊ケースとして自然に単純化し,異なるエンコーダ・デコーダ GAN アーキテクチャ間の接続を示す。 f-GMは一般的なネットワークアーキテクチャとオプティマイザと互換性がある。 我々はこれを応用して、f-発散の異なる選択のモード崩壊や画像のシャープネスといった効果を実験的に探索する。

Developing deep generative models that flexibly incorporate diverse measures of probability distance is an important area of research. Here we develop an unified mathematical framework of f-divergence generative model, f-GM, that incorporates both VAE and f-GAN, and enables tractable learning with general f-divergences. f-GM allows the experimenter to flexibly design the f-divergence function without changing the structure of the networks or the learning procedure. f-GM jointly models three components: a generator, a inference network and a density estimator. Therefore it simultaneously enables sampling, posterior inference of the latent variable as well as evaluation of the likelihood of an arbitrary datum. f-GM belongs to the class of encoder-decoder GANs: our density estimator can be interpreted as playing the role of a discriminator between samples in the joint space of latent code and observed space. We prove that f-GM naturally simplifies to the standard VAE and to f-GAN as special cases, and illustrates the connections between different encoder-decoder GAN architectures. f-GM is compatible with general network architecture and optimizer. We leverage it to experimentally explore the effects -- e.g. mode collapse and image sharpness -- of different choices of f-divergence.
公開日: Wed, 11 May 2022 00:20:15 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
A Unified f-divergence Framework Generalizing 統一f-divergenceフレームワークの一般化 0.63
VAE and GAN Jaime Roquero Gimenez Department of Statistics ヴェイとガン jaime roquero gimenez 統計学科 0.48
Stanford University Stanford, CA 94305 スタンフォード大学スタンフォード, ca 94305 0.57
roquero@stanford.edu roquero@stanford.edu 0.39
Department of Biomedical Data Science 生物医学データ科学専攻 0.72
James Zou Stanford University Stanford, CA 94305 ジェームズ・ゾー スタンフォード大学スタンフォード, ca 94305 0.63
jamesz@stanford.edu jamesz@stanford.edu 0.39
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] L M . t a t s [ ]LM . t a t s [ 0.35
1 v 4 1 2 5 0 1 v 4 1 2 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract—Developing deep generative models that flexibly incorporate diverse measures of probability distance is an important area of research. 抽象 - 様々な確率距離の測度を柔軟に組み込んだ深い生成モデルを開発することは研究の重要な領域である。
訳抜け防止モード: 抽象的 - 確率距離の様々な測度を柔軟に組み込んだ深層生成モデルの開発 重要な研究領域です
0.76
Here we develop an unified mathematical framework of f-divergence generative model, f-GM, that incorporates both VAE and f-GAN, and enables tractable learning with general f-divergences. 本稿では, VAEとf-GANの両方を組み込んだf-divergence生成モデルの統一的な数学的枠組みを開発し,一般のf-divergencesによる学習を可能にする。 0.67
f-GM allows the experimenter to flexibly design the f-divergence function without changing the structure of the networks or the learning procedure. f-GMにより、ネットワークの構造や学習手順を変更することなく、実験者がf分割関数を柔軟に設計することができる。
訳抜け防止モード: f-gmにより、実験者はf-発散関数を柔軟に設計できる ネットワーク構造や学習手順を変更すること。
0.75
f-GM jointly models three components: a generator, a inference network and a density estimator. f-GMは、ジェネレータ、推論ネットワーク、密度推定器の3つのコンポーネントを共同でモデル化する。 0.55
Therefore it simultaneously enables sampling, posterior inference of the latent variable as well as evaluation of the likelihood of an arbitrary datum. したがって、潜在変数のサンプリング、後方推定、および任意のデータムの可能性の評価を同時に行うことができる。 0.73
f-GM belongs to the class of encoder-decoder GANs: our density estimator can be interpreted as playing the role of a discriminator between samples in the joint space of latent code and observed space. f-GM はエンコーダ・デコーダ GAN のクラスに属する:我々の密度推定器は、潜在符号と観測空間の結合空間におけるサンプル間の判別器の役割を担っていると解釈できる。 0.77
We prove that f-GM naturally simplifies to the standard VAE and to f-GAN as special cases, and illustrates the connections between different encoder-decoder GAN architectures. 本稿では,f-GM が標準 VAE と f-GAN を特殊ケースとして自然に単純化し,異なるエンコーダ・デコーダ GAN アーキテクチャ間の接続を示す。 0.69
f-GM is compatible with general network architecture and optimizer. f-GMは一般的なネットワークアーキテクチャとオプティマイザと互換性がある。 0.48
We leverage it to experimentally explore the effects—e g mode collapse and image sharpness—of different choices of f-divergence. 我々は、f分割の異なる選択に対する効果(例えば、gモードの崩壊と画像のシャープネス)を実験的に探索する。 0.59
Index Terms—generative models, GAN, f-divergence Index Terms - 生成モデル、GAN、f-divergence 0.69
I. INTRODUCTION I. イントロダクション 0.64
In the standard setting for learning generative models, we observe N i.i.d. realizations X 1, . . . , X N in the space X following the distribution p∗ which we want to learn. 生成モデルを学習するための標準設定では、学習したい分布 p∗ に従って、空間 X 内の N 個の実化 X 1 , . . , X N を観測する。 0.84
We define a parametric model of distributions—the generative model—and then optimize for the best parameter for the model that matches p∗ through the observed samples. 分布のパラメトリックモデル(生成モデル)を定義し、観測されたサンプルを通してp∗に一致するモデルに対して最適なパラメータを最適化する。 0.77
Generative models are often based on a common structure: a latent variable Z in a latent space Z is sampled from some known simple (potentially θ (z), and then a sample X ∈ X parametrized) distribution pZ is generated from some distribution pX|Z (x|z), leading to an expression for the distribution of the joint couple pXZ (x, z). 潜在空間 Z の潜在変数 Z は、いくつかの既知の単純(潜在的に θ (z) からサンプリングされ、次に、ある分布 pX|Z (x|z) からサンプル X ∈ X のパラメータ化された)分布 pZ が生成され、結合対 pXZ (x, z) の分布の式が生成される。 0.81
There are two main categories of training procedures for generative models: Variational Auto-Encoders (VAEs) [1] and Generative Adversarial Networks (GANs) [2], each training the generative network pθ with an auxiliary network. 生成モデルのトレーニング手順には,変分オートエンコーダ(VAEs)[1]とGAN(Generative Adversarial Networks)[2]の2つのカテゴリがあり,それぞれが補助ネットワークを用いて生成ネットワークpθをトレーニングする。 0.86
It is typically not feasible to directly match p∗ and the generative model directly, as we only have access to p∗ through the samples, and the marginal pX θ of the model over X is usually not accessible. 通常、p∗ と生成モデルを直接マッチングすることは不可能であり、サンプルを通して p∗ にしかアクセスできないので、X 上のモデルの限界 pX θ は一般にアクセスできない。 0.79
VAEs introduce a family of distributions qφ(z|x)—the variational family—and simultaneously optimize generative parameters θ and the variational parame- vaes は分布 qφ(z|x) の族(変分族)を導入し、生成パラメータ θ と変分パラムを同時に最適化する 0.64
θ θ θ and (p∗ (cid:110) qφ)(x, z) := ters φ so that the distributions pXZ p∗(x)qφ(z|x) defined over the joint space X ×Z are matched. θ θ θ そして (p∗ (cid:110) q φ)(x, z) := ters φ により、ジョイント空間 x ×z 上で定義される分布 pxz p∗(x)q φ(z|x) が一致する。 0.53
GANs introduce a discriminative network Tλ, a real-valued mapping over X that is evaluated on the original and generated samples and thus creates a proxy for a loss that is then minimized with respect to the parameters of the generator. GANは、X 上の実数値マッピングである識別ネットワーク Tλ を導入し、元のサンプルと生成されたサンプルに基づいて評価し、生成元のパラメータに関して最小化される損失のプロキシを生成する。 0.82
A more general class of generative models has been developed by merging these two families: these are called encoderdecoder GANs [3; 4]. より一般的な生成モデルのクラスは、これら2つのファミリーを統合することで開発されている。 0.58
As in the VAE setting, these models and (p∗ (cid:110)qφ)(x, z). VAEの設定と同様に、これらのモデルと (p∗ (cid:110)qφ)(x, z) である。 0.73
match directly the joint distributions pXZ However, instead of deriving parameter updates by gradient descent from a closed form expression of the “discrepancy” between these distributions, samples are generated by the generative model and variational model, and then a discriminative network is trained to distinguish between the two samples. しかし、これらの分布間の「相違」の閉形式表現から勾配降下によるパラメータ更新を導出する代わりに、サンプルは生成モデルと変分モデルによって生成され、識別ネットワークは2つのサンプルを区別するように訓練される。 0.76
Theoretical work has focused on the advantages/drawbacks of these models compared to simpler architectures [5]. 理論的研究は、より単純なアーキテクチャに比べて、これらのモデルの利点/欠点に焦点を当ててきた[5]。 0.51
One contribution of our work is to clarify the relationship between the different members of the encoder-decoder GANs, and with respect to the original VAE and GAN models. 我々の研究の1つの貢献は、エンコーダ-デコーダ gans の異なるメンバと、オリジナルの vae と gan モデルとの関係を明らかにすることである。
訳抜け防止モード: 私たちの仕事の1つの貢献は、エンコーダの異なるメンバーの関係を明らかにすることです。 そして、オリジナルのVAEおよびGANモデルに関して。
0.71
θ Both VAE and GAN families of models require a measure of discrepancy between probability distributions. θ モデルのvae族とgan族の両方が確率分布の差の尺度を必要とする。 0.54
A commonly used family of discrepancy is the f-divergence family, many types of VAE and GANs are designed to minimize different such f-divergences between the distributions associated with the real samples and the generated ones. 一般に使われる相違の族はf-分枝族であり、VAEやGANは実際のサンプルと関連付けられた分布と生成されたものの間の異なるf-分枝を最小化するように設計されている。 0.65
Different choices of functions f lead to different outcomes when training a model. 関数fの異なる選択は、モデルのトレーニング時に異なる結果をもたらす。 0.85
In particular, the VAE in [1] uses the Kullback-Leibler divergence, and the GAN in [2] uses a slightly transformed version of the Jensen-Shannon divergence. 特に、[1] の VAE はクルバック・リーブラーの発散を使い、[2] の GAN は Jensen-Shannon 発散のわずかに変換されたバージョンを使用する。 0.70
Therefore it is important to have training procedures that allow the scientist to choose the appropriate divergence to the desired task. したがって、科学者が所望の課題に適切な相違を選択できるようにするための訓練手順を持つことが重要である。 0.65
Models based on some choice of f will tend to suffer from mode collapse [6], where the generator outputs samples in a limited subset of the whole initial dataset (i.e. the generator focuses its mass in a mode of the true distribution). f の選択に基づくモデルでは、生成元が初期データセット全体の限られた部分集合(すなわち、生成元はその質量を真の分布のモードにフォーカスする)でサンプルを出力するモード崩壊 [6] に悩まされる傾向がある。 0.85
Other choices are suspected to lead to blurry outputs when generating images. 他の選択は、画像を生成するときにぼやけた出力につながると疑われる。 0.63
In consequence, an immediate generalization of the GAN objective through the use of a general f-divergence [7] allows for such flexibility in the GAN family. その結果、一般f分割[7]を用いることで、GANの目的を即時一般化することで、GANファミリーでそのような柔軟性を実現することができる。 0.60
a) Our Contributions: This paper develops an unified mathematical framework that incorporates both VAE and GAN a)我々の貢献:本論文はvaeとganを組み込んだ統一数学的枠組みを開発した。 0.65
英語(論文から抽出)日本語訳スコア
and enables tractable learning with general f-divergence. 一般のf分割による学習を可能にする。 0.46
Our f generative model framework, f-GM, allows the experimenter to flexibly choose the f-divergence function that suits best the context, without changing the structure of the networks or the learning procedure, which was not feasible previously for encoder-decoder GAN. 筆者らのf生成モデルフレームワークであるf-GMは,従来エンコーダ・デコーダGANでは実現不可能であったネットワークの構造や学習手順を変更することなく,最適な文脈に適合するf分割関数を柔軟に選択することができる。 0.76
f-GM jointly models three components: a generator, a inference network and a density estimator. f-GMは、ジェネレータ、推論ネットワーク、密度推定器の3つのコンポーネントを共同でモデル化する。 0.55
Therefore it simultaneously enables sampling, posterior inference of the latent variable as well as evaluation of the likelihood of an arbitrary sample. したがって、潜在変数のサンプリング、後方推定、および任意のサンプルの可能性の評価を同時に行うことができる。 0.80
We prove that f-GM naturally reduces to the standard VAE and to f-GAN as special cases. 我々はf-GMが自然に標準のVAEとf-GANに還元されることを証明した。 0.52
f-GM is compatible with general network architecture and optimizator, and we leverage it to experimentally explore the effects of different choices of f-divergence. f-gmは一般ネットワークアーキテクチャやオプティミザと互換性があり、f-divergenceの異なる選択の影響を実験的に探究する。 0.74
II. THE UNIFIED F-GM MODEL II。 統一F-GMモデル 0.76
a) f-Divergence Definitions And Notations: We start by defining the f-divergence and the Fenchel conjugate, and providing classical examples of such measures. a) f-divergence Definitions And Notations: f-divergence と Fenchel conjugate を定義することから始め、そのような測度の古典的な例を提供する。 0.74
Definition II.1. We say that a mapping f : [0, +∞) → R is an f-divergence function if f is a proper continuous convex function such that f (1) = 0. 定義II.1。 写像 f : [0, +∞) → R が f-分割函数であるとは、f が f(1) = 0 となるような固有連続凸函数であるときに言う。 0.75
For any given f-divergence function f, we define the associated f-divergence between two probability distributions p and q by Df (p||q) = EX∼q f∗ by: 任意の f-発散関数 f に対して、2つの確率分布 p と q の間の関連する f-発散を Df (p||q) = EX q f∗ で定義する。 0.69
For a f-divergence function f, define the Fenchel conjugate f-ダイバージェンス関数 f に対して、フェンシェル共役を定義する 0.69
(cid:2)f(cid:0) p(X) (cid:2)f(cid:0) p(X) 0.44
(cid:1)(cid:3). (cid:1)(cid:3)。 0.73
q(X) f∗(u) = sup x≥0 q(X) f∗(u) = sup x≥0 0.45
{ux − f (x)} {ux − f (x) である。 0.84
We denote its domain by Df∗ ⊂ R. 我々はその領域を Df∗ > R で表す。 0.67
The Fenchel conjugate satisfies the Fenchel-Young inequality, which gives a variational formulation of the initial fdivergence function f. フェンシェル共役はフェンシェル=ヤング不等式を満たすため、初期 fdivergence function f の変分定式化を与える。 0.61
b) The f-GM Model: To motivate our general model, we first define the f-divergence Variational Auto-encoder (f-VAE) as the training procedure which minimizes the fand p∗ (cid:110) qφ. b) f-gmモデル:我々の一般モデルにモチベーションを与えるため、まずf-divergence variational auto-encoder (f-vae) をファンド p∗ (cid:110) q φ を最小化する訓練手順として定義する。 0.70
divergence between the joint distributions pXZ θ We denote such optimization objective by LV f : ジョイント分布 pxz θ の相違 : lv f による最適化目標を示す。 0.68
(cid:104) f(cid:0) p∗(X)qφ(Z|X) f (θ, φ) =Df (p∗ (cid:110) qφ||pXZ LV (cid:104) f(cid:0) p∗(X)qφ(Z|X) f (θ, φ) = Df (p∗ (cid:110) qφ||pXZ LV 0.39
=E(X,Z)∼pXZ =E(X,Z) =pXZ 0.43
) θ (cid:1)(cid:105) ) θ (cid:1)(cid:105) 0.41
θ pXZ θ (X, Z) θ pXZ θ (X,Z) 0.42
The usual VAE (that we call KL-VAE) is a particular case of the f-VAE, where the f-divergence function is fKL(x) = x log(x). 通常のVAE(KL-VAEと呼ぶ)は f-VAE の特別な場合であり、f-分割函数は fKL(x) = x log(x) である。 0.88
This formulation of f-VAE is therefore a natural extension to the KL-VAE which provides flexibility in the choice of the f-divergence function. したがって、この f-VAE の定式化は KL-VAE への自然な拡張であり、f-発散関数の選択に柔軟性を与える。 0.64
eters θ∗, η∗ such that: eters θ∗, η∗ that that: 0.46
The goal of the f-VAE is to find an optimal set of param- f-VAEの目標はパラムの最適セットを見つけることである。 0.80
LV ∗ f := LV LV ∗ f LV (複数形 LVs) 0.45
f (θ∗, η∗) = inf f (θ∗, η∗) = inf 0.42
θ,η LV f (θ, η) θ,η LV f (複数形 fs) 0.48
this objective is hard to optimize because Unfortunately, approximating the expectation defining LV f by a Monte-Carlo average requires evaluating p∗(x), which is unknown. 残念ながら、モンテカルロ平均で lv f を定義する期待値の近似は p∗(x) の評価を必要とするため、この目的の最適化は困難である。 0.75
Recent work has tried to overcome this issue by adding noise to the 最近の研究は、ノイズを付加することでこの問題を克服しようとしている。 0.53
samples in X [8]. X[8]のサンプル。 0.72
In order to get around this issue without introducing extra noise, we propose a new variational form of this f-divergence. 余分なノイズを伴わずにこの問題を回避するために,このf分割の新しい変分形式を提案する。 0.71
In addition to the generative model pθ and the variational family qφ, we introduce a density estimation model pη, which encodes a family of distributions over the space X . 生成モデル pθ と変分族 qφ に加えて、空間 X 上の分布の族を符号化する密度推定モデル pη を導入する。 0.69
We now define our novel optimization objective. 現在、新しい最適化目標を定義しています。 0.60
Definition II.2. For a given set of parameters θ, φ, η, define the unified f-divergence optimization objective LM f as follows, where f∗ is the Fenchel conjugate function of f: 定義II.2。 与えられたパラメータの集合 θ, φ, η に対して、統一された f-分割最適化目標 LM f を次のように定義する: f∗ は f: のフェンシェル共役関数である。 0.69
LM f (θ, φ, η) = E(X,Z)∼p∗(cid:110)qφ LM f (θ, φ, η) = E(X, Z) =p∗(cid:110)qφ 0.45
− E(X,Z)∼pXZ − E(X,Z) =pXZ 0.45
θ (cid:19)(cid:105) f(cid:48)(cid:18) pη(X)qφ(Z|X) (cid:104) (cid:19)(cid:19)(cid :105) f∗(cid:18) f(cid:48)(cid:18) pη(X)qφ(Z|X) (cid:104) θ (cid:19)(cid:48)(cid :18) pη(X)qφ(Z|X) (cid:104) (cid:19)(cid:19)(cid :105) f∗(cid:18) f(cid:48)(cid:18) pη(X)qφ(Z|X) (cid:104) 0.41
(X, Z) pXZ θ (X,Z) pXZ θ 0.42
pXZ θ (X, Z) pXZ θ (X,Z) 0.42
θ Here pη estimates density, qφ performs posterior inference is the generative model. θ ここで pη は密度を推定し、qφ は後進推論を行う。 0.51
The motivation behind using f is given by f の使用の背後にある動機は 0.72
and pXZ f (θ, φ, η) as a proxy in order to minimize LV LM the following proposition. pxz f (θ, φ, η) は次の命題で lv lm を最小化するためにプロキシとして用いられる。 0.66
Proposition II.1. For any set of parameters θ, φ, η, we have the following Fenchel-Young based inequality: 背番号II.1。 任意のパラメータ θ, φ, η に対して、次の fenchel-young ベースの不等式がある。 0.46
f (θ, φ, η) ≤ LV LM f (θ, φ, η) ≤ LV LM 0.42
f (θ, φ) = Df (p∗ (cid:110) qφ||pXZ f (θ, φ) = Df (p∗ (cid:110) qφ||pXZ 0.40
θ ) Furthermore, assuming that pη(x) can represent any R+valued mapping across the choice of η (i.e. in the ideal case where density estimator function has “infinite capacity”), the optimal value η∗ over the supremum term in L∗ is such that pη∗ = p∗, so that we have: θ ) さらに、pη(x) が η の選択にまたがる任意の R+値写像(すなわち密度推定関数が "無限の容量" を持つ理想的な場合)を表現できると仮定すると、L∗ の極大項上の最適値 η∗ は pη∗ = p∗ となるので、従う。 0.57
LM f (θ, φ, η) = LM LM f (θ, φ, η) = LM 0.43
f (θ, φ, η∗) = LV f (θ, φ, η∗) = LV 0.42
f (θ, φ) sup f(θ, φ) すっごい 0.68
η The tool used to derive this inequality—Fenchel-Young— is the same as in the f-GAN work [7], and originates as a variational characterization of a f-divergence [9]. η この不等式 (fenchel-young) を導出する道具は f-gan 作品 [7] と同じであり、f-ダイバージェンス [9] の変分的特徴付けとして起源を持つ。 0.54
We will later on describe the connection between f-GAN and our model. 後述するf-GANとモデルとの関係について述べる。 0.76
The crucial difference between our f-GM and previous encoder-decoder GAN architecture is that our model uses Fenchel-Young more “sparingly” by replacing the only unknown term in the target expression (that is, p∗) through the variational bound, instead of the whole expression. F-GM と以前のエンコーダ・デコーダ GAN アーキテクチャとの大きな違いは,Fenchel-Young の表現全体ではなく,対象表現(すなわち p∗) の未知項を変分境界で置き換えることによって,Fenchel-Young をより“まばらに”使用する点にある。 0.74
The optimal η∗ may not exist in practice, the crucial point is that f , and therefore we optimize the LM f quantity LM given by: 最適η∗ は実際には存在しないかもしれないし、重要な点は f であり、従って LM f の量 LM を最適化する。 0.75
f (θ, φ, η) to target the optimal value LM∗ f (θ, φ, η) を最適値LM∗ とする。 0.79
is a lower bound of LV f LVの低い値です f 0.52
LM∗ f = inf θ,φ LM∗ f = inf θ,φ 0.48
sup η LM f (θ, φ, η) すっごい η LM f(θ,φ,η) 0.55
We can now present the algorithm f-GM to train the generative model under the objective LM f by an average, batch size K is a hyperparameter. 平均バッチサイズ K はハイパーパラメータであるので、目的の LM f の下で生成モデルをトレーニングするためにアルゴリズム f-GM を提示できる。 0.76
f . As we approximate LM f.f. LMを近似する 0.48
We present a pseudo-code of our unified model in Algorithm 1. 我々はアルゴリズム1で統一モデルの擬似コードを示す。 0.71
The main input and output of the algorithm is the model itself, represented by the three networks. アルゴリズムの主な入力と出力はモデル自身であり、3つのネットワークで表現される。 0.82
For T iterations, a batch of K pairs of samples (one pair based on the real data and variational latent code, the other originating from the generative model) is computed and transformed into the Monte-Carlo approximation of our quantity of interest LM f . T反復の場合、K対のサンプルのバッチ(実データと変分潜在コードに基づく1対、生成モデルに由来するもう1つのペア)を計算し、我々の興味の量 LM f のモンテカルロ近似に変換する。 0.77
英語(論文から抽出)日本語訳スコア
Algorithm 1 Unified f-divergence generative model algorithm f-GM アルゴリズム1 統一f分割生成モデルアルゴリズムf-GM 0.78
Input: Dataset {X data number of iterations T and batch size K for t = 1 to T do 入力:データセット {x data number of iterations t and batch size k for t = 1 to t do 0.81
}i, initialized networks pXZ 初期化ネットワークpxz 0.43
θ i , qφ, pη, θ 私は ,qφ,pη, 0.46
for k = 1 to K do k = 1 から K に対して 0.90
θ θ k k k k θ θ k k k k 0.71
from the initial dataset. 最初のデータセットから。 0.75
Sample X data Compute qφ(·|X data ) variational distributions, sample k ∼ qφ(·|X data Zdata ) k ∼ pZ Sample Zgen θ . サンプルXデータ Compute qφ(·|X データ ) 変動分布、サンプルk,qφ(·|XデータZdata )k,pZサンプルZgen θ。 0.85
Compute pX|Z (·|Zgen ) generative distribution, sample k ∼ pX|Z (·|Zgen X gen ) end for Compute ˆLM px|z (·|zgen ) 生成分布を計算し、サンプル k を px|z (·|zgen x gen ) で計算する。 0.59
approximation: ) − Monte-Carlo 近似: ) − モンテカルロ 0.51
|X data )qφ(Zdata k (X data ,Zdata |Xデータ )qφ(Zdata k (X data ,Zdata) 0.68
k ) f (θ, φ, η) = (cid:80) (cid:80) θ ← θ − ∇θ ˆLM k f∗(f(cid:48)( pη(X gen k) である。 f (θ, φ, η) = (cid:80) (cid:80) (cid:80) >θ > θ − >θ >LM k f∗(f(cid:48)(pη(X gen) 0.42
φ ← φ − ∇φ ˆLM η ← η + ∇η ˆLM φ ← φ − ∇φ ˆLM η ← η + ∇η ˆLM 0.90
)qφ(Zgen (X gen )qφ(zgen(xgen) 0.43
Update: pXZ アップデート: pXZ 0.57
k f(cid:48)( pη(X data pXZ θ ) )) k f(cid:48)(pη(X data pXZ θ )) 0.47
|X gen k ,Zgen f (θ, φ, η) f (θ, φ, η) f (θ, φ, η) |X gen k ,zgen f (θ, φ, η) f (θ, φ, η) f (θ, φ, η) f (θ, φ, η) 0.45
k ) k k k) である。 k k 0.72
θ k k ) k k θ k k ) k k 0.71
k end for pXZ θ k pXZ θ の終了 0.80
, qφ, pη Then parameters can be updated following standard optimizer such as Adam [10]. , qφ, pη するとパラメータはAdam[10]のような標準オプティマイザに従って更新できる。 0.53
As Proposition II.1 indicates, the optimal value η∗ is independent of θ, φ. 命題 II.1 が示すように、最適値 η∗ はθ, φ とは独立である。 0.68
That is, during training, regardless of the current values of θ, φ defining the generative and variational networks, the updates of η are such that the gradient steps are taken towards the true desired optimum, and does not depend on the generative network which may not be properly trained. すなわち、 θ, φ の現在の値によらず、生成的および変動的ネットワークを定義する場合、η の更新は、勾配ステップが真の望ましい最適方向へ向けられ、適切に訓練されない生成的ネットワークに依存しない。
訳抜け防止モード: つまり、トレーニング中、θの現在の値に関係なく。 生成的および変動的ネットワークを定義するφ、ηの更新はそのようなものである 勾配のステップは 真に望ましい最適方向に向けられます 適切に訓練されていない生成ネットワークに依存しない。
0.76
Our algorithm requires an additional property: qφ and pX|Z are chosen such that we can compute the gradients with respect to the parameters θ, φ in the Monte-Carlo approximation of f (θ, φ, η). q φ と px|z は f (θ, φ, η) のモンテカルロ近似におけるパラメータ θ, φ に対する勾配を計算するために選択される。
訳抜け防止モード: 我々のアルゴリズムは追加のプロパティを必要とする qφ と pX|Z はパラメータ θ に対して勾配を計算することができるように選択される。 モンテのφ - f ( θ, φ, η ) のカルロ近似。
0.79
This is a standard property due to the dependence LM in the parameters of the samples as they are generated. これは、サンプルが生成される際のパラメータの依存性LMによる標準特性である。 0.73
We assume that the generative model pX|Z and the variational family qφ are designed using methods involving normalizing flows [11; 12] or other variants of the reparametrization trick [13; 1] and allow for such gradient computations. 生成モデル px|z と変分系 qφ は、再パラメータ化トリック [13; 1] の正規化流 [11; 12] や他の変種を含む手法を用いて設計され、そのような勾配計算が可能と仮定する。 0.69
θ θ Setting aside issues related to the training process, θ θ トレーニングプロセスに関する問題の設定。 0.47
the optimal solution to the optimization problem is exactly what we hope for and is identifiable. 最適化問題の最適解は まさに我々が期待しているもので 特定できるものです 0.78
Proposition II.2. Assuming that pη(x), qφ(z|x) and pθ(x|z) can represent any R+-valued mapping (i.e. in the ideal case where networks have “infinite capacity”), the optimal values Z p(z)pθ∗ (x|z)dz = p∗ and qφ∗ (z|x) = pθ∗ (z|x). 第2話。 pη(x)、qφ(z|x)、pθ(x|z) が任意の R+ 値写像(すなわち、ネットワークが「無限の容量」を持つ理想的な場合)を表現できると仮定すると、最適値 Zp(z)pθ∗ (x|z)dz = p∗ と qφ∗ (z|x) = pθ∗ (z|x) が成り立つ。 0.55
η∗, φ∗, θ∗ are such that pη∗ =(cid:82) η∗, φ∗, θ∗ は pη∗ = (cid:82) である。 0.76
All three networks of our new objective are useful by f has the nice property that all the networks themselves. すべて 新しい目的の3つのネットワークは fが役に立ちます 全てのネットワーク自体に 良い特性があります 0.79
LM introduced are of interest and not just mere auxiliary tools to help with the training process. 導入されたlmは興味深く、単なるトレーニングプロセスを支援する補助ツールではない。 0.68
When the optimization in f-GM works well, the three corresponding trained networks f-GMの最適化がうまくいったとき、対応する3つのトレーニングネットワーク 0.72
solve each of the following three important problems: 以下の3つの重要な問題を解決します 0.78
θ θ z pXZ (cid:80) θ θ z pXZ (cid:80) 0.42
(x, z) is equal to p∗(x). (x, z) は p∗(x) に等しい。 0.74
• Parameter Estimation / Sampling: The generative network pXZ (x, z) is such that we can generate samples from the true distribution p∗ by ancestral sampling. •パラメータ推定/サンプリング: 生成ネットワーク pXZ (x, z) は、祖先サンプリングにより真の分布 p∗ からサンプルを生成することができる。 0.85
The marginal over X of the generative distribution pX θ (x) = • Inference: The variational network qφ(z|x) recovers a latent code for a given observed sample, which corresponds to pZ|X θ (x) (posterior generative distribution). 生成分布 px θ (x) = • 推論: 変分ネットワーク qφ(z|x) は、与えられた観測サンプルの潜在コードを回復し、pz|x θ (x) (posterior generative distribution) に対応する。
訳抜け防止モード: 生成分布 px θ ( x ) = • 推論の限界オーバーx : 変分ネットワーク qφ(z|x ) は与えられた観測サンプルに対して潜在コードを復元する。 これは pz|x θ ( x ) (後生成分布 ) に対応する。
0.86
• Density Estimation: The density estimator network pη approximates the true density function p∗. • 密度推定: 密度推定ネットワーク pη は真の密度関数 p∗ を近似する。 0.87
It can evaluate the likelihood of an arbitrary point and complements the generative network. 任意の点の可能性を評価し、生成ネットワークを補完することができる。 0.75
(z|x) = pXZ (z|x) = pXZ 0.44
(x, z)/pX θ (x, z)/pX θ 0.46
θ Other models are also able to solve several of these goals, such as reversible generative models [14]. θ 他のモデルは、可逆生成モデル[14]など、これらの目標のいくつかを解決できる。 0.64
Flow networks that directly map the latent space Z to X through an invertible function also solve the above problems [15; 12; 11]. 潜在空間 z を可逆関数を通して x に直接写像するフローネットワークは、上記の問題 [15; 12; 11] も解決する。 0.81
However, all these models can not be applied to generative models where we know the generative process has a given pre-defined structure based on prior biological or physical knowledge. しかし、これら全てのモデルは、生成過程が事前の生物学的または物理的知識に基づいて所定の事前定義された構造を持つことが分かっている生成モデルには適用できない。 0.65
III. RECOVERING PREVIOUS F-DIVERGENCE GENERATIVE III。 先行f-divergence生成能の回復 0.55
MODELS FROM F-GM We now show how our model encapsulates the two main families of f-divergence based generative models. F-GMモデル 現在、我々のモデルはf分割に基づく生成モデルの2つの主要なファミリーをカプセル化している。 0.68
The following simplifications are not based on interpolations of optimization objectives nor on concatenation of generative models on top of another as in [16; 17; 18]. 以下の単純化は、最適化目的の補間や、[16; 17; 18]のように、他の生成モデルの連結に基づくものではない。 0.77
Our model does not generalize other generative models that take into account the geometry of the space X , such as models based on an optimal transport distance [19]. 我々のモデルは、最適輸送距離 [19] に基づくモデルのような空間 X の幾何学を考慮に入れた他の生成モデルを一般化しない。 0.87
a) Simplification Into Auto-encoder: The KL-divergence Case And Fenchel-Young Equality: As previously mentioned, the KL-VAE is a particular case of the f-VAE. a) オートエンコーダへの単純化: KL分割事例とフェンシェルヤング平等: 前述したように、KL-VAEはf-VAEの特別なケースである。 0.74
Whenever we choose fKL as the f-divergence function, our objective LM fKL simplifies directly into an optimization objective equivalent to that of the KL-VAE. f-分割関数として fKL を選択すると、目的の LM fKL は KL-VAE と同等の最適化目的へと直接単純化される。 0.71
Proposition III.1. Given our objective LM KL-VAE objective LV 命題III.1。 LM KL-VAE目標LVについて 0.52
f (θ, φ, η) and the (θ, φ), we have the following identity: f (θ, φ, η) と (θ, φ) は、次の同一性を持つ。 0.73
fKL LM fKL fKL LM fKL 0.43
(θ, φ, η) = LV (θ,φ,η)=LV 0.38
fKL (θ, φ) − KL(p∗||pη) fKL (θ,φ)-KL(p∗||pη) 0.44
fKL Our LM fKL 私たちのLM 0.46
introduces a new network pη, thus becoming a . 新しいネットワーク pη を導入して .NET になる。 0.71
This proposition lower bound of the KL-VAE target LV shows that for the specific choice of fKL, the step that introduces pη can be ignored. KL-VAE ターゲット LV のこの命題は、fKL の特定の選択に対して、pη を導入するステップを無視できることを示している。 0.67
The update steps over θ, φ are the same ones as in KL-VAE, the terms depending on η and those depending on θ, φ decouple. θ, φ の更新ステップは kl-vae と同じであり、η に依存する項と θ, φ に依存する項である。 0.67
This suggests a fundamental reason why one can train the KL-VAE objective but it’s hard これはKL-VAEの目標を訓練できる根本的な理由を示唆するが、それは難しい 0.77
fKL fKL 0.43
英語(論文から抽出)日本語訳スコア
fKL LV fKL fKL LV fKL 0.43
we get: (θ, η) = KL(p∗ (cid:110) qφ||pθ) (θ, η) = kl(p∗ (cid:110) qφ||pθ) となる。 0.71
(cid:20) =E(X,Z)∼p∗(cid:110)qφ =EX∼p∗ [log p∗(X)]−E(X,Z)∼p∗(cid:110)qφ (cid:20) =E(X,Z)-p∗(cid:110)qφ =EX(p∗ [log p∗(X)]−E(X,Z)-p∗(cid:110)qφ 0.40
pθ(X, Z) log pθ(X, Z) ログ 0.60
p∗ (cid:110) qφ(X, Z) p∗ (cid:110) qφ(X, Z) 0.43
(cid:21) (cid:20) (出典:21)(出典:20) 0.61
(cid:21) log (出典:21) ログ 0.70
pθ(X, Z) qφ(Z|X) pθ(X, Z) qφ(Z|X) 0.86
to directly optimize f-VAE. f-VAEを直接最適化する。 0.61
If we expand the expression for LV LV の表現を拡大すれば 0.73
For this particular choice of divergence, the evaluation of p∗ is again decoupled from the terms containing the parameters, therefore the usual VAE LV can be trained, unlike the f . この発散の選択のために、p∗ の評価はパラメータを含む項から再び分離されるので、通常の VAE LV は f とは異なり訓練することができる。 0.77
general form LV For general f-divergence functions, our model simplifies into the f-VAE whenever the density estimator attains the optimal value in the Fenchel-Young inequality, as shown in Proposition II.1. 一般形LV 一般の f-分割関数に対しては、密度推定器がフェンシェル・ヤング不等式で最適値に達すると、このモデルは f-VAE に単純化される。 0.70
Therefore, f-VAE is encapsulated in our model, as optimizing LV f (θ, φ) is exactly equivalent to opf (θ, φ, η∗) under a perfect choice of timizing our model LM parameter values for the density estimator network. したがって、LV f (θ, φ) の最適化は、密度推定器ネットワークに対するモデルLMパラメータ値を最適化する完璧な選択の下で、opf (θ, φ, η∗) と正確に等価である。 0.78
fKL b) Simplification Into Adversarial Networks: Our f-GM and the f-GAN [7] both use a network to replace an intractable or unknown term—p∗ for us or the likelihood ratio for fGAN—through a variational expression. fKL b) 敵ネットワークへの単純化:我々のf-GMとf-GAN [7]はどちらも、難解な項や未知の項を置き換えるためにネットワークを使用します。 0.55
Our model contains f-GAN model as a particular case, which we show next. 我々のモデルは、f-GANモデルを特定のケースとして含み、次に示す。 0.68
Instead of considering the f-divergence in the joint model Df (p∗ (cid:110) qφ||pXZ ), the f-GAN wants to minimize the fdivergence between the marginal distributions Df (p∗||pX θ ). 合同モデル Df (p∗ (cid:110) qφ||pXZ ) の f-分割を考える代わりに、f-GAN は Df (p∗||pX θ ) の辺分布の間の分数の最小化を図っている。
訳抜け防止モード: ジョイントモデル Df (p∗ ( cid:110 ) qφ||pXZ ) における f の発散を考える代わりに f - GAN の望み 辺分布 Df (p∗||pX θ ) 間の偏差を最小化する。
0.70
This expression is defined by an expectation in terms of p∗, pX θ , which can not be evaluated. この式は p∗, px θ の項による期待によって定義されるが、評価はできない。 0.75
The f-GAN derives a lower bound based on the same Fenchel-Young inequality as in our model, that is subsequently maximized to give a proxy of the target Df (p∗||pX θ ). f-GAN は Fenchel-Young の不等式に基づいて下界を導出し、これは Df (p∗||pX θ ) のプロキシを与えるために最大化される。 0.68
Such proxy is then minimized over the generative parameters. このようなプロキシは生成パラメータ上で最小化される。 0.66
Introducing a discriminator network Tλ(x), let LG f (θ, λ) be the f-GAN optimization objective defined as follows and satisfying the following inequality: 判別器ネットワーク Tλ(x) を導入し、LG f (θ, λ) を f-GAN 最適化の目的とし、以下の不等式を満たす。 0.76
θ f (θ, λ) =EX∼p∗(cid:2)Tλ(X)(cid:3) − EX∼pX (cid:19)(cid:105) θ f (θ, λ) =EX(p∗(cid:2)Tλ(X)(cid:3) − EX(cid:19)(cid:105) 0.40
(cid:18) p∗(X) (出典:18)p∗(X) 0.84
(cid:104) θ (cid:104) θ 0.41
(cid:2)f∗(Tλ(X))(cid:3) (cid:2)f∗(Tλ(X))(cid:3) 0.43
LG ≤EX∼pX θ LG ≤EX-pX θ 0.35
f pX θ (X) f pX θ (X) 0.43
= Df (p∗||pX θ ) value LG∗ Df (p∗||pX θ ) = LG∗ 0.42
(1) a is f (θ, λ) (1) あ は f (θ, λ) 0.52
optimal the LG f-GAN targets 最適な LGは f-GAN ターゲット 0.68
The the = f tractable f (θ, λ), where inf θ supλ LG lower bound of Df (p∗||pX θ ), which is first maximized over λ. f = tractable f (θ, λ) ここで、f θ supλ LG の Df (p∗||pX θ ) の下界は λ 上で最初に最大化される。 0.88
We now see how our model simplifies into the f-GAN. 現在、我々のモデルは f-GAN に単純化されている。 0.60
Assuming that for any given generative network pθ there is an optimal value φ∗ such that the corresponding variational network qφ∗ perfectly matches the posterior distribution pZ|X (z|x) associated with the generative network (i.e. qφ θ has “infinite capacity”), the following simplification occurs: Proposition III.2. 任意の生成ネットワーク pθ に対して、対応する変分ネットワーク qφ∗ が生成ネットワークに関連する後続分布 pz|x (z|x) に完全一致するような最適値 φ∗ が存在すると仮定する(つまり、q φ θ は「無限容量」を持つ)。 0.82
Let φ∗ = φ∗(θ) be the optimal value such that qφ∗ (z|x) = pZ|X (z|x). φ∗ = φ∗(θ) を q φ∗ (z|x) = pz|x (z|x) を満たす最適値とする。 0.80
Then θ f (θ, φ∗, η) = LG LM このとき θ f (θ, φ∗, η) = LG LM 0.81
by associating the term f(cid:48)(cid:0) p∗(x) f(cid:48)(cid:0) p∗(x)という用語を関連付けることで 0.69
f (θ, η) f (複数形 fs) 0.60
(cid:1) to the discriminator Tλ. (cid:1) を判別器 tλ へ送る。 0.54
Our model can therefore be simplified into a f-GAN したがって、我々のモデルはf-GANに単純化できる 0.68
pX θ (x) Note that our assumption about φ∗ is equivalent to assuming that we have access to the posterior generative distribution (and, equivalently, to the marginal pX θ ). pX θ (x) φ∗ に関する我々の仮定は、後続生成分布(および、同じ意味で、辺 px θ )へのアクセスがあるという仮定と等価である。 0.54
The purpose of these derivations is to show the theoretical equivalence of solving the f-GAN problem and solving ours under the ideal choice of parameters, to prove how our model encapsulates f-GAN. これらの導出の目的は、f-GAN問題の解法とパラメータの理想的な選択の下での解法の理論的等価性を示し、我々のモデルがf-GANをカプセル化する方法を証明することである。 0.65
There is one important difference with respect to the previous paragraph: given that we can not swap the terms inf φ and supη in the optimization objective of LM f (θ, φ, η), we get that the optimal φ∗ for which the previous simplification of our model into f-VAE is not arg minφ LM f (θ, φ, η). lm f (θ, φ, η) の最適化目的において inf φ と supη の項を交換できないと仮定すると、前述したモデルの f-vae への単純化が arg min φ lm f (θ, φ, η) ではないような最適 φ∗ が得られる。 0.72
We do not attain such φ∗ by freezing the other parameters and minimizing over φ. そのような φ∗ は、他のパラメータを凍結して φ 上の最小化することでは達成できない。 0.55
IV. EXPERIMENTS a) Experiments On MNIST And Fashion-MNIST: We implemented f-GM and fit it with two different f-divergence functions to illustrate the flexibility of our model and the importance of an appropriate choice of f. IV。 実験 a) MNISTとFashion-MNISTの実験:我々はf-GMを実装し、モデルの柔軟性とfの適切な選択の重要性を説明するために2つの異なるf-分枝関数に適合させた。 0.54
We run experiments to compare the Kullback-Leibler divergence and the JensenShannon divergence. kullback-leibler divergence と jensenshannon divergence の比較実験を行った。 0.72
GANs based on Jensen-Shannon (JS) divergence are known to suffer mode collapse, whereas the VAE, based on Kullback-Leibler (KL), usually outputs noisy images. Jensen-Shannon(JS)の発散に基づくGANはモード崩壊に悩まされることが知られているが、Kulback-Leibler(KL)に基づくVAEは通常ノイズの多い画像を出力する。 0.67
We validate it with experiments on MNIST and Fashion-MNIST [20; 21]. MNIST と Fashion-MNIST [20; 21] の実験で検証した。 0.78
For MNIST, f-GM with JS outputs only two distinct sharp digits, in a clear case of mode collapse (Top two rows in upper Figure 1). MNIST の場合、JS を持つ f-GM はモード崩壊の明確な場合(図 1 の 2 行の上位)に2つの異なるシャープ桁しか出力しない。 0.71
Similarly, for Fashion-MNIST, the JS version of fGM outputs two or three different (among 10) types of clothing, with very sharp images (Top two rows in lower Figure 1). 同様に、Fashion-MNIST の場合、fGM の JS バージョンでは、非常にシャープな画像(図 1 の 2 行)で、2 または 3 種類の服を出力する。 0.72
Conversely, when using f-GM with KL, all the elements of the dataset are represented in the generated samples. 逆に、f-GMをKLで使用する場合、データセットのすべての要素は生成されたサンプルで表現される。 0.66
However, the digits in MNIST are fuzzier, as well as the clothes images in Fashion-MNIST (bottom two rows in upper and lower Figure 1 respectively). しかし、MNISTの数字はファジィジィであり、Fashion-MNIST(上図1と下図1の2列)の衣服画像である。 0.61
While similar phenomenon has been discussed in other models, f-GM makes it easy to explore the trade-offs from different choices of f in the same framework. 他のモデルでは同様の現象が議論されているが、f-GMは同じフレームワークで異なる f の選択からトレードオフを簡単に探索することができる。 0.69
b) Diagnosing Mode Collapse Through The Evaluation Of The Density Estimator On The Real Dataset: f-GM has the nice capability of self-diagnosing during training in order to detect mode collapse. b) 密度推定器の評価によるモード崩壊: 実データセット: f-GMは、モード崩壊を検出するために、トレーニング中に自己診断の優れた能力を有する。 0.81
We illustrate this with an example based on mode collapse on a mixture of Gaussians, which has received widespread attention [22; 6; 23]. 我々はこれをガウスの混成体におけるモード崩壊に基づく例で説明するが、これは広く注目されている[22; 6; 23]。 0.73
By using the Jensen-Shannon divergence in our model, at some point during training on a well separated mixture of Gaussians the generator focuses on one mode of the true distribution (Figure 2(b)). 我々のモデルではジェンセン=シャノンの発散を用いて、ガウスの十分に分離された混合物の訓練中に、生成器は真の分布の1つのモードに焦点を当てる(図2(b))。 0.68
V. COMPARISON TO RELATED WORKS AND DISCUSSION a) Comparison To Related Works: f-GM has several key differences and advantages compared to the existing deep generative models. V. 関連作業と分散 a) 関連作業の比較: f-GMは、既存の深部生成モデルと比較して、いくつかの重要な違いと利点がある。 0.67
First, by Prop. II.1, the objective of our and p∗ (cid:110) qφ in method is to match the joint models pXZ f-divergence. まず、Prop。 ii.1 手法における我々の p∗ (cid:110) qφ の目的は、結合モデル pxz f-divergence に一致することである。
訳抜け防止モード: まず、Prop。 II.1 方法における p∗ ( cid:110 ) qφ の目的は ジョイントモデル pXZ f に適合する。
0.68
We are not matching marginals only in the X space as the f-GAN does, nor we are using different losses for different sections of the model [24; 25; 26]. 我々は f-GAN のように X 空間でのみマーサルに一致するのではなく、モデル [24; 25; 26] の異なるセクションに対して異なる損失を使用する。 0.81
Similar to the BiGAN/ALI models [4; 3], we use the Fenchel-Young inequality to approximate the f-divergence over the joint BiGAN/ALI モデル [4; 3] と同様に、Fenchel-Young の不等式を用いて関節上の f-発散を近似する。 0.64
θ θ 0.42
英語(論文から抽出)日本語訳スコア
Fig. 1: Comparison on MNIST (top) and Fashion-MNIST (bottom) between f-GM with Kullback-Leibler and JensenShannon divergences. 図1:f-GMとKullback-LeiblerとJensenShannonの相違によるMNIST(トップ)とFashion-MNIST(ボトム)の比較 0.75
First two rows of each block show a random selection of outputs from a generator trained with our model and the Jensen-Shannon divergence. 各ブロックの最初の2行は、我々のモデルとJensen-Shannon分散で訓練されたジェネレータからのランダムな出力の選択を示す。 0.69
Bottom two rows show the outputs when our model is trained the Kullback-Leibler divergence. ボトム2行は、我々のモデルがKullback-Leibler分散を訓練されたときに出力を示す。 0.54
get that Tλ∗ (X) = f(cid:48)(cid:0) p∗(X) tλ∗ (x) = f(cid:48)(cid:0) p∗(x) とする。 0.72
pX θ (X) BiGAN/ALI. pX θ (X) BiGAN/ALI 0.41
If we focus on the value at which equality is attained in Fenchel-Young for f-GAN, and whenever θ = θ∗ is such that pθ∗ = p∗ —i.e. perfect training of the generator—we f-GAN に対して Fenchel-Young で等式が達成される値にフォーカスすると、θ = θ∗ が pθ∗ = p∗ となるとき、すなわち、生成元を完璧に訓練する。 0.74
(cid:1) is a constant. (cid:1) は定数である。 0.70
More generally, a adversarial network that targets a density ratio [27] is such that the optimal value of the discriminator is of little value. 一般的には 密度比[27]を対象とする逆ネットワークは、判別器の最適値を少ない値とする。 0.65
In contrast, equality is attained in Fenchel-Young in our model whenever pη∗ = p∗, which is of interest by itself as a density estimator. 対照的に、fenchel-Young では pη∗ = p∗ であるときに等式が得られ、これは密度推定器としてそれ自体が興味を持つ。 0.52
Moreover, the optimal parameter η∗ in our model does not depend on the values of the other parameters θ, φ. さらに、我々のモデルにおける最適パラメータ η∗ は他のパラメータ θ, φ の値に依存しない。 0.89
f (θ, φ, η) does not depend on θ, φ, unlike That is, arg maxη LM f (θ, λ) which depends on θ. f (θ, φ, η) は θ, φ に依存しないが、arg maxη LM f (θ, λ) は θ に依存している。 0.81
That means that arg maxλ LG regardless of the value of θ, optimizing the parameter η in our unified model always yields the same result, that is, pη∗ = p∗. つまり、arg maxλ LG は θ の値によらず、我々の統一モデルにおけるパラメータ η を最適化すると、常に同じ結果、すなわち pη∗ = p∗ が得られる。
訳抜け防止モード: つまり、arg maxλ LG は θ の値に関係なく成り立つ。 統一モデルにおけるパラメータηの最適化 常に同じ結果 , すなわち , pη∗ = p∗ を得る。
0.85
Our construction disentangles the generative and variational model from pη, so that during training the updates in η are somehow independent of the other parameters. 我々の構成はpηから生成モデルと変分モデルを切り離しており、訓練中、ηの更新は他のパラメータとは何か独立している。 0.66
Fig. 2: Samples from true distribution (red) and from generated distribution (blue) at four different epochs, showing mode collapse of the generator when trained with Jensen-Shannon. 図2: 真の分布(赤)と生成された分布(青)を4つの異なるエポックで示し、ジェンセン・シャノンの訓練で発電機のモード崩壊を示す。 0.77
distributions, but instead of substituting the whole likelihood ratio by an auxiliary term, we replace p∗, the one term we do not have access to, and keep the terms qφ and pXZ in the expectation. 分布は、しかし、全可能性比を補助項で置換する代わりに、我々がアクセスできない一項 p∗ を置き換え、項 qφ と pxz を期待値に保ちます。
訳抜け防止モード: 分布ではなく 補助的な用語で全可能性比率を置換すること 我々は p∗ を置き換えます アクセスできない1つの用語です そして、qφ と pXZ の項を期待通りに保つ。
0.79
By reusing the generative and variational models, the new “discriminative” network—that is, our density estimator pη—is only a mapping over X instead of a mapping over X × Z, providing savings in terms of parameters w.r.t. 生成モデルと変分モデルの再使用により、新しい「差別的」ネットワーク、すなわち密度推定ネットワーク pη は x × z 上の写像ではなく x 上の写像であり、パラメータ w.r.t の観点で節約できる。 0.68
θ b) Conclusion: Beyond providing a unified mathematical framework for f-GAN and VAE, which is worthwhile, there are several practical applications of our f-GM framework. θ b) 結論: f-GAN と VAE の統一的な数学的フレームワークを提供する以外に,f-GM フレームワークの実用的応用はいくつかある。 0.60
First, f-GM allows the researcher to try different divergence functions f, and optimize the model using the same optimization method in Algorithm 1. まず、f-GMにより、研究者は異なる発散関数fを試すことができ、アルゴリズム1で同じ最適化手法を用いてモデルを最適化することができる。
訳抜け防止モード: まず、f - GM は研究者が異なる発散関数 f, アルゴリズム1で同じ最適化手法を使ってモデルを最適化する。
0.81
This allows one to directly compare the trade-offs between different choices of f—e g the trade-off between mode-collapse and sharpness demonstrated in Figure 1—which is of great interest to the community. これにより、fの異なる選択(例えば、図1で示されるモード崩壊とシャープネスの間のトレードオフ)間のトレードオフを直接比較することができます。 0.69
A second application is that the density estimator network of fGM is useful to detect mode collapse by visualizing how the likelihood of the observed data changes during training. 第2の応用として、fgmの密度推定ネットワークは、トレーニング中に観測されたデータの可能性がどのように変化するかを可視化することで、モード崩壊を検出するのに有用である。
訳抜け防止モード: 第2の応用は、fGMの密度推定器ネットワークがモード崩壊を検出するのに有用であることである。 トレーニング中に観測データがどのように変化するかを可視化する。
0.63
Jensen-ShannonKullba ck-LeiblerJensen-Sha nnonKullback-Leibler −6−4−20246Epoch 0True samplesGenerated samplesEpoch 40−5.0−2.50.02.55.0−6−4−20246Epoch 230−5.0−2.50.02.55.0Epoch 400 jensen-shannonkullba ck-leiblerjensen-sha nnonkullback-leibler −6−4−20246epoch 0true サンプル生成40−5.0−2.50.02.55.0−6−4−20246epoch 230−5.0−2.50.02.55.0epoch 400 0.07
英語(論文から抽出)日本語訳スコア
REFERENCES [1] Diederik P Kingma and Max Welling. 参考 ジデリック・P・キングマとマックス・ウェリング。 0.50
Auto-encoding variational bayes. 自動エンコーディング変分ベイズ。 0.67
arXiv preprint arXiv:1312.6114, 2013. arxiv プレプリント arxiv:1312.6114, 2013 0.41
[2] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio
訳抜け防止モード: Ian Goodfellow, Jean Pouget - Abadie, Mehdi Mirza, Bing Xu, David Warde - Farley, Sherjil Ozair, Aaron Courville ヨシュア・ベンジオ(Yoshua Bengio)。
0.41
Generative adversarial nets. In Advances in neural information processing systems, pages 2672–2680, 2014. 敵ネットの生成。 ニューラル・インフォメーション・プロセッシング・システムにおける進歩2672-2680, 2014ページ 0.64
[3] Jeff Donahue, Philipp Kr¨ahenb¨uhl, and Trevor DararXiv preprint [3]ジェフ・ドナヒュー、フィリップ・kr・アーヘンプ・ショルル、トレヴァー・ダラルキウスのプレプリント 0.48
feature learning. rell. arXiv:1605.09782, 2016. 機能学習。 レイル arXiv:1605.09782, 2016 0.46
Adversarial [4] Vincent Dumoulin, Ishmael Belghazi, Ben Poole, Olivier Mastropietro, Alex Lamb, Martin Arjovsky, and Aaron arXiv Courville. 反対 4]Vincent Dumoulin氏、Ishmael Belghazi氏、Ben Poole氏、Olivier Mastropietro氏、Alex Lamb氏、Martin Arjovsky氏、Aaron arXiv Courville氏。
訳抜け防止モード: 反対 4]vincent dumoulin, ishmael belghazi, ben poole, オリヴィエ・マストロピエトロ(olivier mastropietro)、アレックス・ラム(alex lamb)、マーティン・アージョフスキー(martin arjovsky)、アーロン・クールヴィル(aaron arxiv courville)。
0.37
preprint arXiv:1606.00704, 2016. arXiv:1606.00704, 2016 0.37
Adversarially learned inference. 逆算は推論を学習する。 0.43
[5] Sanjeev Arora, Andrej Risteski, and Yi Zhang. 5]Sanjeev Arora,Andrej Risteski,Yi Zhang。 0.29
Do gans learn the distribution? ganは分布を学んでいるか? 0.67
some theory and empirics. 2018. 幾らかの理論と経験 2018. 0.60
[6] Luke Metz, Ben Poole, David Pfau, and Jascha SohlDickstein. Luke Metz氏、Ben Poole氏、David Pfau氏、Jascha SohlDickstein氏。 0.35
Unrolled generative adversarial networks. 生成的敵ネットワーク。 0.62
arXiv preprint arXiv:1611.02163, 2016. arxiv プレプリント arxiv:1611.02163, 2016 0.42
[7] Sebastian Nowozin, Botond Cseke, and Ryota Tomioka. [7]セバスティアン・ノヨジン、ボトンド・チェーク、そして富岡良太。 0.48
f-gan: Training generative neural samplers using variaIn Advances in neural tional divergence minimization. f-gan: VariaInを用いた生成型ニューラルサンプリングのトレーニング ニューラル・オンタル・ダイバージェンス最小化における進歩。 0.57
information processing systems, pages 271–279, 2016. 情報処理システム』271-279頁、2016年。 0.76
[8] Mingtian Zhang, Thomas Bird, Raza Habib, Tianlin Xu, and David Barber. Mingtian Zhang氏、Thomas Bird氏、Raza Habib氏、Tianlin Xu氏、David Barber氏。 0.66
Training generative latent models by variational f-divergence minimization. 変動f偏差最小化による生成潜在モデルの訓練 0.72
2018. [9] XuanLong Nguyen, Martin J Wainwright, and Michael I Jordan. 2018. 9]XuanLong Nguyen、Martin J Wainwright、Michael I Jordan。 0.38
Estimating divergence functionals and the likelihood ratio by convex risk minimization. 凸リスク最小化による発散関数と可能性比の推定 0.83
IEEE Transactions on Information Theory, 56(11):5847–5861, 2010. ieee transactions on information theory, 56(11)5847-5861, 2010 を参照。 0.67
[10] Diederik P Kingma and Jimmy Ba. ジデリック・P・キングマとジミー・バ 0.44
Adam: A method for stochastic optimization. Adam: 確率最適化の方法です。 0.69
arXiv preprint arXiv:1412.6980, 2014. arxiv プレプリント arxiv:1412.6980, 2014 0.42
[11] Laurent Dinh, Jascha Sohl-Dickstein, and Samy Bengio. 11] ローラン・ディン、ジャシャ・ソル=ディックスタイン、サミー・ベンジオ。 0.41
Density estimation using real nvp. 実nvpを用いた密度推定 0.85
arXiv preprint arXiv:1605.08803, 2016. arXiv preprint arXiv:1605.08803, 2016 0.40
[12] Danilo Jimenez Rezende and Shakir Mohamed. 12] Danilo Jimenez Rezende と Shakir Mohamed。 0.72
Variational inference with normalizing flows. 正規化流れによる変分推論 0.69
arXiv preprint arXiv:1505.05770, 2015. arxiv プレプリント arxiv:1505.05770, 2015 0.41
[13] Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra. 13] Danilo Jimenez Rezende, Shakir Mohamed, Daan Wierstra 0.29
Stochastic backpropagation and approximate arXiv preprint inference in deep generative models. 深部生成モデルにおける確率的バックプロパゲーションと近似arxivプレプリント推論 0.63
arXiv:1401.4082, 2014. 2014年、arxiv:1401.4082。 0.37
[14] Durk P Kingma and Prafulla Dhariwal. 14] durk p kingma と prafulla dhariwal です。 0.68
Glow: Generative In Advances in flow with invertible 1x1 convolutions. Glow: 逆1x1畳み込みによるフローの進化。 0.64
Neural Information Processing Systems, pages 10215– 10224, 2018. 神経情報処理システム、2018年10215-10224頁。 0.69
[15] Laurent Dinh, David Krueger, and Yoshua Bengio. 15] ローラン・ディン、デヴィッド・クルーガー、ヨシュア・ベンジオ 0.46
Nice: Non-linear independent components estimation. nice: 非線形独立成分推定。 0.80
arXiv preprint arXiv:1410.8516, 2014. arxiv プレプリント arxiv:1410.8516, 2014 0.41
[16] Lars Mescheder, Sebastian Nowozin, and Andreas Geiger. Lars Mescheder氏、Sebastian Nowozin氏、Andreas Geiger氏。 0.62
Adversarial variational bayes: Unifying variational autoencoders and generative adversarial networks. 逆変分ベイズ:変分オートエンコーダと生成逆数ネットワークを統一する。 0.63
In Proceedings of the 34th International Conference on 第34回国際会議の開催にあたって 0.81
Machine Learning-Volume 70, pages 2391–2400. 機械学習70巻2391-2400頁。 0.68
JMLR. org, 2017. jmlr。 2017年。 0.37
[17] Anders Boesen Lindbo Larsen, Søren Kaae Sønderby, Hugo Larochelle, and Ole Winther. Anders Boesen Lindbo Larsen, Søren Kaae Sønderby, Hugo Larochelle, and Ole Winther。 0.33
Autoencoding bearXiv yond pixels using a learned similarity metric. 学習された類似度メトリックを用いた bearxiv yond ピクセルの自動エンコーディング。 0.58
preprint arXiv:1512.09300, 2015. arXiv:1512.09300, 2015 0.37
[18] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, and Pieter Abbeel. [18]Xi Chen、Yan Duan、Rein Houthooft、John Schulman、Ilya Sutskever、Pieter Abbeel。 0.31
Infogan: Interpretable representation learning by information maximizing generative adversarial nets. Infogan: 生成的敵ネットを最大化する情報による解釈可能な表現学習。 0.60
In Advances in neural information processing systems, pages 2172–2180, 2016. ニューラル・インフォメーション・プロセッシング・システムの進歩について、2172-2180頁、2016年。 0.62
[19] Martin Arjovsky, Soumith Chintala, and L´eon Bottou. [19]Martin Arjovsky, Soumith Chintala, L ́eon Bottou 0.36
Wasserstein gan. ワッサーシュタイン・ガン。 0.18
arXiv preprint arXiv:1701.07875, 2017. arxiv プレプリント arxiv:1701.07875, 2017 0.43
[20] Yann LeCun, Corinna Cortes, and CJ Burges. Yann LeCun氏、Corinna Cortes氏、CJ Burges氏。 0.56
Mnist handwritten digit database. Mnist 手書き桁データベース。 0.72
AT&T Labs [Online]. AT&T Labs[オンライン]。 0.76
Available: http://yann. 利用可能: http://yann.com。 0.46
lecun. com/exdb/mnist, 2:18, 2010. ルクーン 2010年2月18日現在。 0.45
[21] Han Xiao, Kashif Rasul, and Roland Vollgraf. 21]ハン・シャオ、カシフ・ラスール、ローランド・ヴォルグラフ 0.36
Fashionmnist: a novel image dataset for benchmarking machine learning algorithms. Fashionmnist: 機械学習アルゴリズムをベンチマークするための新しいイメージデータセット。 0.71
arXiv preprint arXiv:1708.07747, 2017. arxiv プレプリント arxiv:1708.07747, 2017 0.43
[22] Akash Srivastava, Lazar Valkov, Chris Russell, Michael U Gutmann, and Charles Sutton. Akash Srivastava氏、Lazar Valkov氏、Chris Russell氏、Michael U Gutmann氏、Charles Sutton氏。 0.69
Veegan: Reducing mode in gans using implicit variational learning. veegan: 暗黙の変分学習によるganの縮小モード。 0.74
In Advances in Neural Information Processing Systems, pages 3308–3318, 2017. ニューラル・インフォメーション・プロセッシング・システムにおける進歩は、2017年の3308-3318ページである。 0.52
collapse [23] Zinan Lin, Ashish Khetan, Giulia Fanti, and Sewoong Oh. 崩壊 23]ジナン・リン、アッシュッシュ・ケタン、ジュリア・ファンティ、セウォン・オ 0.54
Pacgan: The power of two samples in generative adversarial networks. Pacgan: 生成的敵ネットワークにおける2つのサンプルのパワー。 0.78
In Advances in Neural Information Processing Systems, pages 1498–1507, 2018. ニューラル・インフォメーション・プロセッシング・システムの進歩について、1498–1507頁、2018年。 0.60
[24] Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, Ian Goodfellow, and Brendan Frey. Alireza Makhzani氏、Jonathon Shlens氏、Navdeep Jaitly氏、Ian Goodfellow氏、Brendan Frey氏。 0.33
Adversarial autoencoders. 対訳 オートエンコーダー。 0.51
arXiv preprint arXiv:1511.05644, 2015. arxiv プレプリント arxiv:1511.05644, 2015 0.41
[25] Yuchen Pu, Weiyao Wang, Ricardo Henao, Liqun Chen, Zhe Gan, Chunyuan Li, and Lawrence Carin. 25]ピュー、ワイヤオ・ワン、リカルド・ヘナオ、リクン・チェン、ジー・ガン、チュンユアン・リー、ローレンス・カリン
訳抜け防止モード: 〔25 〕遊舟豊、ワイヤオ・ワン、リカルド・ヘナオ、 Liqun Chen、Zhe Gan、Chunyuan Li、Lawrence Carin。
0.65
Adversarial symmetric variational autoencoder. 逆対称変分オートエンコーダ。 0.69
In Advances in Neural Information Processing Systems, pages 4330–4339, 2017. ニューラル・インフォメーション・プロセッシング・システムにおける進歩は、2017年の4330-4339ページである。 0.54
[26] Shengjia Zhao, Jiaming Song, and Stefano Ermon. [26]Sengjia Zhao、Jeaming Song、Stefano Ermon。 0.30
The information autoencoding family: A lagrangian perspective on latent variable generative models. 情報自動符号化ファミリー:潜在変数生成モデルにおけるラグランジアン的視点 0.81
arXiv preprint arXiv:1806.06514, 2018. arxiv プレプリント arxiv:180656514, 2018 0.42
[27] Masatoshi Uehara, Issei Sato, Masahiro Suzuki, Kotaro Nakayama, and Yutaka Matsuo. 【27】植原正俊、佐藤一誠、鈴木正弘、中山幸太郎、松尾雄孝 0.51
Generative adversarial nets from a density ratio estimation perspective. 密度比推定の観点からの対向ネットの生成 0.75
arXiv preprint arXiv:1610.02920, 2016. arXiv preprint arXiv:1610.02920, 2016 0.40
             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。