論文の概要、ライセンス

# (参考訳) マルジナライズ可能な密度モデル [全文訳有]

Marginalizable Density Models ( http://arxiv.org/abs/2106.04741v1 )

ライセンス: CC BY 4.0
Dar Gilboa, Ari Pakman, Thibault Vatter(参考訳) 深層ネットワークに基づく確率密度モデルは複雑な高次元データセットのモデリングにおいて顕著な成功を収めた。 しかし、カーネル密度推定器とは異なり、現代のニューラルモデルは閉じた形で境界や条件を導き出さない。 本稿では,変数の任意の部分集合の確率,限界,条件に対する閉形式表現を提供する,新しいディープネットワークアーキテクチャであるMarginalizable Density Model Approximator (MDMA)を提案する。 mdmaは各変数の深いスカラー表現を学習し、学習した階層的テンソル分解を扱いやすく表現可能なcdfに結合し、辺数と条件密度を容易に得られる。 例えば、変数の任意の部分集合間の相互情報の推定、条件付き独立性のテストによる因果性の推定、データ計算を必要とせずに欠落したデータによる推論、これらのタスクにおける最先端のモデルよりも優れている。 このモデルはまた、変数数に時間複雑性の対数依存性しか持たない並列化サンプリングを可能にする。

Probability density models based on deep networks have achieved remarkable success in modeling complex high-dimensional datasets. However, unlike kernel density estimators, modern neural models do not yield marginals or conditionals in closed form, as these quantities require the evaluation of seldom tractable integrals. In this work, we present the Marginalizable Density Model Approximator (MDMA), a novel deep network architecture which provides closed form expressions for the probabilities, marginals and conditionals of any subset of the variables. The MDMA learns deep scalar representations for each individual variable and combines them via learned hierarchical tensor decompositions into a tractable yet expressive CDF, from which marginals and conditional densities are easily obtained. We illustrate the advantage of exact marginalizability in several tasks that are out of reach of previous deep network-based density estimation models, such as estimating mutual information between arbitrary subsets of variables, inferring causality by testing for conditional independence, and inference with missing data without the need for data imputation, outperforming state-of-the-art models on these tasks. The model also allows for parallelized sampling with only a logarithmic dependence of the time complexity on the number of variables.
公開日: Tue, 8 Jun 2021 23:54:48 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Marginalizable Density Models マルジナライズ可能な密度モデル 0.64
Dar Gilboa Harvard University ダル・ギルボア ハーバード大学 0.61
dar_gilboa@fas.harva rd.edu dar_gilboa@fas.harva rd.edu 0.47
Ari Pakman Ari Pakman 0.85
Columbia University ari@stat.columbia.ed u コロンビア大学 ari@stat.columbia.ed u 0.64
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L M . t a t s [ 8 ]LM . t a t s [ 0.74
1 v 1 4 7 4 0 1 v 1 4 7 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Thibault Vatter Columbia University チボー・バッター コロンビア大学 0.53
thibault.vatter@colu mbia.edu thibault.vatter@colu mbia.edu 0.59
Abstract Probability density models based on deep networks have achieved remarkable success in modeling complex high-dimensional datasets. 概要 深層ネットワークに基づく確率密度モデルは複雑な高次元データセットのモデリングにおいて顕著な成功を収めた。 0.58
However, unlike kernel density estimators, modern neural models do not yield marginals or conditionals in closed form, as these quantities require the evaluation of seldom tractable integrals. しかし、カーネル密度推定器とは異なり、現代のニューラルモデルは閉じた形で境界や条件を導き出さない。
訳抜け防止モード: しかし、カーネル密度推定器とは異なり、現代のニューラルモデルは閉じた形で限界や条件を与えない。 これらの量には ほとんど抽出不可能な積分の評価が必要です
0.60
In this work, we present the marginalizable density model approximator (MDMA), a novel deep network architecture which provides closed form expressions for the probabilities, marginals and conditionals of any subset of the variables. 本稿では,変数の任意の部分集合の確率,限界,条件について閉じた形式表現を提供する,新しいディープネットワークアーキテクチャであるmarginalizable density model approximator (mdma)を提案する。 0.76
The MDMA learns deep scalar representations for each individual variable and combines them via learned hierarchical tensor decompositions into a tractable yet expressive CDF, from which marginals and conditional densities are easily obtained. mdmaは各変数の深いスカラー表現を学習し、学習した階層的テンソル分解を扱いやすく表現可能なcdfに結合し、辺数と条件密度を容易に得られる。 0.65
We illustrate the advantage of exact marginalizability in several tasks that are out of reach of previous deep network-based density estimation models, such as estimating mutual information between arbitrary subsets of variables, inferring causality by testing for conditional independence, and inference with missing data without the need for data imputation, outperforming state-of-the-art models on these tasks. 例えば、変数の任意の部分集合間の相互情報の推定、条件付き独立性のテストによる因果性の推定、データ計算を必要とせずに欠落したデータによる推論、これらのタスクにおける最先端のモデルよりも優れている。 0.66
The model also allows for parallelized sampling with only a logarithmic dependence of the time complexity on the number of variables. このモデルはまた、変数数に時間複雑性の対数依存性しか持たない並列化サンプリングを可能にする。 0.85
1 Introduction Estimating the joint probability density of a set of random variables is a fundamental task in statistics and machine learning that has witnessed much progress in recent years. 1 はじめに 確率変数の集合の結合確率密度を推定することは統計学と機械学習の基本的な課題であり、近年多くの進歩が見られた。 0.71
While traditional estimators such as histograms [1, 2] and kernel-based methods [3, 4] have appealing theoretical properties and typically perform well in low dimensions, they become computationally impractical above 5-10 dimensions. ヒストグラム [1, 2] やカーネルベースの手法 [3, 4] のような伝統的な推定器は理論的な性質をアピールし、典型的には低次元でよく機能するが、計算上5-10次元以上では実用的ではない。 0.61
Conversely, recent density models based on neural networks [5–10] scale efficiently with the number of random variables, but lack a crucial feature available to traditional methods: the ability to compute probabilities, marginalize over subsets of variables, and evaluate conditionals. 逆に、ニューラルネットワーク [5-10] に基づく最近の密度モデルは、確率を計算し、変数のサブセットを極小化し、条件を評価できるという、従来の手法では重要な特徴を欠いている。 0.68
These tasks require integrals of the estimated density, which are intractable for modern neural density models. これらのタスクは推定密度の積分を必要とするが、現代の神経密度モデルでは難解である。 0.66
Thus, while such operations are central to many applications (e g , inference with missing data, testing for conditional (in)dependence, or performing do-calculus [11]), approaches based on neural networks require estimating separate models whenever marginals or conditionals are needed. したがって、このような操作は、多くのアプリケーション(データ不足の推論、条件付き(in)依存の検証、あるいはdo-calculus[11]の実行など)の中心となるが、ニューラルネットワークに基づくアプローチでは、限界や条件付きが必要となると、別々のモデルを推定する必要がある。 0.68
Alternatively, one could model the cumulative distribution function (CDF), making computing probabilities and marginalization straightforward. あるいは、累積分布関数(CDF)をモデル化して、計算確率と余剰化を簡単にすることができる。 0.74
But evaluating the density requires taking d derivatives of the CDF, which incurs an exponential cost in d for a generic computational graph. しかし、密度を評価するにはcdfのd誘導体を取る必要があり、一般的な計算グラフではdの指数関数的なコストがかかる。 0.63
This observation has made direct CDF modeling traditionally challenging [12]. この観察により、CDFの直接モデリングは伝統的に挑戦した[12]。 0.70
In this work, we present the marginalizable density model approximator (MDMA), a novel deep network architecture preserving most of the expressive power of neural models for density estimation, 本稿では,ニューラルモデルの表現力のほとんどを保存して密度推定を行う,新しいディープネットワークアーキテクチャであるmarginalizable density model approximator (mdma)を提案する。 0.78
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
while providing closed form expressions for the probabilities, marginals and conditionals of any subset of the variables. 確率に対する閉じた形式表現を提供する一方で、変数の任意の部分集合の辺数と条件式を提供する。 0.59
In a nutshell, the MDMA learns many deep scalar representations for each individual variable and combines them using hierarchical tensor decompositions [13, 14] into a tractable multivariate CDF that can be fitted using stochastic gradient descent. 簡単に言うと、MDMAは個々の変数に対して多くの深いスカラー表現を学習し、階層的テンソル分解[13, 14]を用いてそれらを、確率的勾配勾配を用いて適合可能な多変量CDFに結合する。 0.69
Additionally, sampling from MDMA can be parallelized along the input dimension, resulting in a very low space complexity and a time complexity that scales only logarithmically with the number of variables in the problem (as opposed to linearly in naive autoregressive sampling, see below in Section 2). さらに、MDMAからのサンプリングは入力次元に沿って並列化することができ、結果として空間の複雑さが非常に低くなり、問題内の変数の数だけを対数的にスケールする時間的複雑さが生じる(直感的な自己回帰サンプリングとは対照的に、第2節を参照)。 0.68
As could be expected, the architectural choices that allow for easy marginalization take a minor toll in terms of performance. 予想通り、簡単にマージン化できるアーキテクチャの選択には、パフォーマンスの面で小さな負担がかかります。 0.57
Indeed, while competitive, our model admittedly does not beat state-of-the-art models in out-of-sample log-likelihood of high-dimensional datasets. 実際、競争力はあるものの、我々のモデルは高次元データセットの対数検定で最先端のモデルに勝ってはいない。 0.49
On the other hand, it does beat those same models in a task for which the latter are ill-prepared: learning densities from data containing missing values, a common setting in some application areas such as genomics [15, 16]. 一方、後者が未準備のタスクでは、同じモデルに勝っている: 欠落した値を含むデータから密度を学習する、ゲノミクス[15, 16]のようないくつかのアプリケーション領域で一般的な設定である。
訳抜け防止モード: 一方、後者が病気であるタスクで同じモデルを上回っています。 準備 : 欠落値を含むデータから密度を学習することは,ゲノミクス[15,16]のような応用分野において一般的な設定である。
0.79
While our model is able to deal optimally with missing values by evaluating, for every data point, the marginal likelihood over its non-missing values, other models must resort to data imputation. 我々のモデルは、すべてのデータポイントにおいて、欠落しない値に対する限界確率を評価することで、欠落値に最適に対応できるが、他のモデルは、データ計算に頼らなければならない。
訳抜け防止モード: 私たちのモデルは可能ですが 価値の不足に最適に対処する データポイントごとに評価し 欠落した値に対する限界確率は、他のモデルはデータ計算に頼らなければならない。
0.76
Consequently, we significantly outperform state-of-the-art neural density estimators trained using a number of common data imputation strategies. その結果、多くの共通データ計算戦略を用いて訓練された最先端のニューラル密度推定器を著しく上回った。 0.55
We also show MDMA can be used to test for conditional independence, which is useful for discovering the causal structure in graphs, a task on which it outperforms existing methods, and that it enables estimation of mutual information between arbitrary subsets of variables after fitting a single model. また,MDMAは条件付き独立性テストに利用でき,グラフの因果構造を発見するのに有用であること,既存の手法より優れていること,単一モデルに適合した変数の任意の部分集合間の相互情報を推定できることを示す。 0.86
Additionally, we prove that the model class is a universal approximator over the space of absolutely continuous multivariate distributions. さらに、モデルクラスが絶対連続な多変量分布の空間上の普遍近似であることを示す。 0.80
The structure of this paper is as follows. 本論文の構造は以下のとおりである。 0.83
In Section 2 we review related works. 第2節では関連する作品についてレビューする。 0.45
In Section 3 we present our new model and its theoretical properties. 第3節では,新しいモデルとその理論的性質について述べる。 0.73
We present our experimental results in Section 4, and conclude in Section 5. 第4節で実験結果を報告し,第5節で結論する。 0.63
2 Related work Modern approaches to non-parametric density estimation, based on normalizing flows [5–10] (see [17, 18] for recent reviews), model expressive yet invertible functions that transforms a simple (usually uniform or Gaussian) density to the target density. 2関連作品 正規化フロー [5–10] に基づく非パラメトリック密度推定への現代的なアプローチ(最近のレビューでは [17, 18] を参照)は、単純な(通常一様あるいはガウス的な)密度を対象密度に変換するモデル表現的で可逆な関数である。 0.76
Nonetheless, as previously mentioned, such architectures lead to intractable derived quantities such as probabilities, marginals and/or conditional distributions. それでも、前述のように、そのようなアーキテクチャは確率、限界、条件分布などの難解な導出量をもたらす。 0.54
Moreover, many normalizing flow models rely on an autoregressive construction, which makes the cost of generating samples scale linearly with the dimension. さらに、多くの正規化フローモデルは自己回帰構造に依存しており、これによりサンプルの生成コストは次元と線形にスケールする。 0.73
This can be circumvented using inverse autoregressive flows [19], but in this dual case a linear cost is incurred instead in density evaluations and hence in training. これは逆自己回帰流 [19] を用いて回避することができるが、この双対の場合では、密度評価やトレーニングにおいて線形コストが発生する。 0.75
Another solution is training a feed-forward network using the outputs of a trained autoregressive model [20]. もう一つの解決策は、訓練された自己回帰モデル[20]の出力を使用してフィードフォワードネットワークをトレーニングすることである。 0.57
With MDMA, fast inference and sampling is achieved without requiring this distillation procedure. MDMAでは、この蒸留処理を必要とせずに高速な推論とサンプリングが達成される。 0.57
Tensor decompositions [13, 14], which are exploited in this work, have been used in various applications of signal processing, machine learning, computer vision, and more [21–25]. この研究で利用されているテンソル分解[13, 14]は、信号処理、機械学習、コンピュータビジョンなど、様々な用途で使われている。
訳抜け防止モード: この作業で利用されるテンソル分解[13,14]。 信号処理や機械学習の様々な応用で使われてきました コンピュータビジョン、さらに[21–25 ]。
0.69
Recently, such decompositions have been used to speed-up or reduce the number of parameters in existing deep architectures [26–31]. 近年、そのような分解は既存のディープアーキテクチャ [26-31] におけるパラメータの高速化や削減に利用されている。 0.66
In addition to their practical appeal, tensor methods have been widely studied to understand the success of deep neural networks [32–36] その実用性に加えて、深層ニューラルネットワークの成功を理解するためにテンソル法が広く研究されている [32-36]。 0.78
3 Marginalizable Density Models マルジナライズ可能な密度モデル3 0.70
3.1 Notations In the following, we use a capital and lowercase Roman letter (e g , F and f) or Greek letters along with dot above (e g , ϕ and ˙ϕ) to denote respectively absolutely continuous CDFs of arbitrary dimensions and the corresponding densities. 3.1 表記 次の例では、大文字と小文字のローマ文字 (e g , F, f) とギリシア文字 (e g , φ, φ) を使い、それぞれ任意の次元と対応する密度の絶対連続CDFを表す。 0.63
When dealing with multivariate distributions, the marginal or conditional distribution over a subset of variables will be indicated by the argument names (i.e., F (x1|x2, x3) = P [X1 ≤ x1|X2 = x2, X3 = x3]). 多変量分布を扱うとき、変数の部分集合上の極限分布あるいは条件分布は引数名(F (x1|x2, x3) = P [X1 ≤ x1|X2 = x2, X3 = x3])で表される。 0.85
For a positive integer p ∈ N \ 0, let [p] = {1, . 正の整数 p ∈ N \ 0 に対して、[p] = {1, とする。 0.86
. . , p}. Denote the space of absolutely continuous univariate and d-dimensional CDFs respectively by F1 and Fd. . . , p。 絶対連続単変数 CDF と d-次元 CDF はそれぞれ F1 と Fd によって記述される。 0.72
For any F ∈ F1, the density f : R → R+ is f (x) = ∂F (x)/∂x. 任意の F ∈ F1 に対して、密度 f : R → R+ は f (x) = ∂F (x)/∂x である。 0.86
Similarly, for any F ∈ Fd, the density f (x) : Rd → R+ is 同様に、任意の F ∈ Fd に対して、密度 f(x) : Rd → R+ は成り立つ。 0.84
2 2 0.85
英語(論文から抽出)日本語訳スコア
f (x) = ∂dF (x)/∂x1 ··· ∂xd, and Fj(x) = limz→∞ F (z, . f (x) = ∂df (x)/∂x1 ····· ∂xd、fj(x) = limz→∞ f (z, )。 0.78
. . , x, . . . . 、x、x。 . 0.83
. , z) ∈ F1 for j ∈ [d] is the jth marginal distribution. . , z) ∈ F1 for j ∈ [d] は j 番目の辺分布である。 0.84
3.2 The bivariate case For the task of modeling joint distributions of two variables supported on R2, consider a family of univariate CDFs {ϕi,j }i∈[m], j∈[2] with ϕi,j ∈ F1, i.e., the functions ϕi,j : R → [0, 1] satisfy 3.2 双変数の場合 R2 上で支持される 2 つの変数の合同分布をモデル化するタスクに対して、単変量 CDFs {φi,j }i∂[m], j∂[2] の族を φi,j ∈ F1,すなわち函数 φi,j : R → [0, 1] が満足するものとする。 0.81
lim x→−∞ ϕi,j(x) = 0 , lim x→−∞ φi,j(x) = 0 , 0.88
lim x→∞ ϕi,j(x) = 1 , lim x→∞ φi,j(x) = 1 , 0.94
˙ϕi,j(x) = ∂ϕ(x)/∂x ≥ 0 . φi,j(x) = ∂φ(x)/∂x ≥ 0 である。 0.76
satisfying(cid:80)m 満足する(cid:80)m 0.70
These functions are our basic building block, and we model them using a simple neural architecture proposed in [37] and described in Section 3.6. これらの機能は私たちの基本的なビルディングブロックであり、[37]で提案され、セクション3.6で記述された単純なニューラルネットワークアーキテクチャを使ってモデル化します。 0.59
If A is an m × m matrix of nonnegative elements A が非負の元の m × m 行列であれば 0.82
i,j=1 Ai,j = 1, we can combine it with the univariate CDFs to obtain i,j=1 Ai,j = 1 一変量CDFと組み合わせて得られる 0.71
F (x1, x2) = F(x1, x2) = 0.93
Ai,jϕi,1(x1)ϕj,2(x2). Ai,jφi,1(x1)φj,2(x2)。 0.62
(1) The coefficients Ai,j encode the dependencies between the two variables, and the normalization ensures that F is a valid CDF, that is F ∈ F2. (1) 係数 Ai,j は2つの変数間の依存関係を符号化し、正規化は F が F ∈ F2 である有効な CDF であることを保証する。 0.81
Even though in each summand the interaction is modeled by a single scalar parameter, such a model can be used to approximate well complex interactions between x1 and x2 if m is sufficiently large, as we show in Section 3.6. 各要約において、この相互作用は単一のスカラーパラメータによってモデル化されるが、そのようなモデルは、m が十分大きい場合 x1 と x2 の間の非常に複雑な相互作用を近似するのに使うことができる。 0.65
The advantage of this construction is that { ˙ϕi,j}i∈[m], j∈[2], the family of densities corresponding to the univariate CDFs, leads immediately to この構成の利点は、単変量CDFに対応する密度の族である { φi,j}i∂[m], j∂[2] が直ちに導かれることである。 0.62
m(cid:88) i,j=1 m(cid:88) i,j=1 0.81
m(cid:88) i,j=1 m(cid:88) i,j=1 0.81
f (x1, x2) = f (x1, x2) = 0.94
Ai,j ˙ϕi,1(x1) ˙ϕj,2(x2). Ai,j はφi,1(x1) はφj,2(x2) である。 0.49
It is similarly straightforward to obtain marginal and conditional quantities, e g : 同様に、限界量と条件量、eg : を得るのが簡単である。 0.61
F (x1) = Ai,jϕi,1(x1), F(x1) = Ai,jφi,1(x1) 0.87
F (x1|x2) = F(x1|x2) = 0.70
i,j=1 m(cid:88) i,j=1 m(cid:88) 0.81
i,j=1 m(cid:80) i,j=1 m(cid:80) 0.81
m(cid:80) i,j=1 m(cid:80) i,j=1 0.81
Ai,jϕi,1(x1) ˙ϕj,2(x2) Ai,jφi,1(x1) >φj,2(x2) 0.59
Ai,j ˙ϕj,2(x2) ai,j,2(x2) 0.82
, and the corresponding densities result from replacing ϕi,1 by ˙ϕi,1. , そして対応する密度は φi,1 を φi,1 に置き換えることから生じる。 0.67
Deriving these simple expressions relies on the fact that (1) combines the univariate CDFs linearly. これらの単純な表現の導出は、(1)単変量CDFを線形に結合するという事実に依存している。
訳抜け防止モード: これらの単純表現の導出 1 ) が単変数 CDF を線形に結合するという事実に依存している。
0.64
Nonetheless, it is clear that, with m → ∞ and for judiciously chosen univariate CDFs, such a model is a universal approximator of both CDFs and sufficiently smooth densities. それでも、m → ∞ と、偏微分的に選択された単変数 CDF に対して、そのようなモデルは CDF の普遍近似であり、十分に滑らかな密度を持つことは明らかである。 0.61
3.3 The multivariate case To generalize the bivariate case, consider a collection of univariate CDFs {ϕi,j}i∈[m], j∈[d] with ϕi,j ∈ F1 for each i and j, and define the tensor-valued function Φ : Rd × [m]d → [0, 1] by j=1 ϕij ,j(xj) for x ∈ Rd. 3.3 双変量ケースを一般化する多変量の場合、各 i と j に対して φi,j ∈ f1 を持つ不定値 cdfs { φi,j}iψ[m] の集まりを考え、x ∈ rd に対して j=1 φij ,j(xj) によってテンソル値関数 φ : rd × [m]d → [0, 1] を定義する。 0.85
Furthermore, denote the class of normalized order d さらに、正規化順序 d の類を表す。 0.69
Φ(x)i1,...,id =(cid:81)d シュ(x)i1,...,id =(cid:81)d 0.74
tensors with m dimensions in each mode and nonnegative elements by 各モードのm次元と非負の要素を持つテンソル 0.78
Ad,m = {A ∈ Rm×···×m : Ai1,...,id ≥ 0, Ad,m = {A ∈ Rm×····×m : Ai1,...,id ≥ 0, 0.96
Ai1,...,id = 1}. ai1, ...,id = 1} である。 0.80
(2) Definition 1 (Marginalizable Density Model Approximator). (2) 定義1(Marginalizable Density Model Approximator)。 0.80
For Φ : Rd × [m]d → [0, 1] as above and A ∈ Ad,m, the marginalizable density model approximator (MDMA) is 上述の t : Rd × [m]d → [0, 1] と A ∈ Ad,m に対して、最小化可能な密度モデル近似器(MDMA)は、 0.88
FA,Φ(x) = (cid:104)A, Φ(x)(cid:105) = fa, φ(x) = (cid:104)a, φ(x)(cid:105) = 0.69
Ai1,...,id ai1,...,id 0.63
ϕij ,j(xj). φij ,j(xj)。 0.89
(3) If is clear that the conditions on Φ and A imply that FA,Φ ∈ Fd. (3) A と t の条件が FA, t ∈ Fd であることは明らかである。 0.79
As in the bivariate case, densities or marginalization over xj are obtained by replacing each ϕi,j respectively by ˙ϕi,j or 1. 双変数の場合と同様に、xj 上の密度または辺化は各 φi,j を φi,j または 1 で置き換えることで得られる。 0.69
As for i1,...,id=1 について i1,...,id=1 0.77
j=1 3 m(cid:88) j=1 3 m(cid:88) 0.76
i1,...,id=1 i1,...,id=1 0.99
d(cid:89) m(cid:88) d(cid:89) m(cid:88) 0.84
英語(論文から抽出)日本語訳スコア
m(cid:80) conditioning, considering any disjoint subsets R = {k1, . m(cid:80) 任意の不連結部分集合 r = {k1, . を考える条件付け 0.72
. . , kr} and S = {j1, . . . , kr} と s = {j1, . 0.85
. . , js} of [d] such that R ∩ S = ∅, we have . . d] の , js {\displaystyle ,js} は R > S = > を満たす。 0.77
i1,...,id=1 i1,...,id=1 0.99
Ai1,...,id ai1,...,id 0.63
FA,Φ(xk1 , . . FA(xk1)。 . 0.69
. , xkr|xj1 , . . , xkr|xj1。 0.80
. . , xjs ) = . . , xjs ) = 0.85
m(cid:80) Ai1,...,id = ai1δi1,...,id, which leads to FA,Φ(x) = (cid:80)m (cid:80)m m(cid:80) Ai1,...,id = ai1δi1,...,id, which led to FA,\(x) = (cid:80)m (cid:80)m 0.95
(cid:81)d For a completely general tensor A with md parameters, the expression (3) is computationally impractical, hence some structure must be imposed on A. (cid:81)d mdパラメータを持つ完全一般テンソル A に対して、式 (3) は計算的に非現実的であるので、ある構造を A に課す必要がある。 0.73
For instance, one simple choice is j=1 ϕi,j(xj), with ai ≥ 0 and i=1 ai = 1. 例えば、簡単な選択は j=1 φi,j(xj) であり、ai ≥ 0 と i=1 ai = 1 である。 0.86
Instead of this top-down approach, A can be tractably constructed bottom-up, as we このトップダウンアプローチの代わりに、aは私たちのように、きちんとボトムアップを構築できます。 0.52
˙ϕij ,j(xj) シュφij ,j(xj) 0.76
. explain next. Assuming d = 2p for integer p, define ϕ(cid:96) : Rd → Rm×2p−(cid:96)+1 for (cid:96) ∈ {1, . . 次に説明しろ 整数 p に対して d = 2p と仮定すると、(cid:96) ∈ {1, に対して φ(cid:96) : Rd → Rm×2p−(cid:96)+1 を定義する。 0.75
. . , p} recursively by . . , p} が再帰的に 0.82
˙ϕij ,j(xj) シュφij ,j(xj) 0.76
Ai1,...,id ai1,...,id 0.63
i=1 ai i1,...,id=1 i=1 ai i1,...,id=1 0.85
k∈R j∈S (cid:81) k・R jjs (cid:81) 0.53
ϕik,k(xk)(cid:81) (cid:81) φik,k(xk)(cid:81) (cid:81) 0.85
j∈S (cid:80)m jjs (cid:80)m 0.64
for i ∈ [m], j ∈ [2p−(cid:96)+1], and where λ(cid:96) is a non-negative m × m × 2p−(cid:96)+1 tensor, normalized as i ∈ [m], j ∈ [2p−(cid:96)+1], ここで λ(cid:96) は非負の m × m × 2p−(cid:96)+1 テンソルで正規化される。 0.81
k=1 λ(cid:96) k=1 λ(cid:96) 0.71
i,k,j = 1. i,k,j = 1 である。 0.78
The joint CDF can then be written as ジョイントCDFはそのまま書ける。 0.54
k,2j(x), λ(cid:96)−1 i,k,jϕ(cid:96)−1 k,2j−1(x)ϕ(cid:96)−1 m(cid:88) k,2j(x) λ(cid:96)−1 i,k,jφ(cid:96)−1 k,2j−1(x)φ(cid:96)−1 m(cid:88) 0.80
FAHT,Φ(x) = FAHT,\(x) = 0.59
λp kϕp k,1(x)ϕp λp kφp k,1(x)φp 0.69
k,2(x), (cid:96) = 1 k,2(x) (cid:96) = 1 0.91
(cid:96) = 2, . (cid:96) = 2。 0.87
. . , p (4) . . p。 (4) 0.81
ϕi,j(xj), m(cid:80) εi,j(xj),m(cid:80) 0.90
k=1 ϕ(cid:96) k=1 φ(cid:96) 0.71
i,j(x) = with λp ∈ Rm k = 1. i,j(x) = λp ∈ Rm k = 1 である。 0.84
It is easy to verify that the underlying AHT satisfies AHT ∈ Ad,m defined in (2). 基底 AHT が (2) で定義される AHT ∈ Ad,m を満たすことは容易に検証できる。 0.85
A graphical representation of this tensor is provided in Figure 10 in the supplementary materials. このテンソルのグラフィカルな表現は、補足資料の図10に記載されている。 0.61
For example, for d = 4, we first combine (x1, x2) and (x3, x4) into 例えば d = 4 の場合、まず (x1, x2) と (x3, x4) を結合する。 0.88
k=1 λp k=1 k=1 λp k=1 0.59
ϕ2 i,1(x) = ϕ2 i,1(x) = 0.83
λ1 i,k,1ϕk,1(x1)ϕk,2(x2) , λ1 i,k,1 φk,1(x1) φk,2(x2) , 0.61
ϕ2 i,2(x) = ϕ2 i,2(x) = 0.83
λ1 i,k,2ϕk,3(x3)ϕk,4(x4) , λ1 i,k,2φk,3(x3)φk,4(x4) , 0.61
+ satisfying(cid:80)m m(cid:88) + satisfying(cid:80)mm (cid:88) 0.90
m(cid:88) k=1 m(cid:88) k=1 0.71
and then merge them as k=1 それらをマージして k=1 0.55
FAHT,Φ(x) = FAHT,\(x) = 0.59
λ2 kϕ2 k,1(x)ϕ2 λ2 kφ2 k,1(x)φ2 0.69
k,2(x), m(cid:88) i1,i2,i3,i4 =(cid:80)m k,2(x) m(cid:88) i1,i2,i3,i4 =(cid:80)m 0.87
k=1 from which we can read off that AHT k=1 そこからそのAHTを読み取ることができます 0.59
k=1 λ2 kλ1 k=1 λ2 kλ1 0.59
k,i1,1λ1 k,i3,2δi1,i2δi3,i4. k,i1,1λ1 k,i3,2δi1,i2δi3,i4。 0.51
Note that the number of parameters required to represent AHT is only poly(m, d). AHT を表すために必要なパラメータの数は poly(m, d) に限られる。 0.78
The construction is easily generalized to dimensions d not divisible by 2. 構成は2で割り切れない次元 d に容易に一般化される。 0.73
Also, the number of ϕ factors combined at each iteration in (4) (called the pool size), can be any positive integer. また、(4) の各イテレーションで結合される φ 因子の数(プールサイズと呼ばれる)は任意の正の整数となる。 0.76
This construction is a variant of the hierarchical Tucker decomposition of tensors [38], which has been used in the construction of tensor networks for image classification in [32]. この構成はテンソル[38]の階層的タッカー分解の変種であり、[32]における画像分類のためのテンソルネットワークの構築に使われている。 0.76
Given a set of training points {x}N i=1, we fit MDMA models by maximizing the log of the density with respect to both the parameters in {ϕi,j}i∈[m],j∈[d] and the components of A. 訓練点 {x}N i=1 の集合が与えられたとき、密度のログを {φi,j}i・[m],j・[d] のパラメータと A の成分の両方に関して最大化することにより、MDMA モデルに適合する。 0.80
We present additional details regarding the choice of architectures and initialization in Appendix E. アーキテクチャの選択と初期化については,Appendix Eでさらに詳細に述べる。 0.80
3.4 A non-marginalizable MDMA 3.4 非マージ可能mdma 0.57
We can construct a more expressive variant of MDMA at the price of losing the ability to marginalize and condition on arbitrary subsets of variables. より表現力のあるMDMAの変種を、変数の任意の部分集合に対して極小化と条件付けの能力を失う価格で構築することができる。 0.70
We find that the resulting model leads to state-ofthe-art performance on a density estimation benchmark. 得られたモデルが,密度推定ベンチマーク上での最先端性能につながることがわかった。 0.63
We define v = x + Tσ(x) where T is an v = x + tσ(x) と定義する。 0.65
upper-triangular matrix with non-negative entries and 0 on the main diagonal. 非負のエントリと主対角線上の0を持つ上三角行列。 0.65
Note that(cid:12)(cid:12) ∂v (cid:12)(cid:12) ∂v 0.74
(cid:12)(cid:12) = 1. (cid:12)(cid:12) = 1。 0.79
∂x Given some density f (v1, . ∂x ある密度 f (v1, ) が与えられる。 0.69
. . , vd) = . . , vd) = 0.85
f (x1, . . . f (x1。 . . 0.82
, xd) = d(cid:81) (cid:12)(cid:12)(cid :12)(cid:12) ∂v , xd) = d(cid:81) (cid:12)(cid:12)(cid :12)(cid:12) ∂v 0.79
∂x j=1 ˙ϕj(vj), we have ∂x j=1 ~φj(vj) です 0.64
(cid:12)(cid:12)(cid :12)(cid:12) f (v1, . (cid:12)(cid:12)(cid :12)(cid:12) f (v1, )。 0.71
. . , vd) = f (v1(x), . . . , vd) = f (v1(x), . 0.85
. . , vd(x)). . . vd(x)) である。 0.83
(5) (6) (7) (5) (6) (7) 0.85
4 4 0.85
英語(論文から抽出)日本語訳スコア
We refer to this model nMDMA, since it no longer enables efficient marginalization and conditioning. 我々は、このモデルnmdmaを参照するが、これはもはや効率的なマージン化とコンディショニングを許さないためである。 0.46
3.5 MDMA sampling 3.5MDMAサンプリング 0.72
Given an MDMA as in (3), we can sample in the same manner as for autoregressive models: from u1, . MDMA が (3) で与えられると、自己回帰モデルと同様に、u1, . からサンプルをサンプリングできる。 0.64
. . , ud independent U (0, 1) variables, we obtain a sample from FA,Φ by computing A,Φ(ud|x1, . . . , ud independent U (0, 1) variables, we obtained a sample from FA,... by computing A,(ud|x1)。 0.82
. . , xd−1), −1 . . , xd−1), −1 0.86
A,Φ(u2|x1) −1 A(u2|x1)−1 0.79
−1 A,Φ(u1), x1 = F −1a,φ(u1) x1 = F 0.84
x2 = F xd = F x2 = F xd = F 0.90
··· where, unlike with autoregressive model, the order of taking the conditionals does not need to be fixed. ··· 自己回帰モデルとは異なり、条件式を取る順序は固定される必要はない。 0.60
The main drawback of this method is that due to the sequential nature of the sampling the computational cost is linear in d and cannot be parallelized. この方法の主な欠点は、サンプリングの逐次的性質のため、計算コストはdで線形であり並列化できないことである。 0.67
However, the structure of FA,Φ can be leveraged to sample far more efficiently. しかし、fa, φの構造はより効率的にサンプルを採取するために利用できる。 0.72
Define by RA a vector-valued categorical random variable taking values in [m] × ··· × [m], with distribution The fact that A ∈ Ad,m with Ad,m from (2) ensure the validity of this definition. ra で定義する: [m] × ····· × [m] の値を取るベクトル値のカテゴリー確率変数で、分布 a ∈ ad,m with ad,m from (2) はこの定義の妥当性を保証する。 0.87
Consider a vector ( ˜X1, . ベクトル (X1, ) を考える。 0.82
. . , ˜Xd, RA) where RA is distributed as above, and ˜X1 ≤ x1, . . . 上述したように RA が分布しているような場合、X1 ≤ x1 である。 0.81
. . , ˜Xd ≤ xd|RA = r . . , Xd ≤ xd|RA = r 0.87
P [RA = (i1, . P[RA = (i1, 。 0.81
. . , id)] = Ai1,...,id . . . , id)] = ai1, ...,id 。 0.80
P(cid:104) P(cid:104) 0.84
d(cid:89) ϕri,i(xi), d(cid:89) φri,i(xi) 0.83
(cid:105) = (cid:105) = 0.82
for the collection {ϕi,j} of univariate CDFs. 単変数 CDF の集合 {φi,j} に対して。 0.68
Denoting the distribution of this vector by ˜FA,Φ, marginalizing over RA gives このベクトルの分布を sfa, φ で表すと、ra 上の辺数化は与える 0.56
i=1 ˜FA,Φ(x) = i=1 シュFA、シュ(x) = 0.61
P [RA = r] ϕrj ,j(xj) = FA,Φ(x). P[RA = r] φrj ,j(xj) = fa, φ(x) である。 0.85
(cid:88) r∈[m]d (cid:88) r∂[m]d 0.64
d(cid:89) j=1 d(cid:89) j=1 0.71
Instead of sampling directly from the distribution FA,Φ, we can thus sample from ˜FA,Φ and discard the sample of RA. 分布 fa, φ から直接サンプリングする代わりに、fa, φ からサンプルを採取し、ra のサンプルを破棄することができる。 0.70
To do this, we first sample from the categorical variable RA. そのために、分類変数 RA から最初にサンプルを採取する。 0.75
Denoting this sample by r, we can sample from ˜Xi by inverting the univariate CDF ϕri,i. このサンプルを r で表すと、単変量 CDF φri,i を反転させることで、Xi からサンプリングすることができる。
訳抜け防止モード: このサンプルを r, Xi から単変数 CDF φri, i を反転させることでサンプル化できる。
0.76
This can be parallelized over i. これは i 上で並列化できる。 0.73
The approach outlined above is impractical since RA can take md possible values, yet if A can be expressed by an efficient tensor representation this exponential dependence can be avoided. 上記のアプローチは、raがmd可能値を取ることができるため実用的でないが、a が効率的なテンソル表現で表現できるならば、この指数依存を避けることができる。 0.57
Consider the HT decomposition (5), which can be written as HT分解 (5) を考える。 0.38
FAHT,Φ(x) =(cid:10)AHT, Φ(x)(cid:11) = faht, φ(x) =(cid:10)aht, φ(x)(cid:11) = 0.61
p(cid:89) 2p−(cid:96)(cid:89) p(cid:89) 2p−(cid:96)(cid:89) 0.76
m(cid:88) (cid:96)=1 m(cid:88) (cid:96)=1 0.79
j(cid:96)=1 j(cid:96)=1 0.78
k(cid:96),j(cid:96) =1 k(cid:96),j(cid:96)=1 0.83
λ(cid:96) k(cid:96)+1,(cid:100)j(cid:96) /2(cid:101),k(cid:96 ),j(cid:96) ,j(cid:96)Φ(x)k1,1,...,k1,d/2 , λ(cid:96) k(cid:96)+1,(cid:100)j(cid:96) /2(cid:101),k(cid:96 ),j(cid:96) ,j(cid:96)*(x)k1,1,. ..,k1,d/2 , 0.84
(8) that is a normalized sum of O(md) univariate CDFs. (8) これは O(md) 個の単変数 CDF の正規化和である。 0.74
Proposition 1. Sampling from (8) can be achieved in O(log d) time requiring the storage of only O(d) integers. 命題1。 8) からのサンプリングは、o(d) 整数のみの格納を必要とする o(log d) 時間で達成できる。 0.62
Note that the time complexity of this sampling procedure depends only logarithmically on d. The reason is that a simple hierarchical structure of Algorithm 1, where Mult denotes the multinomial distribution. 理由は、Mult が多重項分布を表すアルゴリズム 1 の単純な階層構造であるからである。 0.43
Algorithm 1: Sampling from the HT MDMA Result: xj for j = 1, . アルゴリズム1: HT MDMAの結果からのサンプリング: j = 1 の xj。 0.75
. . , d kp,1 ∼ Mult(λp∗); for (cid:96) ← p − 1 to 1 by −1 do k(cid:96),j ∼ Mult(λ(cid:96) . . , d kp,1 > Mult(λp∗); for (cid:96) > p − 1 to 1 by −1 do k(cid:96),j > Mult(λ(cid:96) 0.87
k(cid:96)+1,(cid:100)j/2(cid:1 01),∗,j), k(cid:96)+1,(cid:100)j/2(cid:1 01),∗,j) 0.97
j = 1, . j = 1 である。 0.91
. . , 2p−(cid:96); . . , 2p−(cid:96) 0.79
end xj ∼ ϕk1,(cid:100)j/2(cid: 101),j, end xj s φk1,(cid:100)j/2(cid: 101),j, 0.84
j = 1, . j = 1 である。 0.91
. . , 2p; The logarithmic dependence is only in the sampling from the categorical variables, which is inexpensive to begin with. . . ,2p。 対数依存は分類変数からのサンプリングのみであり、当初は安価である。 0.72
We thus avoid the linear dependence of the time complexity on d that is common in sampling from autoregressive models. したがって、自己回帰モデルからのサンプリングでよく見られる d 上の時間複雑性の線形依存は避ける。 0.82
Furthermore, the additional memory required for sampling scales like log m (since storing the categorical samples requires representing integers up to size m), and aside from this each sample requires evaluating a single product of univariate CDFs (which is independent of m). さらに、log mのようなサンプリングスケールに必要な追加のメモリ(カテゴリのサンプルを保存するには整数を m まで表現する必要があるため)と、各サンプルは不定値 cdf の1つの積(m とは独立したもの)を評価する必要がある。 0.74
In preliminary experiments, we have found that even for densities with d ≤ 10, this sampling scheme is faster by 1.5 to 2 orders of magnitude than autoregressive sampling. 予備実験では、d ≤ 10 の密度であっても、このサンプリングスキームは自己回帰サンプリングよりも1.5から2桁速くなることがわかった。 0.65
The relative speedup should only increase with d. 相対的なスピードアップは d でのみ増加する。 0.74
5 5 0.85
英語(論文から抽出)日本語訳スコア
3.6 Universality of the MDMA To model functions in F1, we use Φl,r,σ, a class of constrained feedforward neural networks proposed in [37] with l hidden layers, each with r neurons, and σ a nonaffine, increasing and continuously differentiable elementwise activation function, defined as 3.6 mdma が f1 の関数をモデル化するための普遍性 f1 では、[37] において、それぞれが r ニューロンを持つ l 隠れ層を持つ制約付きフィードフォワードニューラルネットワークのクラス φl,r,σ を使い、σ を非アフィンとし、増大し、連続的に微分可能な要素回りの活性化関数として定義する。
訳抜け防止モード: 3.6 MDMA の普遍性 F1 の関数をモデル化するために、我々は、[37 ] で提案された制約付きフィードフォワードニューラルネットワークのクラス sl, r, σ を用いる。 それぞれがrニューロンを持ち σは非アフィンであり 連続的に分化可能な要素活性化関数を
0.80
Φl,r,σ = {ϕ : R → [0, 1], ϕ(x) = sigmoid ◦ Ll ◦ σ ◦ Ll−1 ◦ σ ··· ◦ σ ◦ L1 ◦ σ ◦ L0(x)}, シュル,r,σ = {φ : R → [0, 1], φ(x) = sigmoid , Ll , σ , Ll−1 , Ll , σ ··· , σ , L1 , σ , L0(x)} である。 0.92
where Li : Rni → Rni+l is the affine map Li(x) = Wix + bi for an ni+1 × ni weight matrix Wi with nonnegative elements and an ni+1 × 1 bias vector bi, with nl+1 = n0 = 1 and ni = r for i ∈ [l]. ここで、Li : Rni → Rni+l は、非負元を持つ ni+1 × ni 重み行列 Wi に対してアフィン写像 Li(x) = Wix + bi であり、nl+1 = n0 = 1 かつ i ∈ [l] に対して ni+1 × 1 のバイアスベクトル bi である。 0.82
The constraints on the weights and the final sigmoid guarantee that Φl,r,σ ⊆ F1, and for any ϕ ∈ Φl,r,σ, the corresponding density ˙ϕ(x) = ∂ϕ(x)/∂x can be obtained with the chain rule. 重みと最終的なシグモイドの制約は φl,r,σ,f1 を保証し、任意の φ ∈ φl,r,σ に対して対応する密度は φ(x) = ∂φ(x)/∂x となる。 0.73
The universal approximation property of the class Φl,r,σ is expressed in the following proposition. 類 φl,r,σ の普遍近似性は次の命題で表される。 0.55
Proposition 2. ∪l,rΦl,r,σ is dense in F1 with respect to the uniform norm. 命題2。 l,rφl,r,σ は f1 において一様ノルムに関して密度が高い。 0.56
While the proof in the supplementary assumes that limx→−∞ σ(x) = 0 and limx→∞ σ(x) = 1, it can be easily modified to cover other activations. 補足の証明は limx→−∞ σ(x) = 0 と limx→∞ σ(x) = 1 を仮定するが、他の活性化をカバーするために容易に修正できる。 0.87
For instance, in our experiments, we use σ(x) = x + a tanh(x) following [37], and refer to the supplementary material for more details regarding this case. 例えば、我々の実験では、σ(x) = x + a tanh(x) を [37] に従って使い、この場合の詳細については補足材料を参照する。 0.77
In the multivariate case, consider the class of order d tensored-valued functions with m dimensions per mode defined as 多変量体の場合、モード毎の m 次元を持つ位数 d のテンソル付き値関数の類を考える。 0.70
Φm,d,l,r,σ = {Φ : Rd × [m]d → [0, 1], Φ(x)i1,...,id = シュム,d,l,r,σ = { : Rd × [m]d → [0, 1], シュ(x)i1,...,id = 0.70
ϕij ,j(xj), ϕi,j ∈ Φl,r,σ}. φij ,j(xj), φi,j ∈ ,l,r,σ} である。 0.91
Combining Φm,d,l,r,σ with the Ad,m, the normalized tensors introduced in Section 3.3, the class of neural network-based MDMAs can then be expressed as φm,d,l,r,σとad,mを組み合わせると、第3節3で導入された正規化テンソルは、ニューラルネットワークベースのmdmaのクラスを表現できる。
訳抜け防止モード: shm, d, l, r, σ を Ad と組み合わせる。 m , section 3.3 で導入された正規化テンソル, ニューラルネットワークのクラス - MDMA は、次に表現できる。
0.74
MDMAm,d,l,r,σ = {FA,Φ : Rd → [0, 1], FA,Φ(x) = (cid:104)A, Φ(x)(cid:105), A ∈ Ad,m, Φ ∈ Φm,d,l,r,σ}. MDMAm,d,l,r,σ = {FA,\ : Rd → [0, 1], FA, >(x) = (cid:104)A, >(x)(cid:105), A ∈ Ad,m, > ∈ >m,d,l,r,σ} である。 0.84
Proposition 3. The set ∪m,l,rMDMAm,d,l,r,σ is dense in Fd with respect to the uniform norm. 命題3。 Fd における一様ノルムに関して、集合 tm,l,rMDMAm,d,l,r,σ は密である。 0.58
The proof relies on the fact that setting m = 1 yields a class that is dense in the space of d-dimensional CDFs with independent components. この証明は、m = 1 のとき、独立成分を持つ d-次元 CDF の空間に密接なクラスが得られるという事実に依存している。 0.68
All proofs are provided in Appendix A. すべての証明はAppendix Aで提供される。 0.72
d(cid:81) j=1 d(cid:81) j=1 0.71
4 Experiments Additional experimental details for all experiments are provided in Appendix C.1 4つの実験 すべての実験のさらなる実験的な詳細は appendix c.1 で提供されている。 0.62
4.1 Toy density estimation 4.1 トイ密度推定 0.74
We start by considering 3D augmentations of three popular 2D toy probability distributions introduced in [8]: two spirals, a ring of 8 Gaussians and a checkerboard pattern. まず,2つのスパイラル,8つのガウスの環,チェッカーボードパターンという,[8]で導入された3つの一般的な2次元おもちゃの確率分布の3次元拡大を考える。 0.68
These distributions allow to explore the ability of density models to capture challenging multimodalities and discontinuities [6, 9]. これらの分布により、密度モデルが挑戦的な多様性や不連続性を捉えることができる [6, 9]。 0.80
The results, presented in Figure 1, show that MDMA captures all marginal densities with high accuracy, and samples from the learned model appear indistinguishable from the training data. 図1で示した結果は、mdmaがすべての限界密度を高精度に捉えており、学習モデルのサンプルはトレーニングデータと区別がつかないことを示している。
訳抜け防止モード: 図1で示された結果は、MDMAが全ての辺縁密度を高精度に捉えていることを示している。 学習したモデルのサンプルは トレーニングデータと区別できない
0.71
4.2 Mutual information estimation 4.2 相互情報推定 0.80
Given a multivariate probability distribution over some variables X = (X1 . いくつかの変数 X = (X1 ) 上の多変量確率分布が与えられる。 0.67
. . , Xd), estimating the mutual information . . , Xd) 相互情報を推定する 0.82
I(Y ; Z) = I(Y ; Z) = 0.85
dpX (x) log dpX (x) ログ 0.78
, (9) (cid:18) pX (x) , (9) (cid:18)px(x) 0.84
(cid:19) pY (y)pZ(z) (cid:19) pY (y)pZ(z) 0.82
(cid:90) where Y, Z are random vectors defined by disjoint subsets of the Xi, requires evaluating pY , pZ which are marginal densities of X. (cid:90) Y, Z が Xi の部分集合で定義されるランダムベクトルであれば、X の辺密度である pY , pZ を評価する必要がある。 0.77
Typically, Y and Z must be fixed in advance, yet in some cases it is beneficial to be able to flexibly compute mutual information between any two subsets of variables. 通常、Y と Z は事前に固定されなければならないが、ある場合には変数の任意の2つの部分集合間の相互情報を柔軟に計算できることは有益である。 0.71
Estimating both I(Y, Z) and I(Y (cid:48), Z(cid:48)) may be highly inefficient, e g if Y and Y (cid:48) are highly overlapping subsets of X. I(Y, Z) と I(Y) の両方を推定する(cid:48), Z(cid:48) は、例えば Y と Y (cid:48) が X の重なり合う部分集合である場合、非常に非効率である。 0.78
Using MDMA however, we can fit a single model for the joint distribution and easily estimate the mutual information between any subset of variables by simply marginalizing over the remaining variables to obtain the required marginal densities. しかし、MDMAを用いることで、結合分布の単一モデルに適合し、残余変数を極小化することで、変数の任意の部分集合間の相互情報を容易に推定することができる。 0.74
Thus a Monte Carlo estimate of (9) can be obtained by evaluating the marginal densities at the points that make up the training set. これにより、訓練セットを構成する点における限界密度を評価することにより、(9)のモンテカルロ推定を求めることができる。 0.73
Figure 2 presents an example of this method, showing the accuracy of the estimates. 図2はこの手法の例を示し、見積もりの正確さを示しています。 0.67
1Code for reproducing all experiments is available at https://github.com/d argilboa/mdma. すべての実験を再現するための1codeは、https://github.com/d argilboa/mdmaで入手できる。 0.44
6 6 0.85
英語(論文から抽出)日本語訳スコア
Training data Figure 1: Density estimation with closed-form marginals and conditionals. 研修データ 図1: 閉形式境界と条件による密度推定。 0.77
First Row: Panels 1,2: Empirical histograms of training data. First Row: Panels 1,2: トレーニングデータの経験的ヒストグラム。 0.80
Panel 3: Samples from the training data. パネル3: トレーニングデータからのサンプル。 0.70
Panel 4: Samples from the trained MDMA model. パネル4 トレーニングされたmdmaモデルのサンプル。 0.60
Second Row: Panels 1,2: The marginal density learned by MDMA plotted on a grid. Second Row: Panels 1,2: MDMAがグリッド上にプロットした限界密度。 0.79
Panels 3,4: Conditional densities learned by MDMA plotted on a grid. パネル3,4: MDMAがグリッド上にプロットした条件密度。 0.70
Third Row: Results on additional datasets: Panels 1,2: Training data and learned marginal density for a 3D checkerboard dataset. 3行目:追加データセットの結果:パネル1,2: 3次元チェッカーボードデータセットのトレーニングデータと学習限界密度。 0.80
Panels 3,4: Similarly for a 3D mixture of Gaussians. パネル3,4: 同様にガウスの3d混合である。 0.64
Figure 2: Mutual information estimation between subsets of a random vector. 図2: ランダムベクトルの部分集合間の相互情報推定。 0.76
We fitted a single MDMA model to samples from a zero-mean d = 16 Gaussian, with covariance Σij = δij + (1 − δij)(i + j − 2)/(5d). 共分散 Σij = δij + (1 − δij)(i + j − 2)/(5d) を持つゼロ平均 d = 16 ガウスのサンプルに単一のMDMAモデルを適用した。 0.86
Monte Carlo estimates of the mutual information (9) between (X1, . モンテカルロは(X1, )間の相互情報(9)を推定する。 0.76
. . , Xk) and (Xk+1, . . . , Xk) と (Xk+1, 。 0.86
. . , Xd) for any k = 1, . . . , xd) 任意の k = 1 に対して。 0.83
. . , d − 1 are easily obtained and match closely the exact values. . . , d − 1 は容易に得られ、正確な値とよく一致する。 0.84
For each k we average over 5 repetitions of drawing the dataset and fitting. 各kについて、データセットの描画とフィッティングを平均5回以上繰り返します。 0.66
4.3 Density estimation with missing values 4.3 不足値による密度推定 0.76
Dealing with missing values in multivariate data is a classical challenge in statistics that has been studied for decades [39]. 多変量データの欠落値を扱うことは、何十年にもわたって研究されてきた統計学における古典的な挑戦である [39]。 0.65
The standard solution is the application of a data imputation procedure (i.e., “filling in the blanks”), which requires making structural assumptions. 標準的な解決策は、構造的な仮定を必要とするデータ計算手順(すなわち“空白を埋める”)の適用である。 0.76
In some cases, this is natural, as for the matrix completion problem under a low-rank assumption [40, 41], where the imputed values are the main object of interest. 場合によっては、低ランクの仮定 [40, 41] の下での行列完備問題において、インデュート値が主な関心対象であるような場合のように、これは自然である。 0.69
But the artifacts introduced by data imputation [42] are generally a price that one must unwillingly pay in order to perform statistical inference in models that しかし、データインプテーション[42]によってもたらされるアーティファクトは、一般に、モデルで統計的推論を実行するために不意に払わなければならない価格である。 0.67
7 x1x2x1x3x1x2x3x1x2x3 Samplesfrommodelx1x2 f(x1,x2)x1x3f(x1,x3) x1x2f(x1,x2|x3=0)x1x2f(x1,x2|x3=0.5)x1x2x3Trainingda tax1x2f(x1,x2)x1x2x3 Trainingdatax1x2f(x1 ,x2)1234567891011121 31415k0.10.20.30.4I( (X1,...,Xk);(Xk+1,...,Xd))GroundTrut hMDMA 7 x1x2x1x1x2x2x2x2x2x2 x3x3x3samples from modelx1x2f(x1,x2)x1x 3f(x1,x3)x1x2f(x1,x2 |x3=0)x1x2f(x1,x2|x3=0.5)x1x2x3trainingda tax1x2f(x1,x2)x1x2x3 trainingdatax1x2f(x1 ,x2)1234567891012131 31315k0.10.30.4i(x1, ...,xk);(xk+1,...,xd)groundtruth mdma 0.64
英語(論文から抽出)日本語訳スコア
Figure 3: Density estimation with missing data Test NLL on two density estimation benchmarks, varying the proportion of entries in each data matrix that are designated missing and not used for fitting. 図3: 欠落データによる密度推定 NLL を2つの密度推定ベンチマークでテストし、欠落と指定されフィッティングに使用されていない各データマトリックスのエントリの割合を変化させる。 0.79
We compare MDMA which can fit marginal densities directly with BNAF which achieves state-of-the-art results on the POWER dataset, after performing data imputation using MICE. 我々は,MICEを用いてデータ計算を行った後,POWERデータセットの最先端結果が得られるBNAFと直接一致可能なMDMAを比較した。 0.74
As the proportion of missing data increases, MDMA outperforms BNAF. 欠落データの割合が増加するにつれて、MDMAはBNAFを上回っている。 0.51
require fully-observed data points. 完全に観測されたデータポイントが必要です。 0.43
Two popular, generic techniques for imputation are MICE [43] and k-NN imputation [44]. MICE[43]とk-NN命令[44]の2つの一般的手法が人気である。 0.60
The former imputes missing values by iteratively regressing each missing variable against the remaining variables, while the latter uses averages over the non-missing values at k-nearest datapoints. 前者は、各欠落した変数を残りの変数に対して反復的に退避させ、後者は、k-nearestデータポイントにおける非欠落値の平均を使用する。 0.64
More formally, let X ∈ Rd be distributed according to some density p with parameters θ, let X(0), X(1) be the non-missing and missing entries of X respectively, and M ∈ {0, 1}d a vector indicating the missing entries. より正式には、X ∈ Rd をパラメータ θ のある密度 p に従って分布させ、X(0) と X(1) をそれぞれ X の非欠成分および欠成分とし、M ∈ {0, 1} を欠成分を示すベクトルとする。 0.75
In the missing-at-random setting (i.e. in the missing-at-random set (i。 0.63
M is independent of X(1)), likelihood-based inference using the full likelihood of the model is equivalent to inference using M は X(1) とは独立) モデルの全確率を用いた確率ベースの推論は、推論と等価である 0.78
the marginal likelihood [39] L(X(0)|θ) =(cid:82) p(X|θ)dX(1). 限界確率 [39] L(X(0)|θ) = (cid:82) p(X|θ)dX(1) 0.82
Standard neural network-based density 標準ニューラルネットワークに基づく密度 0.75
estimators must resort to data imputation because of the impossibility of computing this marginal likelihood. 推定者は、この限界的な可能性を計算することができないため、データインプテーションに頼る必要がある。 0.50
MDMA however can directly maximize the marginal likelihood for any pattern of missing data at the same (actually slightly cheaper) computational cost as maximizing the full likelihood, without introducing any bias or variance due to imputation. しかし、MDMAは、計算コストを同時に(実際はわずかに安価に)失うデータパターンの限界確率を直接最大化でき、完全な可能性の最大化は、計算によってバイアスやばらつきを生じさせることなくできる。 0.72
As a demonstration of this capability, we consider the UCI POWER and GAS datasets, following the same pre-processing as [45]. この機能の実証として, [45] と同じ前処理に従って, uci power and gas データセットを考察する。 0.70
We construct a dataset with missing values by setting each entry in the dataset to be missing independently with a fixed probability . データセットの各エントリを、一定の確率で独立に欠落させるように設定することで、欠落した値を持つデータセットを構築する。 0.59
We compare MDMA to BNAF [9], a neural density model which achieves state-of-the-art results on a number of density estimation benchmarks including GAS. MDMA と BNAF [9] を比較し,GAS を含む多数の密度推定ベンチマークで最先端の結果を得るニューラル密度モデルを提案する。 0.78
We train MDMA directly on the log marginal likelihood of the missing data, and BNAF by first performing data imputation using MICE [43] and then training using the full log likelihood with the imputed data. 我々は,MICE[43]を用いてまずデータ計算を行い,そのインプットデータを用いて全ログ確率を用いてトレーニングすることで,MDMAとBNAFを直接訓練する。 0.74
The validation loss is the log marginal likelihood for MDMA and the log likelihood of the imputed validation set for BNAF. 検証損失はMDMAのログ限界確率とBNAFのインプット検証セットのログ限界確率である。 0.63
The test set is left unchanged for both models and does not contain any missing values. テストセットは両方のモデルで変更されず、欠落した値を含まない。 0.78
We train BNAF using the settings specified in [9] that led to the best performance (2 layers and 40d hidden units where d is the dimensionality of the dataset). 私たちは[9]で指定された設定を使ってBNAFをトレーニングし、最高のパフォーマンスに導いた(dがデータセットの次元である2つのレイヤと40dの隠れユニット)。 0.61
The results are shown in Figure 3. 結果は図3に示されています。 0.79
We find that, as the probability of missingness increases, MDMA significantly outperforms BNAF on both datasets. 不足の確率が増加するにつれて、MDMAは両方のデータセットでBNAFを著しく上回ります。 0.65
Note that, while the proportion of missing values might seem extreme, it is not uncommon in some applications (e g , proteomics data). 不足する値の割合は極端に思えるかもしれないが、いくつかのアプリケーション(例えば、プロテオミクスデータ)では珍しくない。 0.60
We also trained BNAF using k-NN imputation [44], finding that performance was worse than MICE imputation for all values of α. また,k-NNインパクション[44]を用いてBNAFを訓練し,αのすべての値に対してMICEインパクションよりも高い性能を示した。 0.59
A comparison of the two methods is provided in Appendix B. 2つの方法の比較は、Appendix Bで提供される。 0.79
4.4 Conditional independence testing and causal discovery 4.4 条件付き独立試験及び因果発見 0.77
Randomized control trials [46] remain the golden standard for causal discovery. ランダム化制御試験 [46] は因果発見の黄金標準のままである。 0.77
Nonetheless, experiments or interventions are seldom doable, e g due to financial or ethical considerations. それでも、経済的あるいは倫理的な考慮から、実験や介入はめったに実行できない。 0.54
Alternatively, observational data can help uncovering causal relationships [47, 48]. あるいは、観測データは因果関係を明らかにするのに役立つ[47, 48]。 0.75
In this context, a class of popular methods targeted at recovering the full causal graph, like PC or FCI [47, 49], rely on conditional independence (CI) tests. この文脈では、PCやFCI[47, 49]のような完全な因果グラフの復元を目的とした一般的な手法のクラスは、条件独立テスト(CI)に依存している。
訳抜け防止モード: この文脈では、ターゲットとする人気のあるメソッドのクラス PCやFCIのような完全な因果グラフを復元する[47,49] 条件付き独立(CI)テストに依存します。
0.78
Letting X, Y and Z be random variables, the CI of X and Y given Z, denoted X ⊥⊥ Y | Z, means that given Z, no information about X (or Y ) can be gained by knowing the value of Y (or X). X, Y, Z をランダム変数とし、Z の X と Y の CI を X と Y | Z と書くと、Z が与えられたとき、X (または Y ) に関する情報は Y (または X) の値を知ることによって得られないことを意味する。 0.85
And testing H0 : X ⊥⊥ Y | Z against H1 : X (cid:54)⊥⊥ Y | Z is a problem tackled in econometrics [50, 51], statistics [52, 53], and machine learning [54, 55]. また、H0 : X > Y | Z に対する H1 : X (cid:54) > Y | Z に対するテストは、計量学 [50, 51]、統計 [52, 53]、機械学習 [54, 55] において取り組まれている問題である。 0.82
Following [55], denote U1 = F (X | Z) and U2 = F (Y | Z). 55]に従うと、U1 = F (X | Z) と U2 = F (Y | Z) となる。 0.87
It is clear that H0 implies U1 ⊥⊥ U2, although the converse does not hold [see e g , 56]. H0 が U1 > U2 を意味することは明らかだが、逆は成り立たない(e g , 56] を参照)。 0.65
Nonetheless, U1 (cid:54)⊥⊥ U2 implies H1, so a test based それでも U1 (cid:54) = U2 は H1 を意味するので、テストベースとなる。 0.58
8 0.10.20.30.40.5Missi ngnessprobability−0.6−0.4−0.2TestNLLPOWERdatas etMDMABNAF+MICE0.50.60.70.8Miss ingnessprobability−10−5TestNLLGASdatasetMD MABNAF+MICE 8 0.10.20.30.40.5Missi ngnessprobability−0.6-0.4-0.2TestNLLPO WERdatasetMDMABNAF+MICE0.50.60.70.8Miss ingnessprobability−10−5TestNLLGASdatasetMD MABNAF+MICE 0.45
英語(論文から抽出)日本語訳スコア
Table 1: MDMA for causal discovery. 表1:因果発見のためのMDMA。 0.85
Conditional densities from a trained MDMA model can be used for causal discovery by allowing to test for conditional independence between variables. MDMAモデルの条件密度は、変数間の条件独立性をテストすることによって因果発見に利用できる。 0.77
Both on synthetic DAG data and real data from a protein signaling network, MDMA infers the graph structure more accurately than a competing method based on quantile regression [55]. MDMAは、合成DAGデータとタンパク質シグナルネットワークの実データの両方に基づいて、量子回帰[55]に基づく競合手法よりも正確にグラフ構造を推定する。 0.75
The metrics are the structural Hamming distance for the directed (SHD(D)) and undirected (SHD) graph. メトリクスは、有向(SHD(D))と無向(SHD)グラフのための構造的ハミング距離である。 0.78
Sachs [62], d=11 Model SHD 27 Sachs[62], d=11 Model SHD 27 0.93
SHD Sigmoidal DAG, d=10 SHD(D) 15.6 ± 2.7 18.6 ± 3.0 15.6 ± 6.1 12.8 ± 5.2 SHD Sigmoidal DAG, d=10 SHD(D) 15.6 ± 2.7 18.6 ± 3.0 15.6 ± 6.1 12.8 ± 5.2 0.74
Polynomial DAG, d=10 SHD(D) 18.9 ± 4.2 19.8 ± 4.1 17.9 ± 5.3 15.0 ± 4.5 DAG, d=10 SHD(D) 18.9 ± 4.2 19.8 ± 4.1 17.9 ± 5.3 15.0 ± 4.5 0.61
SHD Gaussian MDMA SHD ガウスMDMA 0.79
SHD(D) 30.3 ± 1.8 SHD(D)30.3±1.8 0.73
32 25.8 ± 0.7 32 25.8 ± 0.7 0.72
on the independence between U1 and U2 can still have power. U1とU2の独立性は依然として維持できる。 0.74
While the test from [55] is based on estimating the conditional CDFs through quantile regression, we proceed similarly, albeit using the MDMA as a plugin for the conditional distributions. 一方, [55] からの試験は, 条件分布のプラグインとしてMDMAを用いた場合と同様に, 量子回帰による条件CDFの推定に基づいている。 0.83
Our approach is especially appealing in the context of causal discovery, where algorithms require computing many CI tests to create the graph’s skeleton. 私たちのアプローチは、アルゴリズムがグラフの骨格を作成するために多くのciテストを計算する必要がある因果発見の文脈で特に魅力的です。 0.67
Instead of having to regress for every test, MDMA estimates the full joint distribution, and its lower dimensional conditionals are then used for the CI tests. MDMAは全てのテストに回帰する代わりに、完全な関節分布を推定し、その低次元条件をCIテストに使用する。 0.66
In Table 1, we present results on inferring the structure of causal graphs using the PC algorithm [47, 57–60]. 表1では,pcアルゴリズム [47, 57-60] を用いて因果グラフの構造を推定する結果を示す。 0.87
As a benchmark, we use the vanilla (i.e., Gaussian) CI test, and compare it to the PC algorithm obtained with the CI test from [55], albeit using the MDMA for the conditional distributions. ベンチマークとして、バニラCIテスト(すなわちガウスCIテスト)を用い、条件分布にMDMAを用いるにもかかわらず、[55]のCIテストで得られたPCアルゴリズムと比較する。 0.69
Synthetic random directed acyclic graphs (DAGs) along with sigmoidal or polynomial mechanisms linking parents to children are sampled using [61]. 親と子どもをつなぐシグモイドまたは多項式機構とともに, 合成ランダム非環状グラフ (DAG) を [61] を用いてサンプリングした。 0.73
Each dataset is d = 10 dimensional and contains 20,000 observations. 各データセットはd = 10次元であり、20,000の観測がある。 0.61
We also compare the two algorithms on data from a protein signaling network with d = 11 [62] for which the ground truth causality graph is known. また、タンパク質シグナルネットワークのデータに対する2つのアルゴリズムを、基底真理因果グラフが知られているd = 11[62]と比較する。 0.80
Performance is assessed based on the structural Hamming distance (SHD) [63], that is the L1 norm of the difference between learned adjacency matrices and the truth, as well as a variant of this metric for directed graphs SHD(D) which also accounts for the direction of the edges. 学習された隣接行列と真理との差のl1ノルムである構造ハミング距離 (shd) [63] と、エッジの方向も考慮した有向グラフ shd(d) に対するこの計量の変種に基づいて性能を評価する。 0.66
Table 1 shows averages over 8 runs for each setting. 表1は、各設定ごとに平均8回以上実行されている。 0.58
In all cases, MDMA outperforms the vanilla PC in terms of both metrics. いずれの場合も、MDMAは両方の指標でバニラPCを上回っている。 0.75
For the synthetic data, we note the large standard deviations, due in part to the fact that we sample randomly from the space of DAG structures, which has cardinality super-exponential in d. An example of the inferred graphs is presented in Appendix B. 合成データについて、D に超指数性を持つ DAG 構造の空間からランダムにサンプルするという事実から、大きな標準偏差に注意する。
訳抜け防止モード: 合成データについては、大きな標準偏差に注目します。 dag構造の空間からランダムにサンプルを採取しているためである。 d における濃度超指数を持つ。推論されたグラフの例 虫垂bで示されます
0.72
4.5 Density estimation on real data 4.5 実データにおける密度推定 0.68
We trained MDMA/nMDMA and the non-marginalizable variant described in Section 3.4 on a number of standard density estimation benchmarks from the UCI repository,2 following the pre-processing described in [45]. 我々は,[45] に記載された前処理後の uci リポジトリ,2 の標準密度推定ベンチマークについて,mdma/nmdma と3.4 に記載された非マージ可能変種を訓練した。 0.57
Table 2 compares test log likelihoods of MDMA/nMDMA with several other neural density models. 表2はMDMA/nMDMAのテストログと他のいくつかの神経密度モデルを比較する。 0.65
We find the performance of MDMA on the lower-dimensional datasets comparable to state-of-the-art models, while for higher-dimensional datasets it appears to overfit. 最先端モデルに匹敵する低次元データセット上でのMDMAの性能は,高次元データセットでは過度に適合しているように見える。 0.64
nMDMA achieves state-of-the-art performance on the POWER (d = 6) dataset, but at the cost of losing the ability to marginalize or condition over subsets of the variables. nMDMA は POWER (d = 6) データセット上での最先端のパフォーマンスを実現するが、変数のサブセットよりも粗末化や条件付けの能力を失うコストがかかる。 0.71
The width of MDMA was chosen based on a grid search over {500, 1000, 2000, 3000, 4000} for each dataset, and the marginal CDF parameters by a search over {(l = 2, w = 3) , (l = 4, w = 5)}. MDMAの幅は,各データセットに対して,500, 1000, 2000, 3000, 4000}のグリッドサーチと, (l = 2, w = 3) , (l = 4, w = 5)} のサーチによる限界CDFパラメータに基づいて選択された。 0.78
All models were trained using ADAM with learning rate 0.01, and results for MDMA and nMDMA are averaged over 3 runs. すべてのモデルはADAMで学習率0.01で訓練され、MDMAとnMDMAの成績は平均3回以上である。 0.69
Additional experimental details are provided in Appendix C. さらなる実験の詳細はAppendix Cで提供されている。 0.66
5 Discussion MDMAs offer the ability to obtain, from a single model, closed form probabilities, marginals and conditionals for any subset of the variables. 5 討論 MDMAは、変数の任意の部分集合に対して、単一のモデルから閉じた形式確率、限界、条件を求める能力を提供する。 0.69
These properties enable one to straightforwardly use the model to solve a diverse array of problems, of which we have demonstrated only a few: mutual information estimation between arbitrary subsets of variables, inference with missing values, and conditional independence testing targeted at multivariate causal discovery. これらの特性により、モデルを使って様々な問題を解決することができるが、それらは、変数の任意の部分集合間の相互情報推定、欠落した値の推論、多変量因果関係の発見をターゲットとした条件付き独立性テストである。 0.76
In addition to these, MDMA’s marginalization property can be used for anomaly detection with missing values [64]. これらに加えて、MDMAの限界化特性は、欠落した値 [64] の異常検出に利用できる。 0.82
We have shown that MDMA can fit data with missing values without requiring imputation, yet if one is MDMAは計算を必要とせずにデータと不一致の値に適合できることを示した。 0.78
2http://archive.ics. uci.edu/ml/datasets. php 2http://archive.ics. uci.edu/ml/datasets. php 0.25
9 9 0.85
英語(論文から抽出)日本語訳スコア
Table 2: General density estimation. 表2: 一般密度推定。 0.72
Test log likelihood for density estimation on UCI datasets. UCIデータセットの密度推定のためのテストログの可能性 0.75
The comparison results are reproduced from [10]. 比較結果は[10]から再現される。 0.80
Model Kingma et al 2018 [5] Grathwohl et al 2019 [8] Huang et al 2018 [6] Oliva et al 2018 [7] De Cao et al 2019 [9] Bigdeli et al 2020 [10] MDMA nMDMA Model Kingma et al 2018 [5] Grathwohl et al 2019 [8] Huang et al 2018 [6] Oliva et al 2018 [7] De Cao et al 2019 [9] Bigdeli et al 2020 [10] MDMA nMDMA 0.85
POWER [d=6] 0.17 ± .01 0.46 ± .01 0.62 ± .01 0.60 ± .01 0.61 ± .01 0.97 ± .01 0.57 ± .01 1.78 ± .12 POWER [d=6] 0.17 ± .01 0.46 ± .01 0.62 ± .01 0.60 ± .01 0.61 ± .01 0.97 ± .01 0.57 ± .01 1.78 ± .12 0.62
GAS [d=11] 8.15 ± .4 8.59 ± .12 11.96 ± .33 12.06 ± .02 12.06 ± .09 9.73 ± 1.14 8.92 ± 0.11 8.43 ± .04 GAS [d=11] 8.15 ± .4 8.59 ± .12 11.96 ± .33 12.06 ± .02 12.06 ± .09 9.73 ± 1.14 8.92 ± 0.11 8.43 ± .04 0.60
HEPMASS [d=21] MINIBOONE [d=43] −18.92 ± .08 −14.92 ± .08 −15.08 ± .4 −13.78 ± .02 −14.71 ± .38 −11.3 ± .16 −20.8 ± .06 −18.0 ± 0.91 HEPMASS [d=21] MINIBOONE [d=43] −18.92 ± .08 −14.92 ± .08 −15.08 ± .4 −13.78 ± .02 −14.71 ± .38 −11.3 ± .16 −20.8 ± .06 −18.0 ± 0.91 0.55
−11.35 ± .07 −10.43 ± .04 −8.86 ± .15 −11.01 ± .48 −8.95 ± .07 −6.94 ± 1.81 −29.0 ± .06 −18.6 ± .47 −11.35 ± .07 −10.43 ± .04 −8.86 ± .15 −11.01 ± .48 −8.95 ± .07 −6.94 ± 1.81 −29.0 ± .06 −18.6 ± .47 0.51
interested in data imputation for downstream tasks, the ability to sample from arbitrary conditional distributions means that MDMA can be used for imputation as well. ダウンストリームタスクのデータ計算に興味があり、任意の条件分布からサンプリングできるということは、MDMAも計算に使えることを意味する。 0.69
Additionally, in some application areas (e g , financial risk management), powerful models exist for the univariate distributions, and marginal distributions are then glued together using copulas [65]. さらに、いくつかのアプリケーション領域(例えば、金融リスク管理)では、単変量分布の強力なモデルが存在し、余剰分布はコプラ[65]を用いて接着される。 0.77
However, popular copula estimators suffer from the same drawbacks as modern neural network density estimators with regard to marginalization and conditioning. しかし、一般的なコプラ推定器は、限界化と条件付けに関して、現代のニューラルネットワーク密度推定器と同じ欠点を負う。 0.48
Using MDMA for copula estimation (say by replacing the kernel density estimator by MDMA in the formulation of [66]), one can then obtain copula estimators that do not suffer from these deficiencies. MDMAをコプラ推定(例えば[66]の定式化において、核密度推定器をMDMAに置き換えること)に使うと、これらの欠陥に悩まされないコプラ推定器が得られる。 0.75
The main shortcoming of MDMA is the linearity in the combination of the products of univariate CDFs which appears to limit the expressivity of the model. MDMAの主な欠点は、モデルの表現性を制限するように見える単変量CDFの積の組み合わせにおける線形性である。 0.79
The study of tensor decompositions is an active area of research, and novel constructions, ideally adapted specifically for this task, could lead to improvements in this regard despite the linear structure. テンソル分解の研究は研究の活発な領域であり、このタスクに理想的に適応した新しい構造は、線形構造にもかかわらず、この点において改善をもたらす可能性がある。 0.74
10 10 0.85
英語(論文から抽出)日本語訳スコア
Acknowledgements The work of DG is supported by a Swartz fellowship. 覚書 DGの仕事はシュワルツのフェローシップによって支えられている。 0.48
The work of AP is supported by the Simons Foundation, the DARPA NESD program, NSF NeuroNex Award DBI1707398 and The Gatsby Charitable Foundation. APの活動はSimons Foundation、DARPA NESDプログラム、NSF NeuroNex Award DBI1707398、The Gatsby Charitable Foundationによって支援されている。 0.79
References [1] David W Scott. 参考文献 デヴィッド・W・スコット(David W Scott)。 0.62
On optimal and data-based histograms. 最適およびデータに基づくヒストグラムについて 0.66
Biometrika, 66(3):605–610, 1979. Biometrika, 66(3):605–610, 1979。 0.89
[2] Gábor Lugosi, Andrew Nobel, et al Consistency of data-driven histogram methods for density [2] gábor lugosi, andrew nobel, et al consistency of data-driven histogram method for density 0.77
estimation and classification. Annals of Statistics, 24(2):687–706, 1996. 推定と分類。 Annals of Statistics, 24(2):687–706, 1996 0.81
[3] Murray Rosenblatt. マレー・ローゼンブラット(Maray Rosenblatt) 0.43
Remarks on Some Nonparametric Estimates of a Density Function. 密度関数の非パラメトリックな推定について 0.61
The Annals of Mathematical Statistics, 27(3):832 – 837, 1956. annals of mathematical statistics, 27(3):832 – 837, 1956年。 0.56
[4] Emanuel Parzen. Emanuel Parzen (複数形 Emanuel Parzens) 0.67
On estimation of a probability density function and mode. 確率密度関数とモードの推定について 0.72
The annals of annals (複数形 annals) 0.40
mathematical statistics, 33(3):1065–1076, 1962. 数学統計、33(3):1065–1076, 1962。 0.85
[5] Durk P Kingma and Prafulla Dhariwal. 5] durk p kingma と prafulla dhariwal です。 0.68
Glow: Generative flow with invertible 1x1 convolutions. glow: 可逆 1x1 畳み込みを伴う生成フロー。 0.67
In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 31. S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 31。 0.96
Curran Associates, Inc., 2018. Curran Associates, Inc., 2018。 0.79
[6] Chin-Wei Huang, David Krueger, Alexandre Lacoste, and Aaron Courville. 6]Cin-Wei Huang、David Krueger、Alexandre La Coste、Aaron Courville。 0.65
Neural autoregressive flows. In International Conference on Machine Learning, pages 2078–2087. 神経性自己回帰流。 機械学習に関する国際会議』2078-2087頁。 0.64
PMLR, 2018. 2018年、PMLR。 0.68
[7] Junier Oliva, Avinava Dubey, Manzil Zaheer, Barnabas Poczos, Ruslan Salakhutdinov, Eric Xing, and Jeff Schneider. Junier Oliva氏、Avinava Dubey氏、Manzil Zaheer氏、Barnabas Poczos氏、Ruslan Salakhutdinov氏、Eric Xing氏、Jeff Schneider氏。
訳抜け防止モード: [7]Junier Oliva,Avinava Dubey,Manzil Zaheer, Barnabas Poczos氏、Ruslan Salakhutdinov氏、Eric Xing氏、Jeff Schneider氏。
0.84
Transformation autoregressive networks. トランスフォーメーション自己回帰ネットワーク。 0.72
In International Conference on Machine Learning, pages 3898–3907. 機械学習に関する国際会議』3898-3907頁。 0.75
PMLR, 2018. 2018年、PMLR。 0.68
[8] Will Grathwohl, Ricky TQ Chen, Jesse Bettencourt, Ilya Sutskever, and David Duvenaud. Will Grathwohl氏、Ricky TQ Chen氏、Jesse Bettencourt氏、Ilya Sutskever氏、David Duvenaud氏。 0.69
Ffjord: Free-form continuous dynamics for scalable reversible generative models. ffjord: スケーラブルな可逆生成モデルのための自由形式の連続ダイナミクス。 0.73
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
[9] Nicola De Cao, Wilker Aziz, and Ivan Titov. 9]Nicola De Cao、Wilker Aziz、Ivan Titov。 0.53
Block neural autoregressive flow. ブロック型自己回帰流。 0.61
In Uncertainty in Artificial Intelligence, pages 1263–1273. 不確実性 人工知能』 1263-1273頁。 0.64
PMLR, 2020. PMLR、2020年。 0.88
[10] Siavash A Bigdeli, Geng Lin, Tiziano Portenier, L Andrea Dunbar, and Matthias Zwicker. Siavash A Bigdeli, Geng Lin, Tiziano Portenier, L Andrea Dunbar, Matthias Zwicker。 0.60
Learning generative models using denoising density estimators. 雑音密度推定器を用いた学習生成モデル 0.76
arXiv preprint arXiv:2001.02728, 2020. arXiv preprint arXiv:2001.02728, 2020 0.80
[11] Judea Pearl. 11]ジュデア・パール。 0.53
Causality: Models, Reasoning and Inference. 因果性: モデル、推論、推論。 0.53
Cambridge University Press, USA, ケンブリッジ大学出版局、アメリカ。 0.66
2nd edition, 2009. 2009年、第2版。 0.70
[12] Pawel Chilinski and Ricardo Silva. 12]Pawel ChilinskiとRicardo Silva。 0.65
Neural likelihoods via cumulative distribution functions. 累積分布関数によるニューラルポテンシャル 0.66
In Conference on Uncertainty in Artificial Intelligence, pages 420–429. 院 人工知能の不確実性に関する会議、420-429頁。 0.51
PMLR, 2020. PMLR、2020年。 0.88
[13] Wolfgang Hackbusch. Wolfgang Hackbusch. [13] Wolfgang Hackbusch 0.82
Tensor spaces and numerical tensor calculus, volume 42. テンソル空間と数値テンソル計算、巻42。 0.61
Springer, 2012. Springer 2012. 0.67
[14] Andrzej Cichocki, Namgil Lee, Ivan Oseledets, Anh-Huy Phan, Qibin Zhao, and Danilo P Mandic. 14] Andrzej Cichocki, Namgil Lee, Ivan Oseledets, Anh-Huy Phan, Qibin Zhao, Danilo P Mandic 0.75
Tensor networks for dimensionality reduction and large-scale optimization: Part 1 lowrank tensor decompositions. 次元減少と大規模最適化のためのテンソルネットワーク:その1 低ランクテンソル分解 0.77
Foundations and Trends® in Machine Learning, 9(4-5):249–429, 2016. Foundations and Trends® in Machine Learning, 9(4-5):249–429, 2016 0.87
[15] Yun Li, Cristen Willer, Serena Sanna, and Gonçalo Abecasis. [15]Yun Li, Cristen Willer, Serena Sanna, Gonçalo Abecasis。 0.71
Genotype imputation. Genotype imputation 0.58
Annual review of genomics and human genetics, 10:387–406, 2009. 年 ゲノムとヒト遺伝学のレビュー, 10:387–406, 2009 0.73
[16] Jonathan Marchini and Bryan Howie. 16]ジョナサン・マルティーニとブライアン・ハウイ 0.60
Genotype imputation for genome-wide association studies. ゲノムワイド・アソシエーション研究のための遺伝子型インプテーション 0.51
Nature Reviews Genetics, 11(7):499–511, 2010. Nature Reviews Genetics, 11(7):499–511, 2010 0.95
[17] Ivan Kobyzev, Simon Prince, and Marcus Brubaker. イヴァン・コビゼフ、シモン・プリンス、マーカス・ブルバカー。 0.37
Normalizing flows: An introduction and review of current methods. フローの正規化: 現在の方法の導入とレビュー。 0.77
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020 0.76
[18] George Papamakarios, Eric Nalisnick, Danilo Jimenez Rezende, Shakir Mohamed, and Balaji Lakshminarayanan. 16]George Papamakarios, Eric Nalisnick, Danilo Jimenez Rezende, Shakir Mohamed, Balaji Lakshminarayanan 0.65
Normalizing flows for probabilistic modeling and inference. 確率的モデリングと推論のための正規化フロー。 0.68
Journal of Machine Learning Research, 22(57):1–64, 2021. Journal of Machine Learning Research, 22(57):1–64, 2021。 0.94
11 11 0.85
英語(論文から抽出)日本語訳スコア
[19] Durk P Kingma, Tim Salimans, Rafal Jozefowicz, Xi Chen, Ilya Sutskever, and Max Welling. [19]Durk P Kingma、Tim Salimans、Rafal Jozefowicz、Xi Chen、Ilya Sutskever、Max Welling。
訳抜け防止モード: [19 ]Durk P Kingma, Tim Salimans, Rafal Jozefowicz, Xi Chen、Ilya Sutskever、Max Welling。
0.68
Improved variational inference with inverse autoregressive flow. 逆自己回帰流による変分推論の改善 0.73
In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 29. D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 29。 0.89
Curran Associates, Inc., 2016. Curran Associates, Inc., 2016 0.71
[20] Aaron Oord, Yazhe Li, Igor Babuschkin, Karen Simonyan, Oriol Vinyals, Koray Kavukcuoglu, George Driessche, Edward Lockhart, Luis Cobo, Florian Stimberg, et al Parallel wavenet: Fast high-fidelity speech synthesis. Aaron Oord, Yazhe Li, Igor Babuschkin, Karen Simonyan, Oriol Vinyals, Koray Kavukcuoglu, George Driessche, Edward Lockhart, Luis Cobo, Florian Stimberg, et al Parallel wavenet: 高速高忠実音声合成。 0.75
In International conference on machine learning, pages 3918–3926. 機械学習に関する国際会議、3918-3926頁。 0.76
PMLR, 2018. 2018年、PMLR。 0.68
[21] M Alex O Vasilescu and Demetri Terzopoulos. M Alex O VasilescuとDemetri Terzopoulos。 0.55
Multilinear analysis of image ensembles: 画像アンサンブルの多重線形解析 0.70
Tensorfaces. In European conference on computer vision, pages 447–460. テンソルフェイス。 欧州のコンピュータビジョン会議において、447-460頁。 0.61
Springer, 2002. 2002年、スプリンガー。 0.63
[22] Andrzej Cichocki, Rafal Zdunek, Anh Huy Phan, and Shun-ichi Amari. [22]Andrzej Cichocki、Rafal Zdunek、Anh Huy Phan、Amari。 0.38
Nonnegative matrix and tensor factorizations: applications to exploratory multi-way data analysis and blind source separation. 非負行列とテンソル分解 : 探索的マルチウェイデータ解析とブラインドソース分離への応用 0.80
John Wiley & Sons, 2009. 2009年、ジョン・ワイリー&サンズ。 0.60
[23] Animashree Anandkumar, Rong Ge, Daniel Hsu, Sham M Kakade, and Matus Telgarsky. Animashree Anandkumar, Rong Ge, Daniel Hsu, Sham M Kakade, Matus Telgarsky。 0.55
Tensor decompositions for learning latent variable models. 潜在変数モデル学習のためのテンソル分解 0.76
Journal of machine learning research, 15:2773–2832, 2014. Journal of Machine Learning Research, 15:2773–2832, 2014 0.86
[24] Evangelos E Papalexakis, Christos Faloutsos, and Nicholas D Sidiropoulos. Evangelos E Papalexakis, Christos Faloutsos, Nicholas D Sidiropoulos. 0.58
Tensors for data mining and data fusion: Models, applications, and scalable algorithms. データマイニングとデータ融合のためのテンソル:モデル、アプリケーション、スケーラブルなアルゴリズム。 0.76
ACM Transactions on Intelligent Systems and Technology (TIST), 8(2):1–44, 2016. ACM Transactions on Intelligent Systems and Technology (TIST) 8(2):1–44, 2016 0.87
[25] Nicholas D Sidiropoulos, Lieven De Lathauwer, Xiao Fu, Kejun Huang, Evangelos E Papalexakis, and Christos Faloutsos. [25]Nicholas D Sidiropoulos, Lieven de Lathauwer, Xiao Fu, Kejun Huang, Evangelos E Papalexakis, Christos Faloutsos。 0.74
Tensor decomposition for signal processing and machine learning. 信号処理と機械学習のためのテンソル分解 0.77
IEEE Transactions on Signal Processing, 65(13):3551–3582, 2017. IEEE Transactions on Signal Processing, 65(13):3551–3582, 2017 0.91
[26] Vadim Lebedev, Yaroslav Ganin, Maksim Rakhuba, Ivan Oseledets, and Victor Lempitsky. Vadim Lebedev氏、Yaroslav Ganin氏、Maksim Rakhuba氏、Ivan Oseledets氏、Victor Lempitsky氏。 0.64
Speeding-up convolutional neural networks using fine-tuned cp-decomposition. 微調整cp分解を用いた畳み込みニューラルネットワークの高速化 0.59
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
PMLR, 2015. 2015年、PMLR。 0.70
[27] Cheng Tai, Tong Xiao, Yi Zhang, Xiaogang Wang, et al Convolutional neural networks with low-rank regularization. [27]Cheng Tai,Tong Xiao,Yi Zhang,Xiaogang Wang,その他低ランク正規化による畳み込みニューラルネットワーク。 0.76
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
PMLR, 2016. 2016年、PMLR。 0.69
[28] Alexander Novikov, Dmitry Podoprikhin, Anton Osokin, and Dmitry Vetrov. Alexander Novikov, Dmitry Podoprikhin, Anton Osokin, Dmitry Vetrov. 0.58
Tensorizing neural networks. テンソル化ニューラルネットワーク。 0.74
In The 29-th Conference on Natural Information Processing Systems (NIPS), 2015. 第29回自然情報処理システム会議(NIPS)に参加して 0.63
[29] Yong-Deok Kim, Eunhyeok Park, Sungjoo Yoo, Taelim Choi, Lu Yang, and Dongjun Shin. [29]ヨン・デオク・キム、ウンヒョオク・パーク、ソンジョオ・ヨー、タエリム・チョイ、ル・ヤン、ドンジュン・シン。 0.51
Compression of deep convolutional neural networks for fast and low power mobile applications. 高速かつ低消費電力なモバイルアプリケーションのためのディープ畳み込みニューラルネットワークの圧縮 0.75
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
PMLR, 2016. 2016年、PMLR。 0.69
[30] Yongxin Yang and Timothy Hospedales. 30] ヨンシン・ヤンと ティモシー・ホスペデールズ 0.41
Deep multi-task representation learning: A tensor 深層マルチタスク表現学習:テンソル 0.58
factorisation approach. 2017. 因子化アプローチ。 2017. 0.68
[31] Yunpeng Chen, Xiaojie Jin, Bingyi Kang, Jiashi Feng, and Shuicheng Yan. [31]ユンペン・チェン、Xiaojie Jin、Bingy Kang、Jirshi Feng、Shuicheng Yan。 0.68
Sharing residual units through collective tensor factorization to improve deep neural networks. ディープニューラルネットワークを改善するために、集合テンソル因子化による残留ユニットの共有。 0.51
In IJCAI, pages 635–641, 2018. IJCAI』635-641頁、2018年。 0.70
[32] Nadav Cohen, Or Sharir, and Amnon Shashua. [32]Nadav Cohen、Or Sharir、そしてAmnon Shashua。 0.71
On the expressive power of deep learning: A 深層学習の表現力について:A 0.77
tensor analysis. In Conference on learning theory, pages 698–728. テンソル解析。 学習理論に関する会議では、698-728頁。 0.64
PMLR, 2016. 2016年、PMLR。 0.69
[33] Benjamin D Haeffele and René Vidal. [33]Benjamin D HaeffeleとRené Vidal。 0.69
Global optimality in tensor factorization, deep learning, テンソル因子化, 深層学習における大域的最適性 0.58
and beyond. CoRR, 2015. そしてその先だ 2015年、CoRR。 0.67
[34] Majid Janzamin, Hanie Sedghi, and Anima Anandkumar. [34]ジャイド・ヤンザミン、ハニー・セジ、アニマ・アナンドクマール。 0.46
Generalization bounds for neural networks through tensor factorization. 神経の一般化境界 テンソル因子化によるネットワーク。 0.66
CoRR, abs/1506.08473, 1, 2015. CoRR, abs/1506.08473, 1, 2015 0.81
[35] Majid Janzamin, Hanie Sedghi, and Anima Anandkumar. [35]ジャイド・ヤンザミン、ハニー・セジ、アニマ・アナンドゥマル。 0.49
Beating the perils of non-convexity: Guaranteed training of neural networks using tensor methods. 非凸性のペリルを打ち負かす:テンソル法によるニューラルネットワークのトレーニングを保証する。 0.64
arXiv preprint arXiv:1506.08473, 2015. arXiv preprint arXiv:1506.08473, 2015 0.80
[36] Or Sharir and Amnon Shashua. [36]またはシャリールとアムノン・シャシュア。 0.64
On the expressive power of overlapping architectures of deep 深部の重なり合うアーキテクチャの表現力について 0.72
learning. In International Conference on Learning Representations. 学ぶこと。 学習表現に関する国際会議に参加。 0.72
PMLR, 2018. 2018年、PMLR。 0.68
[37] Johannes Ballé, David Minnen, Saurabh Singh, Sung Jin Hwang, and Nick Johnston. Johannes Ballé, David Minnen, Saurabh Singh, Sung Jin Hwang, Nick Johnston。 0.62
Variational image compression with a scale hyperprior. スケール超優先による変動画像圧縮 0.69
In International Conference on Learning Representations, 2018. 2018年、国際学習表現会議に参加。 0.75
12 12 0.85
英語(論文から抽出)日本語訳スコア
[38] Wolfgang Hackbusch and Stefan Kühn. 38]wolfgang hackbuschとstefan kühn。 0.47
A new scheme for the tensor representation. テンソル表現の新しいスキーム。 0.44
Journal of Fourier analysis and applications, 15(5):706–722, 2009. 日誌 フーリエ解析と応用 15(5):706–722, 2009 0.62
[39] Roderick JA Little and Donald B Rubin. Roderick JA LittleとDonald B Rubin。 0.53
Statistical analysis with missing data, 3rd Ed, volume 欠落データ、第3 ed、ボリュームを用いた統計解析 0.80
793. John Wiley & Sons, 2019. 793. ジョン・ワイリー&サンズ、2019年。 0.70
[40] Emmanuel J Candès and Benjamin Recht. 40] エマニュエル・j・カンデスとベンジャミン・レヒト 0.60
Exact matrix completion via convex optimization. 凸最適化による行列補完。 0.71
Foundations of Computational mathematics, 9(6):717–772, 2009. 計算数学の基礎 9(6):717–772, 2009 0.76
[41] Emmanuel J Candes and Yaniv Plan. 41]エマニュエル・J・カンデスとヤニフ・プラン。 0.59
Matrix completion with noise. 雑音によるマトリクス完了。 0.74
Proceedings of the IEEE, 98(6):925–936, 2010. IEEEの成果 98(6):925–936, 2010. 0.68
[42] Lorenzo Beretta and Alessandro Santaniello. 42] ロレンツォ・ベレッタと アレッサンドロ・サンタニエロ 0.59
Nearest neighbor imputation algorithms: a critical 最も近い隣り合う計算アルゴリズム--批判的アルゴリズム 0.72
evaluation. BMC medical informatics and decision making, 16(3):197–208, 2016. 評価 BMC医療情報学と意思決定, 16(3):197–208, 2016 0.66
[43] S van Buuren and Karin Groothuis-Oudshoorn. 43] S van Buuren と Karin Groothuis-Oudshoorn 0.75
mice: Multivariate imputation by chained マウス:鎖による多変量抑制 0.72
equations in r. Journal of statistical software, pages 1–68, 2010. r. Journal of statistical software, page 1–68, 2010 0.72
[44] Olga Troyanskaya, Michael Cantor, Gavin Sherlock, Pat Brown, Trevor Hastie, Robert Tibshirani, David Botstein, and Russ B Altman. 44] Olga Troyanskaya, Michael Cantor, Gavin Sherlock, Pat Brown, Trevor Hastie, Robert Tibshirani, David Botstein, Russ B Altman。 0.76
Missing value estimation methods for dna microarrays. dnaマイクロアレイの値推定方法の欠如 0.79
Bioinformatics, 17(6):520–525, 2001. バイオインフォマティクス 17(6):520–525, 2001。 0.74
[45] George Papamakarios, Theo Pavlakou, and Iain Murray. ジョージ・パパマカリオス、テオ・パヴラコウ、イアン・マレー。 0.40
Masked autoregressive flow for density estimation. 密度推定のためのマスク自己回帰流 0.73
In Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017. 2017年第31回ニューラル情報処理システム国際会議の開催報告 0.63
[46] Ronald Aylmer Fisher. 46] ロナルド・アイルマー・フィッシャー 0.53
Statistical methods for research workers. Especially Section, 21, 1936. 研究員の統計方法。 特に、1936年7月21日。 0.65
[47] Peter Spirtes, Clark Glymour, and Richard Scheines. Peter Spirtes氏、Clark Glymour氏、Richard Scheines氏。 0.65
Causation, Prediction, and Search. 因果関係、予測、探索。 0.58
MIT press, Causation2000, 2000. MIT 出版、2000年、2000年。 0.71
[48] Marloes H. Maathuis and Preetam Nandy. [48]marloes h. maathuisとpreetam nandy。 0.72
A review of some recent advances in causal inference. 因果推論の最近の進歩を振り返ってみよう。 0.53
In Handbook of Big Data. ビッグデータのハンドブック。 0.57
CRC Press, 2016. CRCプレス、2016年。 0.87
[49] Eric V Strobl, Kun Zhang, and Shyam Visweswaran. [49]Eric V Strobl、Kun Zhang、Shyam Visweswaran。 0.67
Approximate kernel-based conditional independence tests for fast non-parametric causal discovery. 高速非パラメトリック因果発見のためのカーネルベース条件独立試験 0.73
Journal of Causal Inference, 7(1), 2019. Journal of Causal Inference, 7(1), 2019 0.67
[50] Liangjun Su and Halbert White. 50] liangjun su と halbert white です。 0.61
A consistent characteristic function-based test for conditional 条件付き一貫した特徴関数ベーステスト 0.82
independence. Journal of Econometrics, 141(2):807–834, 2007. 独立。 Journal of Econometrics, 141(2):807–834, 2007 0.80
[51] Liangjun Su and Halbert White. [51] liangjun su と halbert white です。 0.72
A nonparametric hellinger metric test for conditional indepen- 条件付きインデペンの非パラメトリックヘリンガー計量試験 0.72
dence. Econometric Theory, pages 829–864, 2008. デンス Econometric Theory, page 829–864, 2008。 0.56
[52] Tzee-Ming Huang et al Testing conditional independence using maximal nonlinear conditional [52]Tzee-Ming Huangらによる最大非線形条件付きテスト条件独立 0.82
correlation. The Annals of Statistics, 38(4):2047–2091, 2010. 相関関係 The Annals of Statistics, 38(4):2047–2091, 2010 0.78
[53] Rajen D Shah, Jonas Peters, et al The hardness of conditional independence testing and the 53]Rajen D Shah, Jonas Peters, et al 条件付き独立テストの難しさと課題 0.71
generalised covariance measure. Annals of Statistics, 48(3):1514–1538, 2020. 一般化共分散測度。 Annals of Statistics, 48(3):1514–1538, 2020 0.75
[54] Kun Zhang, Jonas Peters, Dominik Janzing, and Bernhard Schölkopf. 54] Kun Zhang, Jonas Peters, Dominik Janzing, Bernhard Schölkopf 0.61
Kernel-based conditional independence test and application in causal discovery. カーネルに基づく条件独立試験と因果発見への応用 0.78
UAI11, page 804–813. UAI11、804-813頁。 0.69
AUAI Press, 2011. AUAI Press、2011年。 0.76
[55] Lasse Petersen and Niels Richard Hansen. Lasse Petersen and Niels Richard Hansen.[55] Lasse Petersen and Niels Richard Hansen. 0.70
Testing conditional independence via quantile regression based partial copulas. 量子回帰に基づく部分コーパスによる条件独立性の検証 0.66
Journal of Machine Learning Research, 22(70):1–47, 2021. Journal of Machine Learning Research, 22(70):1–47, 2021。 0.94
[56] Fabian Spanhel and Malte S Kurz. 56]Fabian SpanhelとMalte S Kurz。 0.64
The partial copula: Properties and associated dependence 部分コプラ:特性と関連する依存 0.68
measures. Statistics & Probability Letters, 119:76–83, 2016. 対策だ 統計・確率レター119:76-83, 2016。 0.60
[57] Markus Kalisch and Peter Bühlman. Markus Kalisch氏とPeter Bühlman氏。 0.65
Estimating high-dimensional directed acyclic graphs with 高次元有向非巡回グラフの推定 0.77
the pc-algorithm. pc-algorithm 0.73
Journal of Machine Learning Research, 8(3), 2007. journal of machine learning research, 8(3), 2007年。 0.78
[58] Xiaohai Sun, Dominik Janzing, Bernhard Schölkopf, and Kenji Fukumizu. [58]Xiaohai Sun, Dominik Janzing, Bernhard Schölkopf, and Fukumizu Kenji。 0.78
A kernel-based causal learning algorithm. カーネルベースの因果学習アルゴリズム。 0.74
In Proceedings of the 24th international conference on Machine learning, pages 855–862, 2007. 第24回機械学習国際会議の議事録、2007年855-862頁。 0.69
[59] Robert E Tillman, Arthur Gretton, and Peter Spirtes. Robert E Tillman氏、Arthur Gretton氏、Peter Spirtes氏。 0.66
Nonlinear directed acyclic structure 非線形指向非環状構造 0.79
learning with weakly additive noise models. 弱い付加的なノイズモデルで学習します 0.71
In NIPS, pages 1847–1855, 2009. NIPS』1847-1855年、2009年。 0.64
[60] Naftali Harris and Mathias Drton. 60] ナフタリ・ハリスと マティアス・ドトン 0.57
Pc algorithm for nonparanormal graphical models. 非正規グラフィカルモデルのためのPcアルゴリズム 0.75
Journal of Machine Learning Research, 14(11), 2013. 日誌 機械学習研究14(11)、2013年。 0.68
13 13 0.85
英語(論文から抽出)日本語訳スコア
[61] Diviyan Kalainathan, Olivier Goudet, and Ritik Dutta. 61] Diviyan Kalainathan, Olivier Goudet, Ritik Dutta。 0.64
Causal discovery toolbox: Uncovering 因果発見ツールボックス: uncovering 0.83
causal relationships in python. pythonの因果関係。 0.68
Journal of Machine Learning Research, 21(37):1–5, 2020. Journal of Machine Learning Research, 21(37):1-5, 2020 0.88
[62] Karen Sachs, Omar Perez, Dana Pe’er, Douglas A Lauffenburger, and Garry P Nolan. 62]カレン・サックス、オマール・ペレス、ダナ・ペイヤー、ダグラス・ア・ラウフェンバーグ、ゲイリー・p・ノーラン。 0.52
Causal protein-signaling networks derived from multiparameter single-cell data. マルチパラメータ単細胞データから誘導される因果タンパク質シグナルネットワーク 0.64
Science, 308(5721):523–529, 2005. 308(5721):523-529, 2005。 0.64
[63] Ioannis Tsamardinos, Laura E. Brown, and Constantin F. Aliferis. [63] ioannis tsamardinos, laura e. brown, constantin f. aliferis。 0.64
The max-min hill-climbing Bayesian network structure learning algorithm. 最高峰登山 ベイズネットワーク構造学習アルゴリズム。 0.67
Machine Learning, 65(1):31–78, oct 2006. 機械学習, 65(1):31–78, oct 2006 0.89
[64] Thomas G Dietterich and Tadesse Zemicheal. 64] トーマス・g・ディーテリッヒと タデッセ・ゼミケール 0.52
Anomaly detection in the presence of missing 行方不明者における異常検出 0.68
values. ODD v5.0: Outlier Detection De-constructed Workshop, 2018. 価値。 ODD v5.0: Outlier Detection De-Constructed Workshop, 2018 0.69
[65] Alexander J McNeil, Rüdiger Frey, and Paul Embrechts. 65] アレクサンドル・j・マクニール、リュディガー・フレイ、ポール・エンブレヒト 0.64
Quantitative risk management: concepts, techniques and tools-revised edition. 定量的リスク管理 コンセプト、技術、ツールの改訂版。 0.65
Princeton university press, 2015. プリンストン大学出版局、2015年。 0.62
[66] Gery Geenens, Arthur Charpentier, and Davy Paindaveine. Gery Geenens氏、Arthur Charpentier氏、Davy Paindaveine氏。 0.53
Probit transformation for nonpara- 非パラメトリックなプロビット変換 0.63
metric kernel estimation of the copula density. メートル法カーネルによるコプラ密度の推定 0.71
Bernoulli, 23(3):1848–1873, August 2017. Bernoulli, 23(3):1848–1873, August 2017 0.92
[67] Charles Dugas, Yoshua Bengio, François Bélisle, Claude Nadeau, and René Garcia. [67]チャールズ・デュガス、ヨシュア・ベンジオ、フランソワ・ベリスル、クロード・ナドー、ルネ・ガルシア。 0.48
Incorporating functional knowledge in neural networks. ニューラルネットワークに機能的知識を組み込む。 0.79
Journal of Machine Learning Research, 10(6), 2009. journal of machine learning research, 10(6)、2009年。 0.75
[68] Hennie Daniels and Marina Velikova. Hennie DanielsとMarina Velikova。 0.51
Monotone and partially monotone neural networks. モノトーンと部分モノトーンニューラルネットワーク。 0.68
IEEE Transactions on Neural Networks, 21(6):906–917, 2010. IEEE Transactions on Neural Networks, 21(6):906–917, 2010 0.89
[69] Anirban DasGupta. 69]Anirban DasGupta氏。 0.76
Asymptotic theory of statistics and probability. 統計と確率の漸近理論。 0.74
Springer Science & Business Springer Science & Business 0.85
Media, 2008. 2008年、メディア。 0.89
[70] Elliott Ward Cheney and William Allan Light. 70] エリオット・ウォード・チェイニーと ウィリアム・アラン・ライト 0.63
A course in approximation theory, volume 101. 近似理論のコース、ボリューム101。 0.60
American Mathematical Soc., 2009. アメリカ数学協会、2009年。 0.65
[71] Hien D Nguyen and Geoffrey McLachlan. 971]Hen D Nguyen氏とGeoffrey McLachlan氏。 0.69
On approximations via convolution-defined mixture 畳み込み定義混合による近似について 0.55
models. Communications in Statistics-Theory and Methods, 48(16):3945–3955, 2019. モデル。 統計理論と方法論のコミュニケーション 48 16:3945–3955, 2019 0.75
[72] David Maxwell Chickering. デヴィッド・マクスウェル・チカリング(David Maxwell Chickering)。 0.57
Learning equivalence classes of bayesian-network structures. ベイズネットワーク構造の等価クラスを学習する。 0.63
The Journal of Machine Learning Research, 2:445–498, 2002. Journal of Machine Learning Research, 2:445–498, 2002 0.59
[73] Robert W Robinson. ロバート・W・ロビンソン(Robert W Robinson)。 0.60
Counting unlabeled acyclic digraphs. ラベルなしの非巡回グラフを数える。 0.45
In Combinatorial mathematics V, 組合せ数学 v では 0.62
pages 28–43. Springer, 1977. 28-43頁。 1977年、スプリンガー。 0.60
[74] A Cichocki, A-H Phan, Q Zhao, N Lee, I V Oseledets, M Sugiyama, and D Mandic. [74]A Cichocki、A-H Phan、Q Zhao、N Lee、I V Oseledets、M Sugiyama、D Mandic。 0.76
Tensor networks for dimensionality reduction and Large-Scale optimizations. 次元削減と大規模最適化のためのテンソルネットワーク 0.77
part 2 applications and future perspectives. 第2部 応用と今後の展望 0.66
August 2017. [75] Lechao Xiao, Yasaman Bahri, Jascha Sohl-Dickstein, Samuel Schoenholz, and Jeffrey Pennington. 2017年8月。 Lechao Xiao氏、Yasaman Bahri氏、Jascha Sohl-Dickstein氏、Samuel Schoenholz氏、Jeffrey Pennington氏。 0.69
Dynamical isometry and a mean field theory of cnns: How to train 10,000-layer vanilla convolutional neural networks. cnnの動的等長法と平均場理論:1万層バニラ畳み込みニューラルネットワークの訓練法 0.67
In International Conference on Machine Learning, pages 5393–5402. 国際機械学習会議において、5393-5402頁。 0.75
PMLR, 2018. 2018年、PMLR。 0.68
[76] Yaniv Blumenfeld, Dar Gilboa, and Daniel Soudry. 76] Yaniv Blumenfeld, Dar Gilboa, Daniel Soudry。 0.63
Beyond signal propagation: Is feature 信号伝搬を超えて:特徴 0.79
diversity necessary in deep neural network initialization? ディープニューラルネットワークの初期化に必要な多様性? 0.67
July 2020. [77] Vittorio Giovannetti, Simone Montangero, and Rosario Fazio. 2020年7月。 77] Vittorio Giovannetti, Simone Montangero, Rosario Fazio 0.62
Quantum MERA channels. 量子MERAチャンネル。 0.65
April 2008. 14 4月 2008. 14 0.76
英語(論文から抽出)日本語訳スコア
Supplementary Material A Proofs A.1 Proof of Proposition 1 補助材料Aの証明 A.1 命題1の証明 0.66
The proof follows directly from Algorithm 1. この証明はアルゴリズム1から直接導かれる。 0.71
The distribution FAHT,Φ) =(cid:10)AHT, Φ(cid:11) is a mixture 分布 FAHT, ) =(cid:10)AHT, >(cid:11) は混合である 0.88
model, and thus in order to sample from it we can first draw a single mixture component (which is a product of univariate CDFs) and then sample from this single component. モデルからサンプルを取り出すには、まず1つの混合コンポーネント(不活性化cdfの産物)を描画し、それからこの1つのコンポーネントからサンプルを抽出します。 0.77
The mixture weights are the elements of the tensor AHT given by the diagonal HT decomposition (8). 混合重量は、対角HT分解(8)により与えられるテンソルAHTの要素である。 0.72
In the next section, we add details on the sampling process for the sake of clarity. 次の節では、明確性のためにサンプリングプロセスの詳細を追加します。 0.66
A.1.1 Details on the sampling for the HT model Define a collection of independent categorical variables R = {R(cid:96) (cid:96) ∈ [p], i ∈ [m] and for any (cid:96), j ∈ [2p−(cid:96)]. A.1.1 HTモデルのサンプリングの詳細は、独立なカテゴリ変数 R = {R(cid:96) (cid:96) ∈ [p], i ∈ [m] と任意の (cid:96), j ∈ [2p−(cid:96)] の集合を定義する。 0.80
These variables are distributed according to i,j} taking values in [m], where これらの変数は i,j} は [m] で値を取るが 0.64
∀(cid:96), i, j : は (cid:96), i, j : 0.56
P(cid:2)R(cid:96) i,j = k(cid:3) = λ(cid:96) P(cid:2)R(cid:96) i,j = k(cid:3) = λ(cid:96) 0.86
i,k,j, (cid:96)=1 are the parameters of the HT decomposition. i,k,j, (cid:96)=1はHT分解のパラメータである。 0.85
The fact that the parameters are パラメータが同じであるという事実 0.62
k=1 λ(cid:96) k=1 λ(cid:96) 0.71
k,i,j = 1 ensures the validity of this distribution. k,i,j = 1 はこの分布の妥当性を保証する。 0.86
where {λ(cid:96)}p ここで {λ(cid:96)}p 0.69
nonnegative and(cid:80)m (cid:16)∩2p−(cid:96) 非負および(cid:80)m (cid:16) =2p−(cid:96) 0.62
With the convention Rp コンベンションRpについて 0.61
p(cid:92) j(cid:96)=1 p(cid:92) j(cid:96)=1 0.81
(cid:110) (cid:96)=1 (cid:110) (cid:96)=1 0.76
kp+1,1,1 = Rp kp+1,1,1 = Rp 0.47
1,1, define the event 1,1 イベントを定義する 0.82
R(cid:96) R(Ccid:96) 0.81
k(cid:96)+1,(cid:100)j(cid:96) /2(cid:101),j(cid:96 ) = k(cid:96),j(cid:96) k(cid:96)+1,(cid:100)j(cid:96) /2(cid:101),j(cid:96 ) = k(cid:96),j(cid:96) 0.84
(cid:111)(cid:17) (cid:111)(cid:17) 0.75
(cid:9) 1,1 = kp,1 (cid:9) 1,1 = kp,1 0.69
=(cid:8)Rp (cid:92)(cid:16)∩2 ...(cid:92)(cid:16)∩d/2 =(cid:8)Rp (cid:92)(cid:16) =2 ...(cid:92)(cid:16) =d/2 0.61
j=1 j=1 (cid:110) (cid:110) j=1 j=1 (cid:110)(cid:110) 0.64
Rp−1 kp,1,j = kp−1,j Rp−1 kp,1,j = kp−1,j 0.71
(cid:111)(cid:17) (cid:111)(cid:17) (cid:111)(cid:17)(ci d:111)(cid:17) 0.72
(cid:34) Let ( ˜X1, . (cid:34) (x1, ) とする。 0.67
. . , ˜Xd, R) be a random vector such that . . , Xd, R) がランダムなベクトルであるようなもの 0.85
P ˜X1 ≤ x1, . P X1 ≤ x1。 0.85
. . , ˜Xd ≤ xd . . , Xd ≤ xd 0.84
R(cid:96) R(Ccid:96) 0.81
k(cid:96)+1,(cid:100)j(cid:96) /2(cid:101),j(cid:96 ) = k(cid:96),j(cid:96) k(cid:96)+1,(cid:100)j(cid:96) /2(cid:101),j(cid:96 ) = k(cid:96),j(cid:96) 0.84
(cid:12)(cid:12)(cid :12)(cid:12)(cid:12) p(cid:92) (cid:12)(cid:12)(cid :12)(cid:12)p(cid:92 ) 0.86
(cid:96)=1 (cid:96)=1 0.74
(cid:16)∩2p−(cid:96) (cid:16)2p−(cid:96) 0.58
j(cid:96)=1 j(cid:96)=1 0.78
(cid:110) R1 (cid:110) R1 0.78
k2,(cid:100)j/2(cid: 101),j = k1,j k2,(cid:100)j/2(cid: 101),j = k1,j 0.86
. (cid:111)(cid:17)(ci d:35) . (cid:111)(cid:17)(ci d:35) 0.79
d(cid:89) i=1 d(cid:89) i=1 0.71
= ϕk1,(cid:100)i/2(cid: 101),i(xi), = φk1,(cid:100)i/2(cid: 101),i(xi) 0.87
(10) which implies that the distribution of ( ˜X1, . (10) は (x1, ) の分布を意味する。 0.84
. . , ˜Xd) obtained after conditioning on a subset of the {R(cid:96) i,j} in this way is equal to a single mixture component in FHT = (cid:104)A, Φ(cid:105). . . この方法で {R(cid:96) i,j} の部分集合上で条件付けした後の , Xd) は、FHT = (cid:104)A, , (cid:105) の単一混合成分に等しい。 0.83
Thus, based on a sample of R, one can sample ˜Xi by inverting the univariate CDFs ϕk1,(cid:100)i/2(cid: 101),i numerically and parallelizing over i. したがって、R のサンプルに基づいて、単変量 CDFs φk1,(cid:100)i/2(cid: 101)i を数値的に、i 上で並列化することにより、Xi をサンプリングすることができる。 0.57
Numerical inversion is trivial since the functions are increasing and continuously differentiable, and this can be done for instance using the bisection method. 関数は増大し、連続的に微分可能であるため、数値反転は自明である。
訳抜け防止モード: 関数は増加し、連続的に微分可能であるので、数値反転は自明である。 これは例えばbisectionメソッドを使って行うことができます。
0.61
It remains to sample a mixture component. 混合成分のサンプルとして残されている。 0.65
Assume that a sample {R(cid:96) With the convention λp サンプル {R(cid:96) を規約 λp で仮定する 0.83
i,j} for a sequence of variables as in (10) is obtained e g from Algorithm 1. i,j} は (10) のような変数列に対してアルゴリズム 1 から e g を得る。 0.81
(cid:110) kp+1,1,k,1 = λp (cid:110) kp+1,1,k,1 = λp 0.66
(cid:111)(cid:17)(ci d:35) (cid:111)(cid:17)(ci d:35) 0.74
k, since (cid:34) p(cid:92) k、それ以来 (cid:34)p(cid:92) 0.77
2p−(cid:96)(cid:89) 2p−(cid:96)(cid:89) 0.67
p(cid:89) R(cid:96) p(cid:89) R(Ccid:96) 0.82
k(cid:96)+1,(cid:100)j(cid:96) /2(cid:101),j(cid:96 ) = k(cid:96),j(cid:96) k(cid:96)+1,(cid:100)j(cid:96) /2(cid:101),j(cid:96 ) = k(cid:96),j(cid:96) 0.84
= λ(cid:96) k(cid:96)+1,(cid:100)j(cid:96) /2(cid:101),k(cid:96 ),j(cid:96) ,j(cid:96) , = λ(cid:96) k(cid:96)+1,(cid:100)j(cid:96) /2(cid:101),k(cid:96 ),j(cid:96) ,j(cid:96) , 0.85
(cid:16)∩2p−(cid:96) (cid:16)2p−(cid:96) 0.58
j(cid:96)=1 j(cid:96)=1 0.78
P (cid:96)=1 P (cid:96)=1 0.79
(cid:96)=1 (cid:96)=1 0.74
j(cid:96)=1 j(cid:96)=1 0.78
sampling from the categorical variables in this fashion is equivalent to sampling a mixture component. この方法でのカテゴリ変数からのサンプリングは、混合コンポーネントのサンプリングと等価である。 0.73
It follows that by first sampling a single mixture component and then sampling from this component, one obtains a sample from FHT. まず1つの混合成分をサンプリングし、次にこの成分からサンプリングすると、FHTからサンプルを得る。 0.68
The main loop in Algorithm 1 samples such a mixture component, and there are p = log2 d layers in the decomposition, so the time complexity of the main loop is O(log d), and aside from storing the decomposition itself this sampling procedure requires storing only O(d) integers. アルゴリズム1のメインループはそのような混合成分をサンプリングし、分解には p = log2 d 層が存在するので、メインループの時間的複雑さは O(log d) であり、分解自体を格納する以外は、このサンプリング手順は O(d) 整数のみを保存する必要がある。 0.80
This logarithmic 15 この対数 15 0.74
英語(論文から抽出)日本語訳スコア
dependence is only in sampling from the categorical variables which is computationally cheap. 依存は、計算的に安価であるカテゴリー変数からのサンプリングのみである。 0.62
This not only avoids the linear time complexity common in sampling from autoregressive models (without using distillation), but the space complexity is also essentially independent of m since only a single mixture component is evaluated per sample. これは(蒸留を使わずに)自己回帰モデルからのサンプリングで一般的な線形時間複雑性を避けるだけでなく、サンプル毎に単一の混合成分のみが評価されるため、空間複雑性は本質的にmとは独立である。 0.75
A.2 Proof of Proposition 2 a.2 命題の証明 2 0.69
Assume that the activation function σ is increasing, continuously differentiable, and such that limx→−∞ σ(x) = 0 and limx→∞ σ(x) = 1. 活性化関数 σ が増加し、連続的に微分可能であり、limx→−∞ σ(x) = 0 と limx→∞ σ(x) = 1 と仮定する。 0.84
Proposition 2 then follows immediately from Proposition 4 and the fact that ∪rΦ1,r,σ ⊆ ∪l,rΦl,r,σ. 命題2は命題4と、命題1,r,σ がr,l,rφl,r,σから直ちに従う。 0.46
Remark 1. In practice, we use the activation σ(x) = x + a tanh(x) for some a > −1. 備考1。 実際、ある a > −1 に対して活性化 σ(x) = x + a tanh(x) を用いる。 0.64
While it does not satisfy the assumptions, the arguments in the proof of Proposition 5 can be modified in a straightforward manner to cover this activation (see Remark 2). 仮定を満たさないが、命題5の証明における議論は、この活性化をカバーするために直感的に修正することができる(Remark 2)。 0.68
Proposition 4. ∪rΦ1,r,σ is dense in F1 with respect to the uniform norm. 命題4。 1,r,σ は F1 において一様ノルムに対して密である。 0.59
Letting (cid:101)F1 = {(cid:101)F : R → R, (cid:101)F (x) = log F (x)/(1 − F (x)), F ∈ F1}, (cid:101)Φl,r,σ = {(cid:101)ϕ : R → R, (cid:101)ϕ(x) = log ϕ(x)/(1 − ϕ(x)), ϕ ∈ Φl,r,σ}, レッティング (cid:101)F1 = {(cid:101)F : R → R, (cid:101)F (x) = log F (x)/(1 − F (x)), F ∈ F1}, (cid:101)\l,r,σ = {(cid:101)φ : R → R, (cid:101)φ(x) = log φ(x)/(1 − φ(x)), φ ∈ φl,r,σ}, 0.73
the proof of Proposition 4 relies on the following proposition. 命題4の証明は次の命題に依存する。 0.54
Proposition 5. ∪r(cid:101)Φ1,r,σ is dense in (cid:101)F1 with respect to the uniform norm. 命題5。 一様ノルムに関して (cid:101)F1 において、σ は密である(cid:101)F1 。 0.59
A.2.1 Proof of Proposition 4 A.2.1 命題4の証明 0.61
This proof is similar to that of [67, Theorem 2], which deals with functions with positive outputs. この証明は[67, Theorem 2]の証明に似ており、正の出力を持つ関数を扱う。 0.74
We want to show that, for any F ∈ F1, compact K ⊂ R, and  > 0, there exists ϕ ∈ ∪rΦ1,r,σ such that 任意の F ∈ F1 に対して、コンパクトな K > R と > 0 に対して φ ∈ >r > 1,r,σ が存在することを証明したい。 0.79
(cid:107)ϕ − F(cid:107)∞,K = sup x∈K (cid:107)φ − F(cid:107)∞,K = sup x∂K 0.82
|ϕ(x) − F (x)| ≤ . | φ(x) − f (x)| ≤ である。 0.93
|(cid:101)ϕ(x) − (cid:101)F (x)| ≤ 4. |(cid:101)φ(x) − (cid:101)F(x)| ≤ 4 である。 0.88
|ϕ(x) − F (x)| = |ρ ◦(cid:101)ϕ(x) − ρ ◦ (cid:101)F (x)| ≤ sup |φ(x) − F(x)| = |ρ >(cid:101)φ(x) − ρ > (cid:101)F(x)| ≤ sup 0.99
Denote the sigmoid function by ρ(x) = 1/(1 + e−x) and define the function (cid:101)F : R → R by (cid:101)F (x) = log F (x)/(1 − F (x)), so that F = ρ ◦ (cid:101)F . sigmoid 関数を ρ(x) = 1/(1 + e−x) で記述し、函数 (cid:101)F : R → R を (cid:101)F (x) = log F (x)/(1 − F (x)) で定義し、F = ρ (cid:101)F とする。 0.94
By Proposition 5, there exists (cid:101)ϕ ∈ ∪r(cid:101)Φ1,r,σ such Thus, letting ϕ = ρ ◦(cid:101)ϕ, we have Since Φ1,r,σ = {ρ ◦(cid:101)ϕ : (cid:101)ϕ ∈(cid:101)Φ1,r,σ}, the result follows. 命題5により (cid:101)φ ∈ .r(cid:101) .r,σ) が存在し、したがって φ = ρ .(cid:101)φ となるから、 .1,r,σ = {ρ .(cid:101)φ : (cid:101)φ ∈(cid:101) .r,σ) となる。 0.84
activation. First, note that (cid:101)F1 is the space of strictly increasing and continuously differentiable functions. アクティベーション まず、 (cid:101)F1 は厳密に増加し連続的に微分可能な函数の空間である。 0.53
Therefore, for any (cid:101)F ∈ (cid:101)F1 and interval K = [K1, K2], we can write, for any x ∈ K, where the existence of the inverse (cid:101)F −1 is guaranteed by the fact that (cid:101)F is strictly increasing and continuous. したがって、任意の (cid:101)F ∈ (cid:101)F1 および区間 K = [K1, K2] に対して、任意の x ∈ K に対して、逆 (cid:101)F −1 の存在は (cid:101)F が厳密に増加し連続であるという事実によって保証される。 0.82
Thus, for (cid:101)F (K1) = u0 < u1 < ··· < uk = (cid:101)F (K2) a partition of [(cid:101)F (K1),(cid:101)F (K2)] with uj+1 − uj ≤ /2((cid:101)F (K2) − (cid:101)F (K1)), xj = (cid:101)F −1(uj) and したがって、 (cid:101)F (K1) = u0 < u1 < ·· < uk = (cid:101)F (K2) に対して、uj+1 − uj ≤ sh/2((cid:101)F (K2) − (cid:101)F (K1)) xj = (cid:101)F −1(uj) と [(cid:101)F (K1)] の分割である。 0.91
This proof is similar to that of [68, Theorem 3.1], which is incomplete and only deals with the sigmoid この証明は[68, Theorem 3.1]と似ており、不完全であり、シグモイドのみを扱う。 0.77
1(cid:101)F (x)≥udu = (cid:101)F (K1) + 1(cid:101)F (x)≥udu = (cid:101)F (K1) + 0.93
(cid:48)|(cid:101)ϕ(x) − (cid:101)F (x)| ≤ . (cid:48)|(cid:101)φ(x) − (cid:101)F(x)| ≤ 。 0.94
(cid:101)F (x) = (cid:101)F (K1) + (cid:101)F (x) = (cid:101)F (K1) + 0.91
(cid:90) (cid:101)F (K2) (cid:101)F (K1) (cid:90) (cid:101)F (K2) (cid:101)F (K1) 0.81
(cid:90) (cid:101)F (K2) (cid:101)F (K1) (cid:90) (cid:101)F (K2) (cid:101)F (K1) 0.81
A.2.2 Proof of Proposition 5 A.2.2 命題5の証明 0.60
x≥(cid:101)F −1(u)du, x≥(cid:101)F−1(u)du, 0.94
1 ρ(x) x∈K 1 ρ(x) xhtmlk 0.72
that sup x∈K あれ sup xhtmlk 0.65
G(x) = (cid:101)F (K1) + G(x) = (cid:101)F (K1) + 0.97
1x≥xj (uj − uj−1), 1x≥xj (uj − uj−1) 0.77
k(cid:88) j=1 k(cid:88) j=1 0.71
16 16 0.85
英語(論文から抽出)日本語訳スコア
we have |(cid:101)F (x) − G(x)| ≤ /2, namely the approximation error of the Riemann sum for increasing functions. 我々は |(cid:101)F (x) − G(x)| ≤ sh/2 を持ち、すなわち関数の増加に対するリーマン和の近似誤差がある。 0.80
Let a > 0 and (cid:101)ϕ ∈ (cid:101)Φ1,k,σ obtained by setting b1 = (cid:101)F (K1), as well as (W1)1,j = (uj − uj−1)/a > 0, (b0)j = −axj and (W0)j,1 = a for 1 ≤ j ≤ k, then a > 0 と (cid:101) φ ∈ (cid:101) φ1,k,σ を b1 = (cid:101)f (k1) とし (w1)1,j = (uj − uj−1)/a > 0, (b0)j = −axj, (w0)j,1 = a for 1 ≤ j ≤ k とする。 0.94
|G(x) −(cid:101)ϕ(x)| ≤ k(cid:88) (uj+1 − uj)(cid:12)(cid:12)1 x≥xj − σ(a(x − xj))(cid:12)(cid:12) . |g(x) −(cid:101) φ(x)| ≤ k(cid:88) (uj+1 − uj)(cid:12)(cid:12)1 x≥xj − σ(a(x − xj))(cid:12)(cid:12) である。 0.82
|(cid:101)F (x) −(cid:101)ϕ(x)| ≤ |(cid:101)F (x) − G(x)| + |G(x) −(cid:101)ϕ(x)| ≤ . |(cid:101)F(x) −(cid:101)φ(x)| ≤ |(cid:101)F(x) − G(x)| + |G(x) −(cid:101)φ(x)| ≤ | 0.98
By the assumptions on σ, it is clear that |1x≥0 − σ(ax)| can be made arbitrarily small. σ の仮定により、 |1x≥0 − σ(ax)| が任意に小さくできることは明らかである。 0.88
Thus, taking a large enough so that |G(x) −(cid:101)ϕ(x)| ≤ /2, we have Remark 2. このようにして 十分に大きいので |G(x) −(cid:101)φ(x)| ≤ sh/2 が成り立つ。 0.67
Let σ(x) = x + a tanh(x) for some a > −1 and (cid:101)ϕ ∈ (cid:101)Φ1,k,σ obtained by setting b1 = (cid:101)F (K1) + 1/2, as well as (W1)1,j = (uj − uj−1)/2a > 0, (b0)j = −axj and (W0)j,1 = |a| σ(x) = x + a tanh(x) for some a > −1 and (cid:101)φ ∈ (cid:101)\1,k,σ を b1 = (cid:101)F (K1) + 1/2 とし、 (W1)1,j = (uj − uj−1)/2a > 0, (b0)j = −axj, (W0)j,1 = |a| とする。 0.90
j=1 for 1 ≤ j ≤ k, then j=1 1 ≤ j ≤ k の場合、 0.66
|G(x) −(cid:101)ϕ(x)| ≤ k(cid:88) (uj+1 − uj)(cid:12)(cid:12)1 x≥xj − tanh(|a|(x − xj))/2 − 1/2(cid:12)(cid:12) k(cid:88) |G(x) −(cid:101)φ(x)| ≤ k(cid:88) (uj+1 − uj)(cid:12)(cid:12)1 x≥xj − tanh(|a|(x − xj))/2 − 1/2(cid:12)(cid:12)( cid:88) 0.81
j=1 (uj+1 − uj)|x − xj|/2|a|. j=1 (uj+1 − uj)|x − xj|/2|a|) 0.60
+ Because a is arbitrary, one can take it large enough so that |G(x) −(cid:101)ϕ(x)| ≤ /2 as above. + a は任意であるため、|G(x) −(cid:101)φ(x)| ≤ \/2 となるほど大きくすることができる。 0.81
j=1 A.3 Proof of Proposition 3 j=1 a.3 命題の証明 3 0.64
Consider the classes of order d tensored-valued functions with m dimensions per mode defined as モード毎の m 次元を持つ位数 d のテンソル値関数のクラスを考える。 0.73
Φm,d,l,r,σ = {Φ : Rd × [m]d → [0, 1], Φ(x)i1,...,id = シュム,d,l,r,σ = { : Rd × [m]d → [0, 1], シュ(x)i1,...,id = 0.70
Fm,d = {Φ : Rd × [m]d → [0, 1], Φ(x)i1,...,id = Fm,d = { : Rd × [m]d → [0, 1], s(x)i1,...,id = 0.75
ϕij ,j(xj), ϕi,j ∈ Φl,r,σ}, φij ,j(xj), φi,j ∈ ,l,r,σ} である。 0.93
Fij ,j(xj), Fi,j ∈ F1} Fij ,j(xj), Fi,j ∈ F1} 0.85
d(cid:81) d(cid:81) d(cid:81) d(cid:81) 0.81
j=1 j=1 as well as the class of neural network-based and F1-based MDMAs, that is j=1 j=1 ニューラルネットワークとF1ベースのMDMAのクラスと同様に 0.61
MDMAm,d,l,r,σ = {FA,Φ : Rd → [0, 1], FA,Φ(x) = (cid:104)A, Φ(x)(cid:105), A ∈ Ad,m, Φ ∈ Φm,d,l,r,σ}, MDMAm,d,F1 = {FA,Φ : Rd → [0, 1], FA,Φ(x) = (cid:104)A, Φ(x)(cid:105), A ∈ Ad,m, Φ ∈ Fm,d}. MDMAm,d,l,r,σ = {FA,\ : Rd → [0, 1], FA,シュル(x) = (cid:104)A, >(x)(cid:105), A ∈ Ad,m, > ∈ >m,d,l,r,σ}, MDMAm,d,F1 = {FA,\ : Rd → [0, 1], FA,シュル(x) = (cid:104)A, >(x)(cid:105), A ∈ Ad,m, > ∈ Fm,d} である。 0.85
We can now state the following proposition. 現在、以下の提案を述べることができる。 0.58
Proposition 6. ∪l,rMDMAm,d,l,r,σ is dense in MDMAm,d,F1 with respect to the uniform norm Proposition 3 then follows immediately from the fact that ∪mMDMAm,d,F1 is the space of multivariate mixture distributions admitting a density, which is dense in Fd with respect to the uniform norm (see e g , [69, Theorem 33.2], [70, Theorem 5], or [71, Corollary 11]). 第6話。 シュル,rMDMAm,d,l,r,σ は、一様ノルムに関して MDMAm,d,F1 において密度が高いと仮定すると、命題3 は、一様ノルムに関して Fd で密度が高いような密度を持つ多変量混合分布の空間である(e g , [69, Theorem 33.2], [70, Theorem 5] または [71, Corollary 11] を参照)。 0.58
A.3.1 Proof of Proposition 6 With A ∈ Ad,m, Φ1 ∈ Φm,d,l,r,σ, and  > 0 and a compact K = K1 × ··· × Kd ⊂ Rd, we want to prove that there exists A2 ∈ Ad,m and Φ2 ∈ Fm,d, such that supx∈K |FA,Φ1(x) − FA2,Φ2 (x)| ≤ . a.3.1 命題 6 の a ∈ ad,m, φ1 ∈ φm,d,l,r,σ, および a compact k = k1 × ··· × kd , rd による証明 a2 ∈ ad,m と φ2 ∈ fm,d が存在して supx الk |fa, φ1(x) − fa2, φ2(x)| ≤ となることを証明したい。 0.85
Assuming that we can show supx∈K |Φ1(x)i1,...,id − Φ2(x)i1,...,id| ≤ , the result would then follow from setting A2 = A and the fact that FA,Φ1(x) − FA,Φ2(x) = (cid:104)A, Φ1(x) − Φ2(x)(cid:105) implies |Φ1(x)i1,...,id − Φ2(x)i1,...,id| = . supxhtmlk | φ1(x)i1,...,id − φ2(x)i1,...,id| ≤ ] と仮定すると、結果は a2 = a とすると、fa, φ1(x) − fa, φ2(x) = (cid:104)a, φ1(x) − φ2(x)(cid:105) は |φ1(x)i1,...,id − φ2(x)i1,...,id| = である。
訳抜け防止モード: supx(x)i1, ...,id − sh2(x)i1, ...,id| ≤ . が成り立つと仮定する。 すると、A2 = A と FA , >1(x ) − FA , >2(x ) = ( cid:104)A , >1(x ) − >2(x)(cid:105 ) とすると、 | >1(x)i1, ... ,id − >2(x)i1, ... ,id| = > となる。
0.81
|FA,Φ1 (x) − FA,Φ2(x)| = ≤ (cid:88) |FA1(x) − FA2(x)| = ≤ (cid:88) 0.84
sup x∈K sup xhtmlk 0.62
Ai1,...,id sup x∈K ai1,...,id sup xhtmlk 0.49
i1,...,id With δ = 1/d, by Proposition 2, there exists l, w, and {ϕ}i∈[m],j∈[d] with ϕi,j ∈ Φl,r,σ, such that i1... δ = δ1/d であれば、命題 2 により l, w と {φ}i∂[m],j∂[d] が存在し、φi,j ∈ >l,r,σ が成り立つ。 0.80
Thus, we have that max ですから 私たちは マックス 0.69
i∈[m],j∈[d] ihtml[m], jhtml[d] 0.31
sup xj∈Kj |Φ1(x)i1,...,id − Φ2(x)i1,...,id| = | d(cid:89) sup xjıKj |n1(x)i1,...,id −n2(x)i1,...,id| = |d(cid:89) 0.75
|ϕi,j(xj) − Fi,j(xj)| ≤ δ. |φi,j(xj) − Fi,j(xj)| ≤ δ。 0.91
ϕij ,j(xj) − d(cid:89) φij ,j(xj) − d(cid:89) 0.94
j=1 Fi,j(xj)| ≤ δd = . j=1 Fi,j(xj)| ≤ δd = s である。 0.76
j=1 17 j=1 17 0.72
英語(論文から抽出)日本語訳スコア
B Additional experimental results B.1 Toy density estimation B 追加実験結果 B.1 トイ密度推定 0.77
Figures 4 and 5 show more results on the popular checkerboard and 8 Gaussians toy datasets studied in Figure 1. 図4と5は、図1で研究されている人気チェッカーボードとガウスのおもちゃデータセットについてさらに結果を示している。 0.60
Training data Figure 4: Density estimation with closed-form marginals and conditionals. 研修データ 図4: 閉形式境界と条件による密度推定。 0.78
Top Row: Samples from a 3D density, and 2D marginal histograms. Top Row: 3D密度のサンプルと2D辺縁ヒストグラム。 0.73
Middle Row: Samples from MDMA after fitting the density, and plots of the learned 2D marginals. Middle Row: MDMAのサンプルは、密度と学習された2D限界のプロットに適合したものです。 0.65
Bottom Row: Left: learned 1D marginals compared to 1D marginal histograms of the training data. Bottom Row: トレーニングデータの1D辺縁ヒストグラムと比較して1D辺縁線を学習する。 0.78
Right: Learned conditional densities. 右:条件密度を学ぶ。 0.66
B.2 Density estimation with missing data b.2 データの欠落による密度推定 0.69
We compare MICE imputation [43] to k-NN imputation (with k = 3 neighbours) [44] on the UCI POWER dataset in Figure 6, before performing density estimation with BNAF [9]. BNAF [9] を用いて密度推定を行う前に、図6の UCI POWER データセット上で MICE 計算 [43] と k-NN 計算 (k = 3 近傍) [44] を比較した。 0.84
Due to the size of the dataset, we were not able to use k-NN imputation on the full dataset, but instead split it up into 100 batches and performed the imputation per batch. データセットのサイズのため、完全なデータセットでk-NN命令を使用できず、代わりに100バッチに分割して、バッチ毎に計算を実行しました。 0.69
Similar results were obtained on the UCI GAS dataset, and for this reason we only compare MDMA to MICE imputation in the main text. UCIのGASデータセットでは同様の結果が得られ,本文ではMDMAとMICEの計算結果のみを比較した。 0.73
B.3 Causal discovery In Figure 7, we present examples of completely partially directed acyclical graphs (CPDAGs) learned using the PC algorithm, using either MDMA or the vanilla (Gaussian) method for testing conditional independence used in [55]. b.3因果発見 図7では、[55]で用いられる条件独立性をテストするためにMDMAまたはバニラ法を用いて、PCアルゴリズムを用いて学習した完全半有向非巡回グラフ(CPDAG)の例を示す。 0.75
See Appendix C.2 for additional details. 詳細はAppendix C.2を参照。 0.81
18 x1x2x3x1x2x1x3x2x3x1 x2x3Samplesfrommodel x1x2f(x1,x2)x1x3f(x1 ,x3)x2x3f(x2,x3)−5050.000.050.100.15f (x1)f(x2)f(x3)Traini ngdatax1x2f(x1,x2|x3=0.5)x1x2f(x1,x2|x3=0)x1x2f(x1,x2|x3=−0.5) 18 x1x2x2x1x2x2x3x3x3x2 x2x3Samples frommodelx1x2f(x1,x2 )x1x3f(x1,x3)x2x3f(x 2,x3)−50.000.050.100.15f(x 1)f(x2)f(x3)Training datax1x2f(x1,x2|x3=0.5)x1x2f(x1,x2|x3=0)x1x2f(x1,x2|x3=-0.5) 0.62
英語(論文から抽出)日本語訳スコア
Training data Figure 5: Density estimation with closed-form marginals and conditionals. 研修データ 図5: 閉形式境界と条件による密度推定。 0.79
Top Row: Samples from a 3D density, and 2D marginal histograms. Top Row: 3D密度のサンプルと2D辺縁ヒストグラム。 0.73
Middle Row: Samples from MDMA after fitting the density, and plots of the learned 2D marginal. Middle Row: MDMAのサンプルは、密度と学習された2D辺縁のプロットに適合したものです。 0.68
Bottom Row: Left: learned 1D marginals compared to 1D marginal histograms of the training data. Bottom Row: トレーニングデータの1D辺縁ヒストグラムと比較して1D辺縁線を学習する。 0.78
Right: Learned conditional densities. 右:条件密度を学ぶ。 0.66
B.4 Density estimation on real data b.4 実データにおける密度推定 0.69
To demonstrate how MDMA allows one to visualize marginal densities we show in Figure 8 learned bivariate marginals from the UCI POWER and HEPMASS datasets. MDMAによって、UCI POWERとHEPMASSのデータセットから、図8に示す境界密度を視覚化する方法を実証する。 0.59
The former is composed of power consumption measurements from different parts of a house, with one of the variables (X6) being the time of day. 前者は住宅の異なる場所からの電力消費量の測定値で構成されており、そのうちの1つの変数 (x6) は日時である。 0.78
C Experimental details All experiments were performed on Amazon Web Services using Tesla V-100 GPUs. c 実験の詳細 すべての実験は、Tesla V-100 GPUを使用してAmazon Web Servicesで実施された。 0.73
The total compute time was 3,623 hours, with the vast majority devoted to the experiments on density estimation with missing values (Section 4.3), where some of the runs of BNAF required over 72 hours to complete. 計算時間は3,623時間であり、ほとんどが欠落した値による密度推定実験(セクション4.3)に費やされ、bnafの実行の一部は72時間以上を要した。 0.70
C.1 Mutual information estimation C.1 相互情報推定 0.77
106 samples from the true density are used for fitting MDMA and for estimating the integral over the log marginals in order to compute the mutual information. 真の密度から得られた106個のサンプルはMDMAのフィッティングや、相互情報を計算するためにログ境界の積分を推定するために使用される。 0.71
The MDMA model used had parameters r = 4, l = 5, m = 1000 and was trained with a batch size 500 and learning rate 0.01 for 2 epochs. MDMAモデルはパラメータ r = 4, l = 5, m = 1000 で、バッチサイズ 500 と学習率 0.01 で訓練された。
訳抜け防止モード: mdmaモデルはパラメータr = 4, l = 5, m = 1000であった バッチサイズ500と学習率0.01の2つのエポックでトレーニングされた。
0.81
19 x1x2x3x1x2x1x3x2x3x1 x2x3Samplesfrommodel x1x2f(x1,x2)x1x3f(x1 ,x3)x2x3f(x2,x3)−2.50.02.50.00.10.20. 3f(x1)f(x2)f(x3)Trai ningdatax1x2f(x1,x2|x3=0.5)x1x2f(x1,x2|x3=0)x1x2f(x1,x2|x3=−0.5) 19 x1x2x2x1x2x2x3x3x3x2 x2x2x3Samples frommodelx1x2f(x1,x2 )x1x3f(x1,x3)x2x2x3f (x2,x3)−2.50.02.50.00.10.20. 20.3f(x1)f(x3)Traini ngdatax1x2f(x1,x2|x3=0.5)x1x2f(x1,x2|x3=0)x1x2f(x1,x2|x3=-0.5) 0.62
英語(論文から抽出)日本語訳スコア
Figure 6: A comparison of data imputation methods on the UCI POWER dataset followed by density estimation with BNAF, showing that MICE imputation outperforms k-NN. 図6: UCI POWERデータセット上のデータ計算法の比較とBNAFによる密度推定の結果,MICE計算がk-NNより優れていることが示された。 0.76
We subsequently use MICE in the comparison with MDMA in the main text. その後,本文ではMDMAとの比較にMICEを用いた。 0.84
Figure 7: Recovered causal graphs: Top: Synthetic data from a random DAG with sigmoidal causality mechanism. 図7: 因果グラフの復元: トップ: シグモダル因果機構を持つランダムDAGからの合成データ。 0.78
The graph inferred using MDMA PC had directional SHD of 11, compared to 15 for the Gaussian PC. MDMA PCを用いて推定したグラフは,ガウスPCでは15に対して,方向SHDは11。 0.81
Bottom: Protein signaling graph [62]. Bottom: タンパク質シグナルグラフ [62]。 0.74
The graph inferred using MDMA PC had directional SHD of 27, compared to 32 for the Gaussian PC. MDMA PCを用いて推定したグラフは,ガウスPCでは32に対して,方向SHDは27。 0.83
20 0.20.40.60.8Missingn essprobability−0.50.00.51.01.52.0Te stNLLBNAF+MICEBNAF+KNNV0V1V2V3V4V5V6V7V 8V9TrueDAGV0V1V2V3V4 V5V6V7V8V9RecoveredC PDAG(GaussianPC)V0V1 V2V3V4V5V6V7V8V9Reco veredCPDAG(MDMAPC)PI P2PKCplcgPIP3pjnkP38 PKAprafpmekp44/42pak ts473TrueDAGPIP2PKCp lcgPIP3pjnkP38PKApra fpmekp44/42pakts473R ecoveredCPDAG(Gaussi anPC)PIP2PKCplcgPIP3 pjnkP38PKAprafpmekp4 4/42pakts473Recovere dCPDAG(MDMAPC) 20 0.20.40.6missingness probability-0.50.50. 51.52.0testnllbnaf+micebnaf+knnv0v1v2v3v5v6v6v7v 8v9truedagv0v1v2v3v6 v6v6v7v8v9recoveredc pdag(gaussianpc)v0v1 v2v3v4v6v7v8v9recove redcpdag(gaussianpc) v0v2v4v6v7v8v9recove redcpdag(mdmapc)pip2 pkcplcgpip3pjnkp38pk aprafpmekp44/42pakts 473truedagpip2pkcpgp gpipp38prafekp44/p3p gpp42p(p3p)p3pgpp3pk ap(pdmapc) 0.47
英語(論文から抽出)日本語訳スコア
Figure 8: Log marginal density on UCI datasets. 図8: UCIデータセットの限界密度のログ。 0.86
The scatter plot is composed of 500 samples from the dataset. 散乱プロットはデータセットから500のサンプルで構成されている。 0.78
Left: The POWER dataset. 左: POWER データセット。 0.74
One variable corresponds to the time of day, and the other to power consuption from the kitchen of a house. 1つの変数は日時に対応し、もう1つの変数は家の台所からの電力供給に対応する。 0.65
Note the small value of the density during night-time. 夜間の密度の小さい値に注意。 0.64
The data is normalized during training, yet the labels on the horizontal axis reflect the value of the unnormalized variable for interpretability. データはトレーニング中に正規化されるが、水平軸上のラベルは非正規化変数の値を反映して解釈可能である。 0.75
Right: The HEPMASS dataset. 右:HEPMASSデータセット。 0.64
Despite MDMA not achieving state-of-the-art results on test likelihood for this dataset, the model still captures accurately the non-trivial dependencies between the variables. mdmaはこのデータセットのテスト可能性について最新結果を得られていないが、モデルはまだ変数間の非自明な依存関係を正確に捉えている。 0.53
Figure 9: Feature learning in MDMA. 図9:MDMAの機能学習。 0.74
We plot ten univariate PDFs ˙ϕij parameterized as in appendix E.1 for j = 4, both at initialization and after training on the UCI POWER dataset. 我々は、初期化と UCI POWER データセットのトレーニングの後に、j = 4 の付録 E.1 のようにパラメータ化された 10 個の単変量PDFをプロットする。 0.63
Overlaid is a histogram of computed from 500 datapoints. Overlaidは500のデータポイントから計算されたヒストグラムである。 0.65
We find that the features localize near the datapoints. 特徴がデータポイント付近でローカライズされることが分かりました。 0.56
21 01224Time(X6)0246810 12PowerConsumption(X 4)−202X12−2−10123X15−3−2−10123X410−1100101Beforetrainin gAftertrainingTraini ngdata 21 01224Time(X6)0246810 12PowerConsumption(X 4)−202X12−2−10123X15−3−2−10123X410−1100101Beforetrainin gAftertrainingTraini ngdata 0.55
英語(論文から抽出)日本語訳スコア
Table 3: Dimension and size of the UCI datasets, and the hyperparameters used for fitting MDMA on these datasets. 表3: UCIデータセットの寸法とサイズ、およびこれらのデータセットにMDMAを適合させるために使用されるハイパーパラメータ。 0.74
m is the width of the MDMA model, l and r are respectively the depth and width of the univariate CDF models described in Appendix E.1. mはMDMAモデルの幅、lとrはそれぞれAppendix E.1で記述された単変量CDFモデルの深さと幅である。 0.79
HEPMASS MINIBOONE d ヘプマスミニボーン d 0.58
Training set Validation set 訓練セット検証セット 0.75
Test set m l r テストセット m l r 0.82
C.2 Causal discovery POWER c.2因果発見 電源 0.60
1659917 184435 204928 1000 1659917 184435 204928 1000 0.85
6 2 3 GAS 8 6 2 3 ガス 8 0.80
852174 94685 105206 4000 852174 94685 105206 4000 0.85
4 5 21 315123 35013 174987 1000 4 5 21 315123 35013 174987 1000 0.85
2 3 43 29556 3284 3648 1000 2 3 43 29556 3284 3648 1000 0.85
2 3 In many application areas, causal relationships between random variables can be represented by a directed acyclical graph (DAG). 2 3 多くの応用領域において、確率変数間の因果関係は有向非巡回グラフ(DAG)によって表される。 0.79
The PC algorithm [47] is an efficient algorithm for recovering sparse DAGs from observations. PCアルゴリズム[47]は、観測からスパースDAGを回収する効率的なアルゴリズムである。 0.82
In general, this recovery is complicated by the fact that two DAGs can induce the same probability distribution, leading to them being called Markov equivalent. 一般に、この回復は、2つのDAGが同じ確率分布を誘導できるという事実によって複雑であり、マルコフ同値と呼ばれる。 0.73
Hence, observational data can only help infer the Markov equivalence class of a given DAG. したがって、観測データは与えられたDAGのマルコフ同値類を推測するのに役立つ。 0.63
The equivalence class, known as a completely partially directed acyclical graph (CPDAG, also called essential graph) [72], encodes all the dependence information in the induced distribution. 完全半有向非巡回グラフ(cpdag、本質グラフとも呼ばれる) [72] として知られる同値類は、誘導分布のすべての依存情報を符号化する。 0.75
The object of the PC algorithm is therefore the recovery of a CPDAG that is consistent with the data. PCアルゴリズムのオブジェクトは、データと整合したPDAGのリカバリである。 0.56
This is generally a hard problem, since the cardinality of the space of DAGs is super-exponential in the number of variables [73]. DAGs の空間の濃度は変数数 [73] において超指数的であるので、これは一般に難しい問題である。 0.80
The PC algorithm requires repeatedly testing for independence between pairs of variables conditioned on subsets of the remaining variables. PCアルゴリズムは、残りの変数のサブセットに条件付き変数のペア間の独立性について繰り返しテストする必要がある。 0.70
As mentioned in the main text, testing for conditional independence can be reduced to an independence test between variables that depend on conditional CDFs [55], which can be obtained easily after fitting the joint density using MDMA. 本文で述べたように、条件独立性試験は条件CDFs[55]に依存する変数間の独立性テストに還元することができ、MDMAを用いて関節密度を調整した後に容易に得ることができる。 0.85
In our experiments, the results of using MDMA as part of the PC algorithm for testing conditional independence are compared to the results obtained by using a Gaussian conditional independence test based on partial correlations. 実験では,PCアルゴリズムの一部としてMDMAを用いた条件独立性テストの結果と,部分相関に基づくガウス条件独立性テストの結果との比較を行った。 0.83
The synthetic DAGs were generated using the the Causal Discovery Toolbox.3 When the sigmoidal causal mechanism is used, given a variable Y and parents {X1, . 合成dagは、y変数と親 {x1, .} が与えられると、sgmoidal causal mechanismが使用されるときにcausal discovery toolbox.3を使用して生成される。 0.61
. . , Xs}, then Y = s(cid:80) . . , Xs} ならば Y = s(cid:80) 0.88
w0) + ε, and if a polynomial mechanism is used then Y = ε , where wi, wij, ε are random. w0) + ε であり、多項式機構が使われるなら Y = ε であり、wi, wij, ε はランダムである。 0.87
MDMA was trained with m = 1000, L = 2, r = 3 for 50 epochs and learning rate 0.1 on all datasets. MDMAはm = 1000, L = 2, r = 3で50エポック, 学習率0.1で訓練した。
訳抜け防止モード: MDMAはm = 1000, L = 2で訓練された。 r = 3 for 50 epochs and learning rate 0.1 on all datasets。
0.93
In all experiments we find that the graphs recovered using MDMA are closer to the truth than those recovered using Gaussian PC, as measured by the structural Hamming distance. すべての実験でMDMAを用いて得られたグラフは、構造ハミング距離によって測定されたガウスPCを用いて得られたグラフよりも真に近いことが判明した。 0.64
Example recovered graphs are shown in Figure 7. 回復グラフの例を図7に示す。 0.79
i=1 w2iX 2 i i=1 w2iX 2 i 0.65
s(cid:80) i=1 s(cid:80) i=1 0.71
r(cid:80) w0 + r(cid:80) w0 + 0.86
w1iXi + wiσ(Xi + w1iXi + wiσ(Xi +) 0.76
(cid:18) (cid:19) (cid:18) (cid:19) 0.78
i=1 C.3 Density estimation on real data i=1 c.3 実データにおける密度推定 0.64
We train MDMA on four UCI datasets, details of the dataset sizes and hyperparameter choices are presented in Table 3. MDMAを4つのUCIデータセットでトレーニングし、データセットサイズとハイパーパラメータ選択の詳細を表3に示す。 0.76
In all experiments a batch size of 500 and learning rate of 0.01 were used. すべての実験で、バッチサイズ500と学習率0.01が使用された。 0.76
We use the same pre-processing as [45], which involves normalizing and adding noise. ノイズの正規化と追加を含む [45] と同じ前処理を用いる。 0.78
Details are provided in the attached code.4 The POWER dataset consists of measurements of power consumption from different parts of a house as well as the time of day. 電力データセットは、住宅の異なる部分からの電力消費量の測定と、その日時からなる。 0.42
The GAS dataset contains measurements of chemical sensors used to discriminate between different gases. GASデータセットには、異なるガスを識別するために使用される化学センサーの測定が含まれている。 0.58
The HEPMASS and MINIBOONE datasets are both measurements from high-energy physics experiments, aiming respectively for the discovery of novel particles and to distinguish between different types of fundamental particles (electron and muon neutrinos). HEPMASSとMINIBOONEのデータセットはどちらも高エネルギー物理実験から得られたもので、それぞれ新しい粒子の発見と異なる種類の基本粒子(電子とミューオンニュートリノ)の識別を目的としている。 0.80
3https://fentechsolu tions.github.io/Caus alDiscoveryToolbox/h tml/index.html 4The raw datasets are available for download at https://zenodo.org/r ecord/1161203#.YLUMI mZKjuU 3https://fentechsolu tions.github.io/Caus alDiscoveryToolbox/h tml/index.html 4生データセットはhttps://zenodo.org/r ecord/1161203#.YLUMI mZKjuUでダウンロードできる。 0.42
22 22 0.85
英語(論文から抽出)日本語訳スコア
a) b) d) c) a) b) d) c) 0.85
Figure 10: Tensor decompositions. 図10: テンソル分解。 0.70
a) Tensors of various orders (resp. a) 様々な順序のテンソル(resp。 0.70
vectors, matrices, delta tensors). ベクトル、行列、デルタテンソル)。 0.63
Each edge represents an index, and connecting two edges represents contraction (summation over an index). 各エッジはインデックスを表し、2つのエッジをつなぐと収縮(インデックス上の合計)を表す。 0.79
b) The set of univariate CDFs Φ, which can be viewed as an order 2d tensor. b)不定値 cdfs φ の成す集合は、位数 2d のテンソルと見なすことができる。 0.65
c) A general unstructured tensor of order 6. d) The hierarchical Tucker (HT) decomposition (5). c) 次数6の一般的な非構造テンソル(d) 階層タッカー分解(HT)(5) 0.71
After suitable normalization, the tensor in d) can be contracted with the tensor Φ shown in b) to give a multivariate CDF. 適切な正規化の後、d) のテンソルは b) に示したテンソル φ と縮約でき、多変量 cdf が得られる。
訳抜け防止モード: 適切な正規化の後、d ) のテンソルは b で示されるテンソル t と収縮することができる。 多変量CDFを与える。
0.68
D Tensor decompositions In constructing the MDMA estimator, we are confronted with the problem of combining products of univariate CDFs linearly, in a manner that is both computationally efficient and expressive. Dテンソル分解 mdma推定器の構築においては,不定形cdfの積を線形に組み合わせ,計算効率と表現力の両立という問題に直面する。 0.60
The linearity constraint reduces this to a tensor decomposition problem (with additional non-negativity and normalization constraints). 線型性制約は、これをテンソル分解問題(非否定性と正規化制約を加える)に還元する。 0.72
There is an extensive literature on such efficient tensor decompositions (see [74] for a review). そのような効率的なテンソル分解に関する広範な文献がある(レビューには[74]を参照)。 0.75
The analogy with tensor decompositions becomes clear when we consider discrete rather than continuous variables. テンソル分解の類似性は、連続変数よりも離散変数を考えると明らかになる。 0.75
Assume we wish to model the joint distribution of d discrete variables, each taking one of S possible values. d 個の離散変数の合同分布をモデル化したいと仮定し、それぞれ S の可能な値の1つを取る。 0.68
The distribution is then a function ϕS : [S] × ··· × [S] → R, which can also be viewed as an order d tensor. このとき分布は函数 φS : [S] × ··· × [S] → R であり、これは位数 d のテンソルとしても見ることができる。 0.80
A general tensor ϕS will require order of Sd numbers to represent, and is thus impractical even for moderate d. The continuous analog of such a tensor is a multivariate function F : Rd → R, with the value of xj corresponding to the discrete index sj. 一般的なテンソル φS は Sd 個の数列を表わさなければならないので、中等度 d に対しても非現実的である: そのようなテンソルの連続的な類似は、離散指数 sj に対応する xj の値を持つ多変量函数 F : Rd → R である。 0.74
We will thus use the same notation for the continuous case. したがって、我々は連続したケースに同じ記法を使う。 0.69
A graphical representation of tensors and of the diagonal HT tensor used in MDMA is presented in Figure 10. mdmaで使用されるテンソルと対角htテンソルのグラフィカル表現は図10で示されます。 0.62
E Additional design details E.1 Univariate marginal parameterization We parameterize the univariate marginal CDF ϕ(x) for some scalar x ∈ R using a simple feedforward network following [37]. E 追加設計の詳細 e.1 univariate marginal parameterization 我々は[37] に続く単純なfeedforwardネットワークを使用して、一部のスカラー x ∈ r に対するunivariate marginal cdf φ(x) をパラメータ化する。 0.82
Recall from section Section 3.6 that we model the univariate CDFs as functions 単変量CDFを関数としてモデル化するセクション3.6からのリコール 0.70
ϕ(x) = sigmoid ◦ Ll ◦ σl−1 ◦ Ll−1 ◦ σl−2 ··· ◦ σ1 ◦ L1 ◦ σ0 ◦ L0(x), φ(x) = sgmoid , ll , σl−1 , ll−1 , σl−2 ···· , σ1 , l1 , σ0 , l0(x), 0.70
where Li : Rni → Rni+l is the affine map Li(x) = Wix + bi for an ni+1 × ni weight matrix Wi with nonnegative elements and an ni+1 × 1 bias vector bi, with nl+1 = n0 = 1 and ni = r for i ∈ [l]. ここで、Li : Rni → Rni+l は、非負元を持つ ni+1 × ni 重み行列 Wi に対してアフィン写像 Li(x) = Wix + bi であり、nl+1 = n0 = 1 かつ i ∈ [l] に対して ni+1 × 1 のバイアスベクトル bi である。 0.82
This is a slightly more general form than the one in Section 3.6 since we allow the nonlinearities to depend on the layer. これは第3.6節の非線形性が層に依存することを許しているため、より一般的な形式である。 0.75
For the nonlinearities, we use 非線形性のために、我々は使う 0.66
σi(x) = x + ai (cid:12) tanh(x) σi(x) = x + ai (cid:12) tanh(x) 0.99
for some vector ai ∈ Rni+1 with elements constrained to lie in [−1, 1] (the lower bound on ai is necessary to ensure that σi are invertible, but the upper bound is not strictly required). あるベクトル ai ∈ Rni+1 に対して、[−1, 1] にあるような要素を持つ(ai 上の下界は σi が可逆であることを保証するために必要だが、上界は厳密には必要ではない)。 0.68
This constraint, as well as the non-negativity constraint on the Wi, is enforced by setting Wi = softplus( ˜Wi, 10), ai = tanh(˜ai) in terms of some ˜Wi ∈ Rni+1×ni, ˜ai ∈ Rni+1. この制約は、Wi 上の非負性制約と同様に、ある >Wi ∈ Rni+1×ni, >ai ∈ Rni+1 の項で Wi = softplus( >Wi, 10), ai = tanh( >ai) を設定することによって強制される。 0.75
The softplus function is softplus(x, β) = 1 β log(1 + exp(βx)) and is a smooth, invertible approximation of the ReLU. softplus 関数は softplus(x, β) = 1 β log(1 + exp(βx)) であり、relu の滑らかで可逆な近似である。 0.81
We typically use small values for l, r in the experiments (see Appendix C). 通常、実験では l, r に対して小さな値を使う(Appendix C を参照)。 0.77
23 23 0.85
英語(論文から抽出)日本語訳スコア
E.2 Adaptive variable coupling E.2 適応変数結合 0.76
One degree of freedom in constructing a HT decomposition is the choice of partitions of subsets of the variables at every layer over which the products are taken. HT分解を構成する自由度の一つは、積が取られるすべての層における変数の部分集合の分割の選択である。 0.74
This imposes a form of weight-sharing, and it will be natural to share weights between variables that are highly correlated. これは重み共有の形式を課し、高い相関関係にある変数間で重みを共有することは自然である。 0.71
As a simple example, let d = 4 and consider two different HT decompositions 単純な例として d = 4 と 2 つの異なる HT 分解を考える。 0.81
(cid:88) (cid:88) (cid:88)(cid:88) 0.74
i1,i2,k i1,i2,k i1,i2,k i1,i2,k 0.88
F (x1, x2, x3, x4) = F(x1, x2, x3, x4) = 0.87
(cid:101)F (x1, x2, x3, x4) = (cid:88) (cid:88) (cid:101)F (x1, x2, x3, x4) = (cid:88) (cid:88) 0.80
λ2 kλ1 i1,k λ2 kλ1 i1,k 0.76
λ2 kλ1 k,i1,1λ1 λ2 kλ1 k,i1,1λ1 0.56
k,i2,2ϕi1,1(x1)ϕi1,2(x2)ϕi2,3(x3)ϕi2,4(x4), k,i2,2φi1,1(x1)φi1,2(x2)φi2,3(x3)φi2,4(x4) 0.53
λ2 kλ1 k,i1,1λ1 λ2 kλ1 k,i1,1λ1 0.56
k,i2,2ϕi1,1(x1)ϕi1,3(x3)ϕi2,2(x2)ϕi2,4(x4), k,i2,2φi1,1(x1)φi1,3(x3)φi2,2(x2)φi2,4(x4) 0.53
(cid:88) (cid:88) (cid:88)(cid:88) 0.74
i1,k (cid:88) (cid:88) i1,k (cid:88)(cid:88) 0.84
i2,k i1,k λ2 kλ1 i2,k i1,k λ2 kλ1 0.82
λ2 kλ1 λ2 kλ1 λ2 kλ1 λ2 kλ1 0.59
λ2 kλ1 obtained by coupling X1 in the first layer respectively with X2 and X3. λ2 kλ1 第1層にそれぞれX2とX3を結合して得られる。 0.72
The univariate marginals for X1, X2 and X3 can then be written as F (x1) = X1, X2, X3 の単変数境界は F (x1) = と書くことができる。 0.71
k,i1,1ϕi1,1(x1), F (x2) = k,i1,1φi1,1(x1), F(x2) = 0.69
k,i1,1ϕi1,1(x1), (cid:101)F (x2) = k,i1,1φi1,1(x1), (cid:101)F (x2) = 0.70
(cid:101)F (x1) = in an identical way on the tensor parameters. (cid:101)F (x1) = テンソルパラメータ上で同じ方法で。 0.72
In (cid:101)F however, additional parameters are required to are identical instead, then the converse holds and (cid:101)F is the more parsimonious representation. しかし (cid:101)f では、追加のパラメータが代わりに同一であることが必要となり、逆に (cid:101)f はより控えめな表現となる。 0.71
This represent them. Hence F is a more parsimonious representation of the join distribution. これ 代表して したがって、F は結合分布のより同相な表現である。 0.64
If X1 and X3 Assume that the variables X1 and X2 are identical. X1 と X3 変数 X1 と X2 が同一であると仮定する。 0.80
In F , both of their univariate marginals depend F において、両辺辺はどちらも依存する 0.62
k,i1,1ϕi1,2(x2), F (x3) = k,i1,1φi1,2(x2), F(x3) = 0.69
k,i2,2ϕi2,2(x2), (cid:101)F (x3) = k,i2,2φi2,2(x2), (cid:101)F(x3) = 0.70
property extends to any higher-dimensional (e g , bivariate) marginals. 性質は任意の高次元(例えば、二変量)境界まで拡張する。 0.63
In data with spatial or temporal structure (e g if the variables are image pixels) there is a natural way to couple variables based on locality. 空間的または時間的構造を持つデータ(例えば、変数が画像ピクセルである場合)では、局所性に基づいて変数を結合する自然な方法がある。 0.75
When this is not present, we can adaptively construct the couplings based on the correlations in the data using a simple greedy algorithm. これは存在しない場合、単純なグリードアルゴリズムを用いてデータ内の相関に基づいて結合を適応的に構築できる。 0.80
After constructing an empirical covariance matrix from a minibatch of data, we couple the two variables that are most correlated and have not yet been paired. データのミニバッチから経験的共分散行列を構築した後、最も相関が強くペア化されていない2つの変数を結合する。 0.71
We repeat this until we couple all the groups of variables. 変数のすべてのグループを結合するまで、これを繰り返す。 0.72
Then we "coarse-grain" by averaging over blocks of the covariance matrix arranged according to the generated coupling and repeat the process, this time coupling subsets of variables. 次に、生成した結合に従って配置された共分散行列のブロックを平均化して「粗粒」を行い、このとき変数の結合部分集合を繰り返す。 0.75
We find that this coupling scheme improves performance compared to naive coupling that does not take correlations into account. この結合方式は,相関を考慮しない単純結合に比べて性能が向上することがわかった。 0.77
λ2 kλ1 i2,k λ2 kλ1 i2,k 0.76
i1,k k,i1,1ϕi1,3(x3). i1,k k,i1,1φi1,3(x3)。 0.73
k,i2,2ϕi2,3(x3), k,i2,2φi2,3(x3) 0.58
E.3 Initialization As in the univariate case, the non-negativity constraint of the HT tensor parameters λi by defining λi E.3初期化 不定値の場合と同様に、λi の定義による ht テンソルパラメータ λi の非ネガティビティ制約 0.66
for some ˜λi k,k(cid:48),j ∈ R. λi に対して k,k(cid:48),j ∈ R。 0.70
k,k(cid:48),j = softplus k,k(cid:48),j = softplus 0.93
k,k(cid:48),j, 20 k,k(cid:48),j,20 0.91
k,k(cid:48),j is enforced k,k(cid:48),jは強制される 0.78
(cid:16)˜λi (cid:16)〈λi〉 0.54
(cid:17) As is standard, we initialize independently the elements of the univariate PDF weights ˜Wi as zeromean gaussians with variance 1/nfanin, the ˜ai as standard gaussians and the bi as 0. (cid:17) 標準として、1/nfanin の分散を持つ 0mean Gaussian として、標準ガウス多様体として、Bi を 0 と独立に初期化する。
訳抜け防止モード: (cid:17) 標準として、1/nfanin の分散を持つ 0mean Gaussian として単変量 PDF 重みの要素を独立に初期化する。 標準ガウシアンとして、Biは0である。
0.74
The initialization k,k(cid:48),j = m ∗ δk,k(cid:48) for 1 ≤ i ≤ p − 1. 初期化 k,k(cid:48),j = m ∗ δk,k(cid:48) は 1 ≤ i ≤ p − 1 である。 0.92
This initialization is chosen so that of the HT parameters is ˜λi after applying the softplus the matrix λi·,·,j is close to an identity at initialization, which we have found facilitates training compared to using a random initialization. この初期化は、ソフトプラス行列 λi·,·,j を初期化における同一性に近いものとして適用した後、htパラメータの1つが λi となるように選択される。
訳抜け防止モード: この初期化は HT のパラメータの後に λi となるように選択される ソフトプラスを λi·,·,j の行列は初期化時の恒等式に近い ランダムな初期化に比べて 指導の仕方を見つけました
0.83
Benefits of such “orthogonal” initialization schemes have also been shown for deep convolutional networks [75, 76]. このような「直交」初期化スキームの利点は、深い畳み込みネットワーク [75, 76] にも示されている。 0.77
The final layer ˜λp k are initialized as zero mean gaussians with variance 0.3/m. 最終層 λp k は、分散 0.3/m のゼロ平均ガウスとして初期化される。 0.60
E.4 From HT to MERA E.4 HT から MERA 0.94
The choice of the diagonal HT decomposition (5) is convenient, yet there is a wealth of other tensor decompositions that can be explored. 対角的 ht 分解 (5) の選択は便利であるが、他のテンソル分解の豊富さも探究できる。 0.62
Here we highlight one such decomposition that generalizes the diagonal HT and could potentially lead to more expressive models. ここでは、対角htを一般化し、より表現力のあるモデルに導くような分解を強調する。 0.56
It is based on [77]. それは[77]に基づいている. 0.89
Let F M,1 : Rd → Rm×d be a matrix-valued function such that F M,1 (x) = ϕi,j(xj). F M,1 : Rd → Rm×d を F M,1 (x) = φi,j(xj) となるような行列値函数とする。 0.83
For l ∈ {2, . l ∈ {2, に対して。 0.82
. . , log2 d}, define the matrix-value functions F M,1 : Rd → Rm×d/2l−1 recursively by . . , log2 d} は行列値関数 FM,1 : Rd → Rm×d/2l−1 を再帰的に定義する。 0.78
i,j (x) = F HT,1 i,j (x) = F HT,1 0.98
i,j F M,l i,j (x) = i.j. F M,l i,j (x) = 0.81
k,i,j{χl−1 λl−1 k,i,j{\l−1 λl−1 0.74
1,k,i,jϕM,l−1 1,k,i,jφM,l−1 0.84
k,2j−1(x)ϕM,l−1 k,2j−1(x)φM,l−1 0.59
k,2j (x) + χl−1 k,2j (x) + sl−1 0.63
2,k,i,jϕM,l−1 2,k,i,jφm,l−1 0.83
k,2j−1(x)ϕM,l−1 k,2j−1(x)φM,l−1 0.59
k+1,2j(x)} m(cid:88) k+1,2j(x) m(cid:88) 0.76
k 24 k 24 0.85
英語(論文から抽出)日本語訳スコア
with k + 1 ≡ 1 when k = m, λl as in (4), and χl a 2× m× m× d/2l tensor with nonegative elements 2,k,i,j = 1. k = m, λl が (4) のとき k + 1 と、負の要素が 2,k,i,j = 1 であるような k × m× m× d/2l テンソルでは、k は 1 である。 0.75
The MERA parametrization of a distribution can then be written as satisfying χl 分布の MERA パラメトリゼーションは、次のように書くことができる。 0.69
1,k,i,j + χl 1,k,i,j + \l である。 0.68
FM(x) = akϕM,log2 d FM(x) = akφM,log2 d 0.79
k,1 (x)ϕM,log2 d k.1 (x)φM,log2d 0.73
(x), m(cid:88) (x) m(cid:88) 0.71
k=1 with a ∈ RmSince the conditions on λl and χl imply parametrization clearly results in a valid CDF. k=1 a ∈ RmSi では、λl および λl 上の条件は明らかにCDF となる。 0.62
Note that χl only m × m × d/2l free parameters. m × m × d/2l 自由パラメータのみである。 0.80
For d = 4, we have d = 4 の場合、我々は 0.80
λl k,i,j(χl k=1 1,k,i,j + χl λl k,i,j(シュル k=1,k,i,j + シュル) 0.84
2,k,i,j) = 1, this 1,k,i,j + χl 2,k,i,j = 1 leads to χl having 2,k,i,j) = 1 この 1,k,i,j + sl 2,k,i,j = 1 は sl を持つ。 0.67
FM(x) = ak1 λ1 FM(x) = ak1 λ1 0.78
k2,k1,1λ1 k(cid:48) 2,k1,2 k2,k1,1λ1 k(cid:48) 2,k1,2 0.59
χ1 i1,k2,k1,1χ1 ~1 i1,k2,k1,1 0.51
i2,k(cid:48) i2,k(cid:48) 0.82
2,k1,2 m(cid:88) 2・k1,2 m(cid:88) 0.72
k1,k2,k(cid:48) k1,k2,k(cid:48) 0.81
2=1 k,2 m(cid:80) 2=1 k.2 m(cid:80) 0.65
2(cid:88) i1,i2=1 2(cid:88) i1,i2=1 0.71
× ϕM,1 k2,1(x)ϕM,1 ×φM,1 k2,1(x)φM,1 0.59
k2+i1−1,2(x)ϕM,1 2,3(x)ϕM,1 2+i2−1,4(x). k2+i1−1,2(x)φM,1 2,3(x)φM,1 2+i2−1,4(x)。 0.48
k(cid:48) k(cid:48) k(cid:48) k(cid:48) 0.81
25 25 0.85
                                                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。