論文の概要、ライセンス

# (参考訳) GP-ConvCNP:時系列データに基づく畳み込み条件付きニューラルプロセスのより良い一般化 [全文訳有]

GP-ConvCNP: Better Generalization for Convolutional Conditional Neural Processes on Time Series Data ( http://arxiv.org/abs/2106.04967v2 )

ライセンス: CC BY 4.0
Jens Petersen, Gregor K\"ohler, David Zimmerer, Fabian Isensee, Paul F. J\"ager, Klaus H. Maier-Hein(参考訳) ニューラルプロセス(英: Neural Processs、NP)は、関数上の分布をモデル化できる条件生成モデルのファミリーであり、複数のコンテキストポイントで条件付きテスト時に予測を行うことができる。 最近の畳み込み条件付き神経プロセス(convolutional conditional neural process, convcnp)は、先行技術よりもパフォーマンスが著しく向上しているが、時系列データに適用した場合に一般化に苦労することがある。 特に、それらは分布シフトに対して堅牢ではなく、観測されたパターンを将来への外挿に失敗する。 ガウス過程をモデルに組み込むことで、これを改善できると同時に、分散におけるパフォーマンスを向上させることができます。 追加の利点として、ガウス過程はNPファミリーの他のメンバーの重要な特徴であるモデルからサンプルする可能性を再導入する。

Neural Processes (NPs) are a family of conditional generative models that are able to model a distribution over functions, in a way that allows them to perform predictions at test time conditioned on a number of context points. A recent addition to this family, Convolutional Conditional Neural Processes (ConvCNP), have shown remarkable improvement in performance over prior art, but we find that they sometimes struggle to generalize when applied to time series data. In particular, they are not robust to distribution shifts and fail to extrapolate observed patterns into the future. By incorporating a Gaussian Process into the model, we are able to remedy this and at the same time improve performance within distribution. As an added benefit, the Gaussian Process reintroduces the possibility to sample from the model, a key feature of other members in the NP family.
公開日: Fri, 11 Jun 2021 13:46:13 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
1 1 ] G L . 1 1 ] G L。 0.81
s c [ 2 v 7 6 9 4 0 sc [ 2 v 7 6 9 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
GP-CONVCNP: Better Generalization for Convolutional Conditional Neural gp-convcnp:畳み込み条件付き神経のより良い一般化 0.57
Processes on Time Series Data 時系列データ上のプロセス 0.91
Jens Petersen1 Gregor Köhler1 David Zimmerer1 Jens Petersen1 Gregor Köhler1 David Zimmerer1 0.82
Fabian Isensee2 fabian isensee2 0.57
Paul F. Jäger3 Klaus H. Maier-Hein1 Paul F. Jäger3 Klaus H. Maier-Hein1 0.63
1Division of Medical Image Computing, German Cancer Research Center, Heidelberg, Germany 1division of medical image computing, german cancer research center, heidelberg, ドイツ 0.81
2HIP Applied Computer Vision Lab, Division of Medical Image Computing, German Cancer Research Center 2hip applied computer vision lab, division of medical image computing, german cancer research center 0.83
3Interactive Machine Learning Group, German Cancer Research Center 3-interactive machine learning group, german cancer research center 0.93
Abstract Neural Processes (NPs) are a family of conditional generative models that are able to model a distribution over functions, in a way that allows them to perform predictions at test time conditioned on a number of context points. 概要 ニューラルプロセス(英: Neural Processs、NP)は、関数上の分布をモデル化できる条件生成モデルのファミリーであり、複数のコンテキストポイントで条件付きテスト時に予測を行うことができる。 0.61
A recent addition to this family, Convolutional Conditional Neural Processes (CONVCNP), have shown remarkable improvement in performance over prior art, but we find that they sometimes struggle to generalize when applied to time series data. 最近の畳み込み条件付き神経プロセス(convolutional conditional neural process, convcnp)は、先行技術よりもパフォーマンスが著しく向上しているが、時系列データに適用した場合に一般化に苦労することがある。 0.65
In particular, they are not robust to distribution shifts and fail to extrapolate observed patterns into the future. 特に、それらは分布シフトに対して堅牢ではなく、観測されたパターンを将来への外挿に失敗する。 0.60
By incorporating a Gaussian Process into the model, we are able to remedy this and at the same time improve performance within distribution. ガウス過程をモデルに組み込むことで、これを改善できると同時に、分散におけるパフォーマンスを向上させることができます。 0.71
As an added benefit, the Gaussian Process reintroduces the possibility to sample from the model, a key feature of other members in the NP family. 追加の利点として、ガウス過程はNPファミリーの他のメンバーの重要な特徴であるモデルからサンプルする可能性を再導入する。 0.75
1 INTRODUCTION Neural Processes [Garnelo et al , 2018a,b] have been proposed as a way to leverage the expressiveness of neural networks to learn a distribution over functions (often referred to as a stochastic process), so that they can condition their predictions on observations given at test time, a so-called context. 1回目 ニューラル・プロセス [Garnelo et al , 2018a, b] は、ニューラルネットワークの表現力を活用して関数上の分布(しばしば確率過程と呼ばれる)を学習する方法として提案され、テスト時に与えられた観測に基づいて予測を定めている。 0.61
But what does it mean to successfully learn such a distribution? しかし、そのような分布をうまく学べることの意味は何だろうか? 0.67
We believe that it should be characterized by the following: 1) accurate predictions, meaning predictions should be as close as possible to the true underlying function, 2) good reconstruction of the given observations, 3) generalization, because we assume that there will be some underlying generative process from which the distribution originates and which is valid beyond the finite data we observe. 1) 正確な予測、すなわち真の基礎関数に可能な限り近い予測、2) 与えられた観測のよい再構成、3) 一般化、3) 分布の起源であり、我々が観測する有限データを超えて有効な基礎となる生成過程が存在すると仮定する。
訳抜け防止モード: 1) 正確な予測を特徴付けるべきであると信じている。 つまり、予測は、真の基礎となる関数に可能な限り近いはずである。 2 ) 与えられた観測の良好な再構成、3 ) 一般化。 分布を起源とする生成過程が いくつかあると仮定しているからです これは私たちが観測する有限のデータを超えて有効です。
0.77
The latter is especially important when only few context observations are given that could be explained 後者は、説明できるわずかな文脈観察しか与えられていない場合に特に重要である 0.74
by several different functions. 様々な機能があります 0.74
Follow-up work to Neural Processes has mostly emphasized the first two aspects, the most prominent of which are Attentive Neural Processes (ANP) [Kim et al , 2019] and Convolutional Conditional Neural Process (CONVCNP) [Gordon et al , 2020], each improving upon its predecessor in terms of both prediction accuracy and reconstruction ability. ニューラル・プロセスへのフォローアップは、主に最初の2つの側面を強調しており、最も顕著なものは、予測精度と再構築能力の両方の観点から、前者よりも改善されている、Attentive Neural Processs (ANP) [Kim et al , 2019] と Convolutional Conditional Neural Process (CONVCNP) [Gordon et al , 2020) である。 0.77
We propose a model that addresses all of the above, with a particular focus on the ability to generalize. 我々は,これらすべてを一般化する能力を重視したモデルを提案する。 0.58
By combining CONVCNP with a Gaussian Process, we achieve a significant improvement in generalization: the model, which we call GP-CONVCNP, can better extrapolate far from the provided context observations—meaning into future given past and present observations—and is more robust to a distribution shift at test time. convcnp とガウス過程を組み合わせることで、一般化の大幅な改善が達成される:gp-convcnp と呼ばれるこのモデルは、与えられた文脈の観測(与えられた過去と現在の観測)から遠く離れた範囲を推定することができ、テスト時の分布シフトに対してより堅牢である。 0.60
It further reintroduces the ability to sample from the model, something that CONVCNP is incapable of, showing a better sample distribution than both NP and ANP. さらに、ConVCNPが不可能なモデルからサンプルを抽出する機能を再導入し、NPとANPの両方よりも優れたサンプル分布を示す。 0.82
Finally, we find that our proposed model often yields a significant improvement in predictive performance on in-distribution data as well. 最後に,提案モデルによって,分布内データに対する予測性能が大幅に向上することがしばしば見いだされる。 0.84
We focus our evaluation on time series data, where we see the greatest potential for applications of our model. 我々の評価は時系列データに焦点を合わせ、モデルのアプリケーションにとって最大の可能性を見出します。 0.81
In this context, we consider several synthetic datasets as well as real time series, specifically weather data and predator-prey population dynamics. この文脈では、いくつかの合成データセットとリアルタイムシリーズ、特に気象データと捕食者・捕食者の人口動態について考察する。
訳抜け防止モード: この文脈では、複数の合成データセットと実時間系列を考える。 特に気象データと捕食者 - 獲物の人口動態。
0.70
We provide a complete implementation1, including data for convenience, to reproduce all experiments in this work. この作業ですべての実験を再現するために、便利なデータを含む完全な実装1を提供する。 0.76
2 PROBLEM STATEMENT & METHODS 2プロブレムの状況と方法 0.58
In the framework of Neural Processes [Garnelo et al , 2018a,b] we assume that we are given a set of N observations C = {(xc, yc)}N c=1 =: (xc, yc), often called the context, where xc ∈ X are samples from the input space X and yc ∈ Y are samples from the output space Y (commonly X = RdX and Y = RdY , in this work we restrict ourselves to X = R, because time is scalar). 神経過程の枠組み [garnelo et al , 2018a,b] では、n 個の観測集合 c = {(xc, yc)}n c=1 =: (xc, yc) が与えられると仮定し、しばしば文脈と呼ばれるが、xc ∈ x は入力空間 x からのサンプルであり、yc ∈ y は出力空間 y からのサンプルである(一般に x = rdx と y = rdy である)。
訳抜け防止モード: ニューラル・プロセスの枠組み [ Garnelo et al, 2018a, b] では、N 個の観測 C = { ( xc, b) が与えられると仮定する。 yc)}N c=1 = : ( xc, yc ) はしばしば文脈と呼ばれる。 xc ∈ X を入力空間 X のサンプルとし、yc ∈ Y を出力空間 Y のサンプルとする(一般に X = RdX と Y = RdY )。 この作業では、時間がスカラーであることから、自分自身を X = R に制限する。
0.84
It is assumed that these observations were generated by some function これらの観測は何らかの関数によって生成されたと推定される。 0.47
1https://github.com/ MIC-DKFZ/gpconvcnp 1https://github.com/ MIC-DKFZ/gpconvcnp 0.31
Accepted for the 37th Conference on Uncertainty in Artificial Intelligence (UAI 2021). 第37回人工知能の不確かさ会議(UAI 2021)に参加。 0.68
英語(論文から抽出)日本語訳スコア
Figure 1: Our work proposes GP-CONVCNP, an extension of CONVCNP that reintroduces sampling and improves generalization on time series data. 図1: GP-CONVCNPは、サンプリングを再導入し、時系列データの一般化を改善するCONVCNPの拡張である。 0.73
Shown here are examples for the different synthetic time series and methods evaluated in this work (mean prediction in blue, samples in red). 以下に示すのは、この研究で評価された様々な合成時系列と方法の例である(青での予測、赤でのサンプル)。 0.73
While the mean predictions from CONVCNP and GP-CONVCNP look similar—and significantly better than those from Neural Processes (NP) and Attentive Neural Processes (ANP)—only GP-CONVCNP combines high quality predictions (a feature of CONVCNP) with the ability to sample (a feature of NP and ANP). CONVCNPとGP-CONVCNPの平均的な予測は、ニューラル・プロセス(NP)とアテンタティブ・ニューラル・プロセス(ANP)の予測と非常によく似ているが、GP-CONVCNPだけが高品質な予測(ConVCNPの特徴)とサンプル(NPとANPの特徴)を組み合わせたものである。 0.76
While synthetic data measures in-distribution performance, we evaluate generalization capabilities on real data. 合成データは分配性能を測る一方で,実データ上での一般化能力を評価する。 0.67
f : X → Y , i.e. f : X → Y , i。 0.82
yc = f (xc), and our goal is to infer f from C so that we may evaluate it at arbitrary new input locations xt. yc = f (xc) そして我々のゴールは、任意の新しい入力位置 xt で評価できるように、C から f を推論することである。 0.88
In reality, this will most likely mean we have collected a number of measurements over time and are interested in an f that lets us interpolate and extrapolate those measurements. 実際、これはおそらく私たちが時間をかけて多くの測定を収集し、それらの測定を補間し外挿できるfに興味を持っていることを意味するでしょう。 0.69
Note that when we speak of predictive performance, we refer to both of those cases and not in a temporal sense. 予測性能について言えば、どちらのケースも時間的意味ではなく、両方を指すことに注意してください。 0.57
The problem is ill-posed without placing further assumptions on f, which is why we typically restrict it to some family F: polynomials of some order, a combination of oscillating functions with different frequencies, etc.. この問題は f にさらなる仮定を課さずに不備となるので、典型的にはある族 F に制限する:ある順序の多項式、異なる周波数の振動関数の組み合わせなどである。 0.80
However, in many cases it is undesired or even impossible to manually specify F, so Neural Processes propose to use neural networks to learn an approximate representation of F by observing many examples f ∈ F. The latter are typically represented as a context set C (the measurements we have) and a target set T = {(xt, yt)}M t=1 =: (xt, yt) (the measurements we’re interested in). しかしながら、多くの場合、Fを手動で指定することは望ましくないか、あるいは不可能であるため、Neural Processsはニューラルネットワークを用いて、多くの例 f ∈ F を観察して、F の近似表現を学ぶことを提案している。
訳抜け防止モード: しかし多くの場合、f を手動で指定することは望ましくない、あるいは不可能である。 したがって、ニューラルネットワークは、多くの例 f ∈ f を観察することで、f の近似表現を学ぶためにニューラルネットワークを使うように提案されている。 そして、対象集合 t = { ( xt, yt)}m t=1 = : ( xt, yt) である。 yt ) (私たちが興味を持っている測定値)。
0.72
By learning to reconstruct the examples f from a limited number of context points a model should implicitly form a representation of F, which 限られた数のコンテキストポイントから例 f を再構築することを学ぶことにより、モデルは暗黙的に f の表現を形成するべきである。 0.70
leads to the following learning objective: 学習の目的は以下の通りです 0.76
(cid:88) (cid:88) (cid:88)(cid:88) 0.74
f∈F f.f.f.f.f.f.f.f.f.f. f.f.f.f.f.f.f.f.f.f 0.03
(cid:88) max (cid:88) マックス 0.74
θ = max θ log pθ(yt|xt, xc, yc) θ =マックス θ log pθ(yt|xt, xc, yc) 0.82
f∈F フェーーーーーーーーーーーーーーーーーーーーーーーーー 0.07
t log N (yt; gµ t log n (yt; gμ) 0.84
θ (Z, xt), gσ θ(Z, xt)、gσ 0.91
θ (Z, xt)) (1) θ (Z, xt) (1) 0.79
(2) This objective is common to all approaches we evaluate in our work, and the second line formalizes the fact that we choose to always model the output as a diagonal Gaussian, parametrized by mean and variance functions gµ θ that seek to maximize the log-likelihood of the targets yt. (2) この目的は我々の研究で評価する全てのアプローチに共通しており、第2の直線は出力を常に対角ガウス型としてモデル化し、平均と分散関数gμ θによってパラメトリゼーションされ、対象のytのログ様相を最大化しようとするという事実を定式化する。 0.80
The output variance can also be fixed, but Le et al [2018] show that a learned output variance is preferable. 出力分散も固定できるが、Le et al [2018] は学習された出力分散が好ましいことを示している。 0.66
Z is a representation of the context (xc, yc), i.e. Z は文脈 (xc, yc) の表現である。 0.64
there is a mapping E : X, Y → Z. 写像 E : X, Y → Z が存在する。 0.73
The implementation of E is where the members of the Neural Process family differ most, and we visualize them in Fig A.1. Eの実装は、Neural Processファミリーのメンバーが最も異なる場所であり、図A.1でそれらを視覚化する。 0.76
θ , gσ Matern-5/2GPNPANPCon vCNPGP-ConvCNPWeakly PeriodicGPFourierSer iesStepFunctions θ , gσ マタン-5/2gpnpanpconvcnpgp -convcnpweakly periodicgpfourierser iesstepfunctions 0.51
英語(論文から抽出)日本語訳スコア
2.1 (ATTENTIVE) NEURAL PROCESSES 2.1 (attentive) 神経処理 0.63
θ , gσ The original Neural Processes [Garnelo et al , 2018b] implement E as a neural network that encodes individual context observations (xc, yc) into a finite-dimensional space. θ , gσ オリジナルのNeural Processs [Garnelo et al , 2018b]は、個々のコンテキスト観測(xc, yc)を有限次元空間にエンコードするニューラルネットワークとしてEを実装している。 0.82
These representations are then averaged to form the global representation Z. これらの表現を平均化し、大域表現 Z を形成する。 0.58
Similar to Eq (2), Z parametrizes a Gaussian distribution, which enables NP to sample from this latent space and produce diverse predictions; we do not consider the deterministic NP variant [Garnelo et al , 2018a] in this work. Eq (2) と同様に、Z はガウス分布をパラメトリズし、この潜伏空間から NP をサンプリングし、様々な予測をすることができる。
訳抜け防止モード: Eq ( 2 ) と同様に、Z はガウス分布をパラメトリケートする。 NPはこの潜伏空間からサンプルを採取し 様々な予測を 本研究では、決定論的NP変種(Garnelo et al, 2018a )を考慮しない。
0.80
NP are trained by maximizing a lower bound on Eq. NPはEq上の下界を最大化することで訓練される。 0.67
(2), similar to variational autoencoders. (2)変分オートエンコーダに似ている。 0.63
In our NP implementation E and (gµ θ ) are symmetric 6-layer MLP, with a representation size of 128. NP 実装 E と (gμ θ ) は対称な 6 層 MLP であり、表現サイズは 18 である。 0.66
Attentive Neural Processes [Kim et al , 2019] are motivated by the observation that NP poorly reconstruct the provided context, i.e. Intentive Neural Processs [Kim et al , 2019] は、NPが提供されたコンテキストを十分に再構築していないという観察によって動機付けられている。 0.57
the predictions seem to miss the context points, as seen for example in Fig. 予測は、例えば図のように、コンテキストポイントを見逃しているように見える。 0.69
1. To mitigate this effect, ANP augment NP with an additional deterministic encoder-decoder path. 1. この効果を緩和するため、ANPはNPをさらに決定論的エンコーダデコーダパスで増強する。 0.77
Instead of averaging the individual representations, a learned attention mechanism combines them, conditioned on a target point xt. 個々の表現を平均化する代わりに、学習された注意機構がそれらを組み合わせ、ターゲットポイント xt に条件付けする。 0.58
So while NP need to compress representations to a single point in Z, ANP don’t have this bottleneck, which likely contributes to their improved performance. したがって、NPはZの単一点に表現を圧縮する必要があるが、ANPにはこのボトルネックがなく、パフォーマンスの改善に寄与する可能性が高い。 0.74
In our ANP implementation, the deterministic path mirrors the variational path, with both the representation dimension and the embedding dimension of the attention mechanism being 128. anpの実装において、決定論的パスは、表象次元と注意機構の埋め込み次元の両方が128である変動経路を反映する。 0.66
Le et al [2018] evaluated several hyperparameter configurations for NP and ANP and our implementation matches their best performing one. le et al [2018] では np と anp のハイパーパラメータ構成をいくつか評価しています。
訳抜け防止モード: Le et al [2018 ] は NP と ANP のハイパーパラメータ構成を評価した 私たちの実装は最高のパフォーマンスを実現しています
0.71
2.2 FROM CONVCNP TO GP-CONVCNP 2.2 CONVCNP から GP-CONVCNP へ 0.68
With the goal of enabling translation equivariance (i.e. 翻訳等式(すなわち、翻訳等式)の実現を目標とする。 0.44
independence of the value range of xc and xt) in Neural Processes, the authors of Convolutional Conditional Neural Processes (CONVCNP) [Gordon et al , 2020] approach their work from the perspective of learning on sets [Zaheer et al , 2017]. Convolutional Conditional Neural Processes (CONVCNP) [Gordon et al , 2020]の著者であるNeural Processsにおけるxcとxtの値範囲の独立性は、セットの学習の観点から、彼らの仕事にアプローチします [Zaheer et al , 2017]。 0.87
While NP and ANP map the context set into a finite-dimensional representation, CONVCNP map it into an infinite-dimensional function space. NP と ANP は文脈集合を有限次元表現に写すが、ConVCNP はそれを無限次元函数空間に写す。 0.76
The authors show that in this scenario translation equivariance (as well as permutation invariance) can only be achieved if the mapping E can be represented in the form 著者らは、このシナリオでは(置換不変性と同様に)変換の同値性は、写像 E が形式で表現できる場合にのみ達成できることを示した。 0.63
also ANP): NP learn a powerful mapping (i.e. ANPも):NPは強力なマッピング(すなわち)を学ぶ。 0.87
neural network) from the context to a representation and then another one from this representation to the output space, whereas CONVCNP employs a very simple mapping to another representation (to function space, because φ and ψ are defined with kernels, see below). ニューラルネットワーク) 文脈から表現へ、そしてこの表現から出力空間へ、一方 CONVCNP は別の表現への非常に単純なマッピングを用いる(φ と φ はカーネルで定義されるので、函数空間へ)。 0.68
A powerful approximator is then learned that operates within this representation space, as ρ is a CNN operating on a discretization of E(cid:48). ρ は E(cid:48) の離散化で動作する CNN であるため、この表現空間内で動く強力な近似器が学習される。 0.77
The mapping back to output space is again a simple one, usually also ψ combined with a linear map. 出力空間への写像は再び単純であり、通常は ψ と線型写像を結合する。
訳抜け防止モード: 出力空間へのマッピングは、再び単純なものです。 通常は ψ と線型写像 とを結合する。
0.71
In this sense, both E and E(cid:48) can be thought of as representations when we make the connection to NP. この意味で、E と E(cid:48) は共に NP と接続するときに表現として考えることができる。 0.82
See also Fig A.1 for a visualization of these differences. これらの違いを視覚化するための図A.1も参照してください。 0.56
In Gordon et al [2020], ψ is chosen to be a simple Gaussian kernel, and φ such that the resulting E(cid:48) has two components: Gordon et al [2020] では、φ は単純ガウス核に選ばれ、E(cid:48) は2つの成分を持つ。 0.65
(cid:32)(cid:88) (cid:32)(cid:88) 0.75
(cid:48) E (cid:48) E 0.82
(xc, yc) = k(·, xc) , (xc,yc) = k(·, xc) , 0.73
c (cid:88) c (cid:88) 0.82
c (cid:80) c (cid:80) 0.82
yck(·, xc) c(cid:48) k(·, xc(cid:48)) yck(·, xc) c(cid:48) k(·, xc(cid:48)) 0.85
(cid:33) (5) (cid:33) (5) 0.82
which is the combination of a kernel density estimator and a Nadaraya-Watson estimator. これはカーネル密度推定器とNadaraya-Watson推定器の組み合わせである。 0.74
This estimate is discretized on a suitable grid and a CNN ρ is applied, the result of which is again turned into a continuous function by convolving with the (Gaussian) kernel ψ. この推定は適当な格子上で離散化され、CNN ρ が適用され、その結果は(ガウスの)核 ρ と連結して再び連続函数に変換される。 0.72
We use the official implementation2 in our experiments. 実験では公式実装2を使用します。 0.70
Note that k in Eq (5) is the same as ψ in the implementation. 注意すべき点は、Eq (5) の k は実装の t と同じである。 0.73
In this work, we propose GP-CONVCNP, a model that replaces the deterministic kernel density estimate E(cid:48) in CONVCNP with a Gaussian Process posterior [Rasmussen and Williams, 2006]. 本研究では,決定論的カーネル密度推定値E(cid:48)をガウス過程後部(Rasmussen and Williams, 2006)に置き換えるモデルGP-CONVCNPを提案する。 0.77
Gaussian Processes (GP) are a popular choice for time series analysis [Roberts et al , 2013], but typically require a lot of prior knowledge about a problem to choose an appropriate kernel. ガウス過程(gp)は時系列解析(roberts et al , 2013]では一般的な選択であるが、適切なカーネルを選択するには問題に関する事前知識が必要となる。 0.80
We will find that this is not the case for GP-CONVCNP, which is even able to learn periodicity when the chosen kernel is not periodic. GP-CONVCNPは、選択されたカーネルが周期的でないときでも周期性を学ぶことができる。
訳抜け防止モード: これは GP - CONVCNP のケースではありません。 選択されたカーネルが周期的でないときの周期性も学べます
0.67
The posterior in a GP is a normal distribution with a mean function m(xt) conditioned on the context and a covariance function K(xt) specified by some kernel k: GP の後方は、文脈上で条件付けられた平均関数 m(xt) と、あるカーネル k で指定された共分散関数 K(xt) を持つ正規分布である。 0.82
(cid:0)kcc + σ2I(cid:1)−1 (cid:0)kcc + σ2I(cid:1)−1 0.72
m(xt) = kT tc K(xt) = ktt + σ2 − kT m(xt) = kT tc K(xt) = ktt + σ2 − kT 0.90
tc (cid:0)kcc + σ2I(cid:1)−1 tc (cid:0)kcc + σ2I(cid:1)−1 0.78
yc (6) (7) yc (6) (7) 0.85
ktc E(xc, yc) = ρ(E (cid:48) ktc E(xc, yc) = ρ(E (cid:48) 0.91
(xc, yc) = E (xc,yc) = E 0.84
(xc, yc)) φ(yc)ψ(· − xc) (xc, yc)) φ(yc)ψ(· − xc) 0.85
(cid:48) (cid:88) (cid:48) (cid:88) 0.78
c (3) (4) where φ : Y → R2 and ψ : X → R, so that E(cid:48) defines a function and ρ operates in function space and must be translation equivariant. c (3) (4) φ : y → r2 と ψ : x → r のとき、e(cid:48) が函数を定義し、ρ が函数空間で作用し、変換同値でなければならない。 0.84
The similar naming of E, E(cid:48) is deliberate, because herein lies a key difference to NP (and E, E(cid:48) の同様の命名は、NP (and) に重要な違いがあるため、意図的に行われる。 0.72
where ktc = k(xt, xc) etc. ここで ktc = k(xt, xc) などである。 0.80
and σ2 is a noise parameter that essentially determines how close the prediction will be to the context points. そして σ2 はノイズパラメータであり、予測がコンテキストポイントにどの程度近付くのかを本質的に決定します。 0.75
We make this parameter learnable. このパラメータを学習可能にします。 0.64
Note that Eq (6) is very similar to Eq (5): it corresponds to the second component of the Nadaraya-Watson estimator with only a changed denominator. eq (6) は eq (5) と非常によく似ており、nadaraya-watson 推定器の2番目の成分に対応する。 0.63
The first obvious benefit of this model is that we can sample from the GP posterior distribution and thus also from 2https://github.com/ cambridge-mlg/convcn p このモデルの第一の明らかな利点は、GP後部分布からサンプルし、2https://github.com/ cambridge-mlg/convcn pからもサンプリングできることである。 0.55
英語(論文から抽出)日本語訳スコア
our model, recovering one very compelling property of NP that CONVCNP lacks. 私たちのモデルは、ConVCNPに欠けているNPの非常に魅力的な特性を回復します。 0.55
Another advantage we see is that by working with a distribution instead of a deterministic estimate as input to the CNN, the data distribution is implicitly smoothed. もうひとつの利点は、cnnへの入力として決定論的見積もりではなく分布を扱うことで、データ分布が暗黙的に滑らかになることです。
訳抜け防止モード: もう1つの利点は CNNへの入力として、決定論的見積の代わりに分布を扱う データ分布は暗黙的に滑らかです
0.78
It has been established that such smoothing reduces overfitting and improves generalization, e g by adding noise to inputs [Bishop, 1995, p.347] or more generally doing data augmentation [Volpi et al , 2018]. このような平滑化は、例えば入力にノイズを加える[Bishop, 1995, p.347]、あるいはより一般的にデータ拡張を行う[Volpi et al , 2018]などによって、過度な適合を減らし、一般化を改善することが確立されている。
訳抜け防止モード: このような平滑化は過度な適合を減らし、一般化を改善することが確立されている。 入力にノイズを加える[ビショップ, 1995, ] p.347 ] あるいはもっと一般的にデータ拡張[Volpi et al, 2018 ]。
0.75
Working with a distribution instead of a deterministic estimate, we need to perform Monte-Carlo integration to get a prediction from our model. 決定論的推定ではなく分布を扱うためには、モデルから予測を得るためにモンテカルロ統合を実行する必要がある。 0.73
During training, however, we only use a single sample, as is commonly done e g in variational autoencoders when training with mini-batch stochastic gradient descent. しかし,トレーニング中は,小バッチ確率勾配勾配のトレーニングにおいて,変分オートエンコーダのegが一般的に行われるように,単一のサンプルのみを使用する。 0.70
To facilitate comparison, the kernel we use in our GP is the same as in CONVCNP, i.e. 比較を容易にするため、GPで使用するカーネルは、CONVCNP、すなわち、同じである。 0.68
a Gaussian kernel with a learnable length scale. 学習可能な長さスケールを持つガウス核。 0.64
Note that our model retains all desirable characteristics of the competing approaches, in particular permutation invariance with respect to the inputs (present in all prior art) and translation equivariance (present in CONVCNP)3. 我々のモデルは競合するアプローチのすべての望ましい特性を保持しており、特に入力(現在のすべての先行技術)と変換同値(現在のCONVCNP)3に対する置換不変性である。 0.76
For de- 3As in CONVCNP, this obviously requires a stationary kernel. de- CONVCNPでは、これは明らかに固定カーネルを必要とする。 0.59
tails on the various optimization parameters etc. 様々な最適化パラメータのテールなど。 0.75
we refer to the provided implementation. 我々は提供された実装を参照する。 0.53
3 EXPERIMENTS We design our experiments with the purpose of evaluating how well members of the Neural Process family, including the one we propose, are suited for the task of learning distributions over functions, i.e. 実験3 我々は,ニューラル・プロセス・ファミリーのメンバーが,関数上の分布を学習する作業にどの程度適しているかを評価することを目的として,実験を設計する。 0.70
stochastic processes, specifically for time series data. 確率過程、特に時系列データについて。 0.62
Like the works we compare ourselves with, we evaluate both predictive performance (How good is our prediction between context points?) 私たちが自分自身と比較する作業と同じように、両方の予測パフォーマンスを評価します(コンテキストポイント間の予測はどの程度良好か? 0.68
via the predictive log-likelihood and the reconstruction performance (How good is our prediction at the context points?) 予測ログの類似性と再構築性能を通じて (コンテキストポイントでの予測はどの程度良好か? 0.77
via the rootmean-square error (RSME), because predictions directly at the context points are usually extremely narrow Gaussians, leading to unstable likelihoods. rootmean-square error (rsme) により、文脈点での直接の予測は、通常非常に狭いガウス的であり、不安定な可能性をもたらす。
訳抜け防止モード: rootmean - square error (RSME) 文脈点での予測は通常極端に狭いガウスであり、不安定な可能性をもたらす。
0.69
As outlined in the introduction, one defining aspect of successfully learning a distribution over functions is a model’s ability to generalize. 紹介で概説されているように、関数上の分布をうまく学習する一面として、モデルを一般化する能力がある。 0.75
This can mean several things, for example independence with respect to the input value range, これは例えば、入力値範囲に対する独立性など、いくつかの意味を持つ。 0.77
Table 1: Results for synthetically created data. 表1: 合成したデータの結果。 0.77
Test data was generated with the same parameters as the training data, so we’re looking at in-distribution performance. テストデータはトレーニングデータと同じパラメータで生成されます。
訳抜け防止モード: テストデータはトレーニングデータと同じパラメータで生成される。 そこで私たちは、配信パフォーマンスに注目しています。
0.74
↑/↓ indicate that higher/lower is better. 上・下の方が良いことを示す。 0.52
Errors represent 1 standard deviation over 5 runs with different seeds (standard error of the mean for GPs, because seed influence is negligible), where each run was evaluated with 102 400 (30 720 for W2) samples. 誤差は, 5回以上の標準偏差(GPの平均値の標準誤差, 種子の影響は無視できる)を1回, 102400 (30 720 for W2) のサンプルで評価した。 0.68
Bold indicates that the method(s) are significantly better than all non-bold methods, i.e. boldは、メソッド(s)がすべての非boldメソッド、すなわち、非常に優れていることを示している。 0.58
when the difference is larger than the root sum of squares of the standard deviations. 違いが標準偏差の平方根の合計より大きい場合です 0.54
Overall, GP-CONVCNP outperforms the competing approaches, especially in terms of predictive log-likelihood and sample diversity (compared to an oracle) where applicable. 全体として、GP-CONVCNPは競合するアプローチよりも優れており、特に予測対数やサンプルの多様性(オラクルと比較)において、適用可能である。 0.59
In terms of reconstruction error, our method outperforms prior art on three datasets, but is on par with CONVCNP on two of those. 本手法は3つのデータセットにおいて先行技術より優れているが,2つのデータに対してConVCNPと同等である。 0.70
Interestingly, the EQ-GP, which is what our model uses as an initial estimate, performs rather poorly in all but the first example. 興味深いことに、私たちのモデルが最初の見積もりとして使っているEQ-GPは、最初の例を除いて、かなり性能が悪い。
訳抜け防止モード: 興味深いことに、EQ-GP。 私たちのモデルは 最初の見積もりとして 最初の例以外は ほとんど役に立たない
0.77
In the first example, where the EQ-GP is already a decent estimate, our approach leverages that information and matches the oracle GP in predictive performance! 最初の例では、既に eq-gp が適度な推定値である場合、当社のアプローチはその情報を活用して、予測パフォーマンスにおいて oracle gp と一致します!
訳抜け防止モード: 最初の例では、 EQ - GPはすでにまともな見積もりです。 我々のアプローチは、その情報を活用し、予測性能でオラクルGPと一致します!
0.70
The reconstruction error and W2 of the oracle are zero, so we don’t show them here. オラクルの復元エラーとW2はゼロなので、ここでは見せません。
訳抜け防止モード: オラクルの復元誤差とW2はゼロである。 だから、ここでは見せません。
0.69
The dependence of model performance on the number of context points is visualized in Fig A.2 for the two GP examples. 2つのgp例について、モデル性能の文脈点数依存性を図a.2で可視化する。 0.73
Predictive LL↑ Recon. 予測LL Recon 0.46
Error↓ W2 ↓ GP (EQ) GP (Oracle) NP ANP CONVCNP GP-CONVCNP GP (EQ) NP ANP CONVCNP GP-CONVCNP GP (EQ) NP ANP CONVCNP GP-CONVCNP エラー W2 GP (EQ) GP (Oracle) NP ANP CONVCNP GP-CONVCNP GP (EQ) NP ANP CONVCNP GP-CONVCNP GP (EQ) NP ANP CONVCNP GP-CONVCNP 0.71
Weakly Per. GP 1.876 ± 0.026 弱々しい。 GP 1.876 ± 0.026 0.60
Matern-5/2 GP Fourier Series Step Functions −2 × 1017 1.031 ± 0.075 −8.034 ± 2.260 −0.241 ± 0.752 1.933 ± 0.095 −0.496 ± 0.027 −1.161 ± 0.007 −1.743 ± 0.020 −3.287 ± 0.491 0.723 ± 0.046 −1.047 ± 0.008 −0.976 ± 0.028 −65.141 ± 60.979 0.372 ± 0.065 −0.522 ± 0.163 1.710 ± 0.038 −0.153 ± 0.033 1.632 ± 0.079 −0.532 ± 0.044 1.930 ± 0.031 −0.090 ± 0.021 0.097 ± 0.001 0.004 ± 0.001 0.028 ± 0.001 0.001 ± 0.001 0.027 ± 0.001 0.500 ± 0.003 0.845 ± 0.074 0.292 ± 0.010 0.008 ± 0.002 0.284 ± 0.013 0.181 ± 0.018 0.491 ± 0.004 0.042 ± 0.027 0.121 ± 0.017 0.025 ± 0.020 0.109 ± 0.077 0.061 ± 0.007 0.040 ± 0.023 0.116 ± 0.017 0.013 ± 0.002 4.294 ± 0.007 4.521 ± 0.003 2.745 ± 0.004 1.836 ± 0.021 2.708 ± 0.002 1.369 ± 0.048 0.987 ± 0.086 1.800 ± 0.045 Matern-5/2 GP Fourier Series Step Functions −2 × 1017 1.031 ± 0.075 −8.034 ± 2.260 −0.241 ± 0.752 1.933 ± 0.095 −0.496 ± 0.027 −1.161 ± 0.007 −1.743 ± 0.020 −3.287 ± 0.491 0.723 ± 0.046 −1.047 ± 0.008 −0.976 ± 0.028 −65.141 ± 60.979 0.372 ± 0.065 −0.522 ± 0.163 1.710 ± 0.038 −0.153 ± 0.033 1.632 ± 0.079 −0.532 ± 0.044 1.930 ± 0.031 −0.090 ± 0.021 0.097 ± 0.001 0.004 ± 0.001 0.028 ± 0.001 0.001 ± 0.001 0.027 ± 0.001 0.500 ± 0.003 0.845 ± 0.074 0.292 ± 0.010 0.008 ± 0.002 0.284 ± 0.013 0.181 ± 0.018 0.491 ± 0.004 0.042 ± 0.027 0.121 ± 0.017 0.025 ± 0.020 0.109 ± 0.077 0.061 ± 0.007 0.040 ± 0.023 0.116 ± 0.017 0.013 ± 0.002 4.294 ± 0.007 4.521 ± 0.003 2.745 ± 0.004 1.836 ± 0.021 2.708 ± 0.002 1.369 ± 0.048 0.987 ± 0.086 1.800 ± 0.045 0.50
英語(論文から抽出)日本語訳スコア
Figure 2: Examples from the temperature time series test set. 図2: 温度時系列テストセットの例。 0.70
For the interpolation task (top) we provide context points from the full sequence, for the extrapolation task (bottom) we provide context points in the first half of the sequence and evaluate the second. 補間タスク(top)については、全シーケンスからコンテキストポイントを提供し、外挿タスク(bottom)では、シーケンスの前半にコンテキストポイントを提供し、2番目を評価する。 0.66
Both CONVCNP and GP-CONVCNP capture the periodicity of day/night changes in temperature well and are able to extrapolate it. CONVCNPとGP-CONVCNPはどちらも昼夜の温度変化の周期性を捉え、それを外挿することができる。 0.69
We find that GP-CONVCNP often better matches the amplitude of the true signal, especially for the extrapolation task, which could explain its superior performance in Table 2. gp-convcnp は実信号の振幅、特に外挿処理の振幅によくマッチするので、表 2 においてその優れた性能を説明することができる。 0.66
Because the temperature signal is periodic, we also show a periodic GP with a commonly used Exponential Sine-Squared kernel. 温度信号は周期的であるため、一般に用いられる正弦二乗核を持つ周期gpも示す。 0.72
NP and ANP are only shown in the appendix in Fig A.3, as they were unable to fit the data (similar to the weakly periodic GP data in Fig 1). NP と ANP は Fig A.3 の付録にしか表示されないが、これはデータ(図 1 の弱い周期的な GP データと似ている)に収まらないためである。 0.74
called translation equivariance. This is a key feature of CONVCNP (as long as a stationary kernel is used for interpolation), and we retain this property in GP-CONVCNP. 翻訳の等価性」です これはCONVCNPの重要な特徴であり(固定カーネルが補間に使用される限り)、GP-CONVCNPでこの特性を保持する。 0.61
We evaluate two further attributes of generalization, both on real world data: one is the ability to extrapolate the context information, i.e. 我々は、実世界のデータに基づいて、さらに2つの一般化の属性を評価し、その1つは文脈情報を外挿する能力である。 0.70
to produce good predictions well into the future by inferring an underlying pattern; the other is the ability to deal with a distribution shift at test time, in our case a shift from simulated to real world data. 基礎となるパターンを推測することにより、将来の予測を良好に行うこと。一方は、シミュレーションデータから実世界データへのシフトにおいて、テスト時に分布シフトに対処する能力である。 0.78
On top of the above, we are also interested in how well the distribution of samples from a model matches the ideal distribution. 以上に加えて、モデルからのサンプルの分布が理想的な分布とどの程度うまく一致しているかにも興味がある。 0.84
In general, the latter is not accessible, but for some synthetic examples we describe below, specifically those from a Gaussian Process, we do have access, simply by using the generating GP as an oracle. 一般に後者はアクセスできないが、以下に説明するいくつかの合成例、特にガウス過程から得られるものについては、単に GP をオラクルとして利用するだけでアクセスすることができる。 0.69
We can then compare this reference—a Gaussian distribution—with the distribution of samples from our model. この基準、つまりガウス分布と我々のモデルからのサンプルの分布を比較することができる。 0.73
Note that one sample is a prediction at all target points at once, as seen for example in Fig 1. 1つのサンプルは、図1に示すように、すべてのターゲットポイントにおいて一度に予測である。 0.79
The majority of approaches that estimate differences between distributions fall into the categories of either f-divergences or Integral Probability Measures (for an overview see for example Sriperumbudur et al [2009]). 分布間の差を推定するアプローチの大部分は、f-divergences あるいは integral probability measuresのカテゴリに分類される(概要はsriperumbudur et al [2009]を参照)。 0.81
The former require evaluations of likelihoods for both distributions, while we only have individual samples from our model. 前者は両分布の確率の評価を必要とし、後者のモデルでは個々のサンプルしか持たない。 0.74
We opt for a parameter-free representative of the 我々はパラメータフリーの代表を選ぶ 0.72
IPM category, the Wasserstein distance W2. ipmカテゴリ、ワッサースタイン距離w2。 0.53
We elaborate further on the definition and motivation in Appendix C.4. 付録 c.4 の定義と動機についてさらに詳しく述べる。 0.69
We initially test our method on diverse synthetic time series. 我々はまず,多様な合成時系列で実験を行った。 0.58
The first two have also been used in Gordon et al [2020], and they allow us to evaluate the sample diversity, as outlined above: (1) Samples from a Gaussian Process with a Matern-5/2 kernel. 最初の2つはgordon et al [2020]でも使われており、(1)マタン-5/2カーネルを持つガウス過程のサンプルである。
訳抜け防止モード: 最初の2つはGordon et al [ 2020 ]でも使用されている。 そして、上述したようにサンプルの多様性を評価することができる。 ( 1 ) Matern-5/2 カーネルを持つガウス過程からのサンプル。
0.69
(2) Samples from a Gaussian Process with a weakly periodic kernel. (2) 弱い周期核を持つガウス過程のサンプル。 0.62
(3) Fourier series with a variable number of components, each of which has random bias, amplitude and phase. 3) 可変数の成分を持つフーリエ級数は、それぞれがランダムなバイアス、振幅、位相を持つ。 0.69
(4) Step functions, which were specifically chosen to challenge our model, as the kernel we employ introduces smoothness assumptions that are illsuited for this problem. (4) モデルに特に挑戦するために選択されたステップ関数は,カーネルがこの問題に不適な滑らかさの仮定を導入している。 0.78
All of these are described in greater detail in Appendix C as well as the provided implementation. これらはすべて、提供される実装と同様に、appendix cで詳細に記述されている。 0.64
The size N of the context set is drawn uniformly from [3, 100) and the size M of the target set from [N, 100) following Le et al [2018]. コンテキストセットのサイズNは[3,100]から均一に描画され、ターゲットセットのサイズMは[N,100]からLe et al [2018]に従って描画される。
訳抜け防止モード: 文脈集合のサイズ N は [3, 100 ] から一様に描画される および[N, N]から設定されたターゲットのサイズM 100 )がLe et al [2018 ]に従っている。
0.90
We further join the context set into the target set as done in Garnelo et al [2018a,b]. 我々はさらに、Garnelo et al [2018a,b] のように、設定されたコンテキストをターゲットセットに組み込む。 0.68
Examples can be seen in Fig 1. 例を図1に示すことができる。 0.78
The first real world dataset we look at are weather recordings for several different US, Canadian and Israeli cities. 最初の現実世界のデータセットは、米国、カナダ、イスラエルの各都市における天気予報記録です。 0.77
In particular we focus on temperature measurements in hourly intervals that have been collected over the course of 5 years (see Appendix C.2). 特に5年間にわたって収集された時間間隔の温度測定に焦点を当てる(Appendix C.2)。 0.73
Temperatures in each city are normalized by their respective means and standard deviations. 各都市の気温は、それぞれの手段と標準偏差によって正規化される。 0.71
We 05101520253028029030 0310Temperature[K]PeriodicGP0510152025 30ConvCNP05101520253 0GP-ConvCNP051015202 530Time[days]270280290300310320Te mperature[K]051015202530Time[days]051015202530Time[days] 私たち 0510152025252530conv cnp0515202530gp-conv cnp0520202530time[days]27028080290310320 temperature[k]051015202530time[days]051015202530time[days] 0.70
英語(論文から抽出)日本語訳スコア
Table 2: Results on the real world datasets. 表2:実世界のデータセットの結果。 0.80
Again, ↑/↓ indicate that higher/lower is better and errors represent 1 standard deviation over 5 runs with different seeds (standard error of the mean for GP, because seed influence is negligible). 繰り返しになるが、"/" は高/低が良いことを示し、エラーは5つ以上の標準偏差を表す(gpの平均の標準誤差は、シードの影響が無視できるため)。 0.65
(left) For the temperature interpolation task, context points are randomly sampled from the test interval, for the temperature extrapolation task we provide context points in the first half of the interval and measure performance on the second half (as seen in Fig 2). (左)温度補間タスクでは、テスト間隔からコンテキストポイントをランダムにサンプリングし、温度補間タスクでは、この区間の前半にコンテキストポイントを提供し、後半(図2参照)のパフォーマンスを測定する。 0.64
For comparison, we also show a periodic GP with an Exponential Sine-Squared kernel. また,Exponential Sine-Squaredカーネルを用いた周期的なGPも示す。 0.70
(right) For the population dynamics, models are trained on simulated data, so the real world data (also shown in Fig 3) is likely out-of-distribution, as evidenced by the stark drop in performance. (右)人口動態学では、モデルがシミュレーションデータに基づいて訓練されるため、実世界のデータ(図3)は、性能の低下によって証明されているように、分布外である可能性が高い。 0.77
There is no obvious choice of kernel if one wanted to apply a GP to this problem. gpをこの問題に適用したい場合、カーネルの明確な選択はない。
訳抜け防止モード: カーネルの明確な選択がないなら 1つはgpをこの問題に適用したかった。
0.71
Predictive LL↑ Recon. 予測LL Recon 0.46
Error↓ Temperature Time Series interpolation extrapolation GP (per.) エラー 温度時系列 補間外挿GP (per.) 0.70
−2.075 ± 0.237 −46.611 ± 2.557 NP −0.855 ± 0.003 −1.267 ± 0.011 ANP −0.733 ± 0.008 −1.938 ± 0.381 −0.522 ± 0.008 −1.261 ± 0.062 CONVCNP GP-CONVCNP −0.515 ± 0.019 −1.190 ± 0.016 GP (per.) −2.075 ± 0.237 −46.611 ± 2.557 NP −0.855 ± 0.003 −1.267 ± 0.011 ANP −0.733 ± 0.008 −1.938 ± 0.381 −0.522 ± 0.008 −1.261 ± 0.062 CONVCNP GP-CONVCNP −0.515 ± 0.019 −1.190 ± 0.016 GP (per.) 0.51
NP ANP CONVCNP GP-CONVCNP NP ANP ConVCNP GP-CONVCNP 0.83
0.274 ± 0.001 0.238 ± 0.002 0.198 ± 0.007 0.106 ± 0.002 0.123 ± 0.018 0.274 ± 0.001 0.238 ± 0.002 0.198 ± 0.007 0.106 ± 0.002 0.123 ± 0.018 0.52
Population Dynamics simulated 人口動態 シミュレーション 0.70
real 0.527 ± 0.051 −33.070 ± 7.636 1.027 ± 0.033 −29.714 ± 9.210 1.374 ± 0.017 −23.540 ± 12.441 1.337 ± 0.029 −5.382 ± 2.625 本物 0.527 ± 0.051 −33.070 ± 7.636 1.027 ± 0.033 −29.714 ± 9.210 1.374 ± 0.017 −23.540 ± 12.441 1.337 ± 0.029 −5.382 ± 2.625 0.46
0.018 ± 0.001 0.008 ± 0.004 0.002 ± 0.001 0.004 ± 0.001 0.018 ± 0.001 0.008 ± 0.004 0.002 ± 0.001 0.004 ± 0.001 0.53
1.053 ± 0.015 0.772 ± 0.020 0.374 ± 0.019 0.411 ± 0.026 1.053 ± 0.015 0.772 ± 0.020 0.374 ± 0.019 0.411 ± 0.026 0.53
randomly sample sequences of ∼1 month as instances and evaluate two tasks, taking US and Canadian cities as the training set and Israeli cities as the test set: 米国とカナダの都市をトレーニングセットとして、イスラエルの都市をテストセットとして、ランダムに1ヶ月のサンプルシーケンスを例に挙げて2つのタスクを評価します。 0.64
1. Interpolation, where we draw context points and target points randomly from the entire sequence (i.e. 1. 補間(interpolation) – コンテキストポイントとターゲットポイントをシーケンス全体からランダムに描画する。 0.79
the same as in the synthetic examples). 2. 合成例と同じ)。 2. 0.66
Extrapolation, where context points are drawn from the first half of the sequence and performance is evaluated on the second half (as shown in Fig 2). シーケンスの前半からコンテキストポイントが引き出され、後半(図2に示すように)のパフォーマンスが評価される外挿。 0.52
We can reasonably be sure that temperature changes between day and night occur in the future with the same frequency, so extrapolating this pattern is a good test of a model’s ability to generalize. 日と夜の温度変化が同じ周波数で起こることを、合理的に確認することができるので、このパターンを外挿することは、モデルが一般化する能力のよいテストである。 0.83
The second real world dataset are measurements of a predator-prey population of lynx and hare. 第2のリアルワールドデータセットは、リンクスとハレの捕食者-捕食者集団の測定である。 0.55
Such population dynamics are often approximated by Lotka-Volterra equations [Leigh, 1968], so we train models on simulated population dynamics and test on both the simulated and real world data. このような人口動態はしばしばロトカ・ボルテラ方程式[リー, 1968]によって近似されるので、シミュレーションされた人口動態のモデルを訓練し、シミュレーションされたと実世界の両方のデータをテストする。 0.66
Gordon et al [2020] used this dataset as well, but only to qualitatively show that CONVCNP can be applied to it. Gordon らもこのデータセットを使用していたが、定性的に CONVCNP が適用可能であることを示すだけである。 0.82
The analysis will allow us to quantify how robust the models are to a shift in distribution at test time, as the simulation parameters are almost certainly not an ideal fit for the real world data. この分析によって、シミュレーションパラメータが現実世界のデータにほぼ理想的ではないため、テスト時の分布の変化に対するモデルの堅牢さを定量化することが可能になります。 0.86
For details on the simulation process we refer to Appendix C.3. シミュレーションプロセスの詳細については、Appendix C.3を参照。 0.75
Finally, even though the focus of our work is on time series data, we include some image experiments, mainly for the purpose of a more nuanced direct comparison with CONVCNP. 最後に,我々の研究の焦点は時系列データであるが,convcnpとのよりニュアンス的な直接比較を目的とした画像実験もいくつか含んでいる。 0.87
In particular, we compare the models on MNIST 特に、MNISTのモデルを比較する。 0.69
[Lecun et al ], CIFAR10 [Krizhevsky, 2009] and CelebA [Liu et al , 2015]. [Lecun et al ], CIFAR10 [Krizhevsky, 2009], CelebA [Liu et al , 2015]. 0.77
For the latter two, we work on resampled versions at 322 resolution. 後者の2つは、322の解像度で再サンプリングされたバージョンに取り組んでいます。 0.61
More details are given in Appendix E. 詳細はAppendix Eで確認できる。 0.65
4 RESULTS Table 1 shows results for the various synthetic time series. 4結果 表1は、様々な合成時系列の結果を示す。 0.69
In this experiment the models are trained and tested on random samples generated in the same way, so these results measure in-distribution performance. この実験では、モデルが同じ方法で生成されたランダムなサンプルに基づいてトレーニングされ、テストされるので、これらの結果は分布内性能を測定する。 0.63
We find that GP-CONVCNP is the overall best performing method, significantly so in terms of predictive performance for 3 out of the 4 time series and performing on par with CONVCNP on the other. GP-CONVCNPは,4つの時系列のうち3つに対する予測性能と,他方のCONVCNPと同等の性能を示す。
訳抜け防止モード: gp-convcnpが総合的最善の手法であることが判明した。 4つの時系列のうち3つが予測性能で 他方ではconvcnpと同等のパフォーマンスを実現しています。
0.64
Reconstruction performance is on par with CONVCNP in 3 out of 4 instances and significantly better in one. 再構成性能は4インスタンス中3インスタンスでConVCNPと同等で、1インスタンスでは大幅に向上している。
訳抜け防止モード: 再構成性能は4インスタンス中3インスタンスでCONVCNPと同等である 1つでは かなり良くなりました
0.75
For reference, we also show results for a Gaussian Process with EQ kernel (what our model uses) and the oracle where available. 参考までに、EQカーネル(私たちのモデルで使われているもの)と利用可能なオラクルを使ったガウスプロセスの結果を示す。 0.66
Evidently, the initial GP estimate in our model doesn’t have to be very good, but when it is, like in the Matern-5/2 case, our approach leverages this and even matches the oracle in performance. 明らかに、我々のモデルにおける最初のGP推定はそれほど良くないが、もしそれがMatern-5/2の場合のように、我々のアプローチはこれを活用し、パフォーマンスのオラクルとさえ一致している。 0.64
For examples originating from a Gaussian Process, we can evaluate the sample diversity with respect to the oracle GP, finding that GP-CONVCNP significantly outperforms the other methods in this regard. 例えば、ガウス過程から派生した例では、GP-CONVCNPが他の手法よりも著しく優れていることから、オラクルGPに対するサンプルの多様性を評価することができる。 0.68
It is important to note, however, that this measure does not fully isolate the sample diversity. しかしながら、この尺度がサンプルの多様性を完全に分離するものではないことに注意する必要がある。 0.66
A low reconstruction error, for example, will also improve the W2, which is likely the reason that ANP still performs better than NP, even though the former hardly displays any variation in its samples, as seen in Fig 1. 例えば、レコンストラクションエラーが低ければw2も改善するので、fig 1で見られるように、前者がサンプルのバリエーションをほとんど表示していないにもかかわらず、anpがnpよりも優れたパフォーマンスを保っている可能性が高い。
訳抜け防止モード: 例えば、低いリコンストラクションエラーにより、W2も改善される。 ANPがNPよりも優れたパフォーマンスを保っている理由はおそらくそこにある。 前者はサンプルのバリエーションをほとんど示していないが、図1に示すように。
0.74
英語(論文から抽出)日本語訳スコア
Figure 3: Example of CONVCNP and GP-CONVCNP applied to the simulated Lotka-Volterra population dynamics (top) and to the real Hudson Bay Company lynx-hare dataset (bottom). 図3: シミュレーションされたロトカ・ボルテラ人口動態と実際のハドソン湾会社のリンックス・ハアデータセット(ボットム)に適用されたCONVCNPとGP-CONVCNPの例。 0.72
Both perform well on the simulated (i.e. どちらもシミュレートされた(つまり)上でうまく機能する。 0.55
in-distribution) data and seem to struggle fitting the test interval on the real world data. in-distriion) データとテスト間隔を実世界のデータに合わせるのに苦労しているようだ。 0.69
Not however how the predicted uncertainty is larger for GP-CONVCNP. しかし、GP-CONVCNPの予測不確かさは大きい。 0.70
We display the best out of 5 models in each case, and for CONVCNP the performance is much more volatile, as seen in Table 2. それぞれのケースでベストな5モデルを表示します。そして、ConVCNPでは、表2に示すように、パフォーマンスはずっと不安定です。 0.80
NP and ANP perform poorly on the real world data, the corresponding figure is Fig A.4. NPおよびANPは、実世界データに悪影響を及ぼし、対応する図は図A.4である。 0.70
The figure also shows how NP and ANP struggle to fit high frequency signals, while CONVCNP and GP-CONVCNP are able to. また、この数字は、NPとANPが高周波信号に適合するのにどう苦労しているかを示している。
訳抜け防止モード: 図はまた、どのようにして NP と ANP は高周波信号に合うのに苦労するが、CONVCNP と GP - CONVCNP は対応できる。
0.68
The sample diversity in GP-CONVCNP is larger than in ANP, but samples are only significantly different from the mean prediction when further away from the context points in areas of high predictive uncertainty (shaded areas correspond to 1σ). GP-CONVCNP のサンプルの多様性は ANP よりも大きいが、高い予測の不確実性のある領域(シェード領域は 1σ に相当する)のコンテキストポイントから遠ざかる場合、サンプルは平均予測と大きく異なる。 0.86
In contrast, samples from the NP are more diverse throughout, at the expense of accurately matching the context points. 対照的に、NPからのサンプルは、コンテキストポイントを正確に一致させることによって、より多様である。 0.66
Table 3: Results for the image experiments, in terms of predictive log-likelihood (i.e. 表3: 予測ログの類似性(すなわち、画像実験の結果。 0.61
higher is better) on the respective test sets. 各テストセットで(より高い方がよい)。 0.76
Errors represent 1 standard deviation over 10 runs with different seeds. エラーは10ラン以上の1つの標準偏差を表す。 0.69
Bold indicates a significant difference, i.e. ボルドは、大きな違い、すなわち、それを示す。 0.56
when the difference is larger than the root sum of squares of the standard deviations. 違いが標準偏差の平方根の合計より大きい場合です 0.54
GP-CONVCNP outperforms CONVCNP overall, with a slight (non-significant) advantage for CONVCNP on MNIST. GP-CONVCNP は、MNIST 上の CONVCNP に対してわずか(非重要な)優位性をもって、全体的な CONVCNP を上回っている。 0.51
Visual examples and more details on the image experiments are given in Appendix E. イメージ実験のビジュアル例と詳細は、Appendix Eで公開されている。 0.82
MNIST CIFAR10 CelebA MNIST CIFAR10 CelebA 0.94
CONVCNP 4.133 ± 0.057 2.462 ± 0.006 2.212 ± 0.006 CONVCNP 4.133 ± 0.057 2.462 ± 0.006 2.212 ± 0.006 0.56
GP-CONVCNP 4.077 ± 0.026 2.744 ± 0.008 2.468 ± 0.008 GP-CONVCNP 4.077 ± 0.026 2.744 ± 0.008 2.468 ± 0.008 0.52
Examples from the temperature time series dataset can be 温度時系列データセットから例を挙げると 0.81
seen in Fig 2. The key characteristic of the signal is the temperature change between day and night, making it a high frequency signal not unlike the weakly periodic GP samples in the synthetic dataset. 図2に示す。 信号の鍵となる特徴は、昼夜の温度変化であり、合成データセットの弱い周期的なGPサンプルとは異なり、高周波信号である。 0.68
NP and ANP were not able to fit these signals, as can be seen in Fig A.3. NPとANPは、図A.3で見られるように、これらの信号に適合できなかった。 0.73
The top row of Fig. フィグの一番上の列。 0.48
2 shows an example of the regular interpolation task, the bottom row an example of the extrapolation task, which we deem an important aspect of generalization. 2は正規補間タスクの例を示し、下行は補間タスクの例を示し、一般化の重要な側面を推定する。 0.59
CONVCNP and GP-CONVCNP are both able to interpolate as well as extrapolate the correct temperature pattern, but occasionally CONVCNP underestimates the amplitude when extrapolating. CONVCNPとGP-CONVCNPはどちらも正しい温度パターンを外挿できるが、時には外挿時の振幅を過小評価する。 0.67
We also show an example of a periodic GP using an Exponential Sine-Squared kernel, which is a common choice for periodic signals. また、周期的な信号に対して共通の選択である指数Sine-Squaredカーネルを用いた周期的なGPの例を示す。 0.73
It fails to capture finer variations in the signal and often struggles to infer the right frequency, which results in its poor extrapolation performance in Table 2. 信号の微妙な変化を捉えられず、しばしば正しい周波数を推測するのに苦労し、結果として表2の補間性能が低下する。 0.73
We find that while CONVCNP and GP-CONVCNP perform on par for the interpolation task, GP-CONVCNP performs significantly better than the other methods on the extrapolation task. CONVCNP と GP-CONVCNP は補間タスクと同等に動作するのに対し,GP-CONVCNP は補間タスクの他の方法よりもはるかに優れていることがわかった。 0.74
To measure how robust the different members of the Neural Process family are to a distribution shift at test time, we train models on population dynamics simulated as Lotka-Volterra processes, and evaluate performance both on simulated (indistribution) and real world (out-of-distribution ) data. ニューラルプロセスファミリーの異なるメンバがテスト時の分布シフトにどの程度頑健であるかを測定するために、ロッカ・ボルテラプロセスとしてシミュレーションされた人口動態のモデルを訓練し、シミュレーションデータ(分布外データ)と実世界データ(分布外データ)の両方でパフォーマンスを評価する。 0.74
The real world dataset, along with a simulated example, can be seen in Fig 3. 実世界のデータセットとシミュレーションされた例は、Fig 3で見ることができる。 0.79
While both CONVCNP and GP-CONVCNP CONVCNP と GP-CONVCNP 0.75
01020304050600501001 50200Population[thousands]ConvCNP0102030405060 GP-ConvCNPContextPre datorContextPreyTarg etPredatorTargetPrey 18501860187018801890 1900191019201930Time [years]020406080100120140Po pulation[thousands]18501860187018801890 1900191019201930Time [years] 01020404050600100150 Population[thousands]ConvCNP01020405060GP -ConvCNPContextPreda torContextPreyTarget PredatorTargetPrey18 50186018801880901910 1920Time[years]020406080120140Popul ation[thousands]18501860181818909019 10 1930Time[years] 0.32
英語(論文から抽出)日本語訳スコア
fit the simulated data well, they struggle with the test interval on the real data. シミュレーションされたデータによく適合し 実際のデータでテスト間隔に苦労します 0.80
This is reflected in Table 2 as well, where we find that CONVCNP performs better than GPCONVCNP (even significantly so, albeit not with a huge difference) on the simulated data. これは表2にも反映されており、シミュレーションデータ上では、CONVCNPがGPCONVCNPより優れている(かなり大きな差はないが)ことが分かる。 0.78
Applied to the real world dataset, all methods experience a large drop in performance, indicating that this is indeed a significant distribution shift. 現実世界のデータセットに適用すると、すべてのメソッドはパフォーマンスが大幅に低下し、これは確かに大きな分散シフトであることを示している。
訳抜け防止モード: 実世界のデータセットに適用する。 すべてのメソッドは、パフォーマンスの大きな低下を経験します。 これは本当に大きな分布シフトです
0.77
GP-CONVCNP is by far the best performing method here, which is likely because of a better estimate of the preditive uncertainty. GP-CONVCNPは、予測の不確実性をよりよく見積もっているため、ここでは最も優れた実行方法である。 0.75
Note how the uncertainty predicted by CONVCNP is smaller than that of GP-CONVCNP in Fig 3 (the figure shows 1σ). convcnp によって予測される不確実性が fig 3 の gp-convcnp よりも小さい(図は 1σ)。 0.69
The predictions we show here are from the best performing seed in each case, other CONVCNP models predicted an even narrower distribution. ここで示す予測は、それぞれのケースで最高のパフォーマンスの種からであり、他のCONVCNPモデルはより狭い分布を予測している。 0.71
We selected this particular interval for testing because it’s the same interval Gordon et al [2020] show in the CONVCNP paper. この間隔は、ConVCNPの論文でGordon et al [2020] と同じ間隔であるので、テストのためにこの間隔を選択しました。 0.62
We also evaluated with context points drawn randomly from the entire interval (i.e. また,全区間からランダムに描画したコンテキストポイントを用いて評価を行った。 0.66
the same way we evaluate on the simulated data), and GP-CONVCNP still performs significantly better than the competing approaches (see Table A.1). シミュレーションデータで評価するのと同じように) GP-CONVCNP は競合するアプローチよりも性能が優れている(表 A.1 参照)。 0.80
CONVCNP also showed performance improvements compared to NP and ANP when applied to image data. CONVCNP は画像データに適用した場合,NP や ANP と比較して性能が向上した。 0.72
While the focus of our work is on time series, we were also interested to see if our model yields any benefits in this domain. 私たちの仕事の焦点は時系列でありながら、この領域で私たちのモデルが何らかの利益をもたらすかどうかを見ることにも興味がありました。 0.57
It does indeed, as seen in Table 3, where GP-CONVCNP outperforms CONVCNP on both CIFAR10 and CelebA (CONVCNP has a non-significant advantage on MNIST). 表3に示すように、GP-CONVCNP は CIFAR10 と CelebA の両方で CONVCNP を上回っている(CONVCNP は MNIST で非顕著な優位性を持っている)。 0.73
Examples are given in Appendix E, where we don’t see any meaningful difference in visual quality. Appendix Eの例では、視覚的品質に意味のある違いは見当たらない。
訳抜け防止モード: 例は Appendix E で示されています。 視覚的品質に意味のある違いは見当たらないのです。
0.74
The latter only “measures” the quality of the mean prediction, so we suspect that the performance improvement is due to a more accurate predictive uncertainty. 後者は平均予測の質を“測定”するだけなので、パフォーマンスの改善はより正確な予測の不確実性によるものだと考えています。 0.77
5 RELATED WORK Neural Processes have inspired a number of works outside of the ones we discuss. 関連作業5 ニューラルプロセスは、私たちが議論しているもの以外の多くの作品にインスピレーションを与えました。 0.59
Louizos et al [2019] propose to not merge observations into a global latent space, but instead learn conditional relationships between them. Louizos et al [2019] は、観測結果をグローバルな潜在空間にマージするのではなく、それらの間の条件関係を学ぶことを提案する。
訳抜け防止モード: Louizos et al [ 2019 ] の提案 観測結果をグローバルな潜伏空間にマージするのではなく 条件付き関係を学習するのです
0.71
This is especially suitable for semantically meaningful clustering and classification. これは特に意味的に有意義なクラスタリングと分類に適している。 0.65
Singh et al [2019] and Willi et al [2019] address the problem of overlapping and changing dynamics in the generating process of the data, a special case we do not include here. singh et al [2019] と willi et al [2019] では、データ生成プロセスにおけるダイナミクスの重複と変更の問題に対処しています。
訳抜け防止モード: singh et al [2019 ]とwilli et al [2019 ]は、データ生成プロセスにおけるダイナミクスの重複と変更の問題に対処します。 特別な場合は、ここでは含まない。
0.77
With a simple Gaussian kernel, we wouldn’t expect our model to perform well in that scenario, but one could of course introduce inductive bias in the form of e g non-stationary kernels, when translation equivariance is no longer desired. 単純なガウスカーネルでは、我々のモデルはそのようなシナリオでうまく機能するとは期待できないが、翻訳同値がもはや望まれない場合、もちろん、非定常カーネルの形で帰納バイアスを導入することができる。 0.64
NPs have also been scaled to extremely complex output spaces like in Generative Query Networks [Eslami et al , 2018, Rosenbaum et al , 2018], where a single observation is a full image. NPは、生成クエリネットワーク(Eslami et al , 2018, Rosenbaum et al , 2018)のような非常に複雑な出力空間にも拡張され、単一の観測が完全なイメージである。 0.76
GQN directly relates to the problem of (3D) scene understanding [Sitzmann et al , 2019, Engelcke et al , 2020]. GQNは3Dシーン理解の問題に直接関係している[Sitzmann et al , 2019, Engelcke et al , 2020]。 0.75
Gordon et al [2020] build their work (CONVCNP) upon recent contributions in the area of learning on sets, i.e. Gordon et al [2020] は集合の学習領域における最近の貢献に基づいて、CONVCNP(英語版) を構築している。 0.75
neural networks with set-valued inputs [Zaheer et al , 2017, Wagstaff et al , 2019], which has mostly been explored in the context of point clouds [Qi et al , 2017b,a, Wu et al , 2019]. 設定値の入力を持つニューラルネットワーク [Zaheer et al , 2017, Wagstaff et al , 2019] は、主に点雲 [Qi et al , 2017b,a, Wu et al , 2019] の文脈で研究されている。 0.84
Especially the work of Wu et al [2019] is closely related to Gordon et al [2020], also employing a CNN on a kernel density estimate, but their application is not concerned with time series. 特に Wu et al [2019] の研究は Gordon et al [2020] と密接に関係しており、CNN をカーネル密度の推定に用いているが、それらの応用は時系列には関係していない。 0.74
Bayesian Neural Networks [Neal, 1996, Graves, 2011, Hernández-Lobato and Adams, 2015] also address the problem of learning distributions over functions, but often implicitly, in the sense that the distributions over the weights are used to estimate uncertainty [Blundell et al , 2015, Gal and Ghahramani, 2016]. Bayesian Neural Networks [Neal, 1996, Graves, 2011, Hernández-Lobato and Adams, 2015] もまた関数上の学習分布の問題に対処しているが、ウェイト上の分布が不確実性を推定するために使用されるという意味では暗黙的に対処する(Blundell et al , 2015 Gal and Ghahramani, 2016)。 0.83
We are interested in this too, but in our scenario we want to be able to condition on observations at test time. これも関心がありますが、私たちのシナリオでは、テスト時に観察を条件付けできるようにしたいと考えています。
訳抜け防止モード: 私たちはこれにも興味を持っています。 しかし我々のシナリオでは テスト時の観察を 条件付けしたいのです
0.72
The main limitation of Gaussian Processes is their computational complexity and many works are dedicated to improving this aspect, often via approximations based on inducing points [Snelson and Ghahramani, 2006, Titsias, 2009, Gardner et al , 2018, Wilson and Nickisch, 2015] but also other approaches [Deisenroth and Ng, 2015, Rahimi and Recht, 2007, Le et al , 2013, Cheng and Boots, 2017, Hensman et al , 2013, 2015, Salimbeni et al , 2018], even for exact GPs [Wang et al , 2019]. ガウス過程の主な制限は計算の複雑さであり、多くの研究は、誘導点に基づく近似(snelson and ghahramani, 2006 titsias, 2009 gardner et al , 2018, wilson and nickisch, 2015])と他のアプローチ(deisenroth and ng, 2015 rahimi and recht, 2007 le et al , 2013 cheng and boots, 2017 hensman et al , 2013 2015 salimbeni et al , 2018])によって、この側面を改善することに専念している。
訳抜け防止モード: ガウス過程の主な制限は計算複雑性である 多くの作品が この側面を改善します しばしば、誘導点(Snelson と Ghahramani)に基づく近似による。 2006年 Titsias, 2009年 Gardner et al, 2018年。 Wilson and Nickisch, 2015 ] その他のアプローチ [Deisenroth] Ng, 2015 Rahimi and Recht, 2007 Le et al, 2013 Cheng and Boots, 2017 Hensman et al, 2013 2015年、Salimbeni et al, 2018,,, even for exact GPs [Wang et al, 2019 ]
0.71
Rather than competing with these approaches, our model will be able to leverage developments in this area. これらのアプローチと競合するのではなく、私たちのモデルはこの分野の開発を活用できるでしょう。 0.68
Some of the above try to find more efficient kernel representations and are thus closely related to the idea of kernel learning, i.e. 上記のいくつかはより効率的なカーネル表現を見つけようと試みており、したがってカーネル学習という概念と密接に関連している。
訳抜け防止モード: 上記のいくつかはより効率的なカーネル表現を見つけようとする カーネル学習の考え方と 密接に関係しています
0.77
the idea to combine the expressiveness of (deep) learning approaches with the flexibility of kernel methods, for example Yang et al [2015], Wilson et al [2016b,a], Tossou et al [2019], Calandra et al [2016]. 例えば、Yang et al [2015]、Wilson et al [2016b,a]、Tossou et al [2019]、Calandra et al [2016]である。
訳抜け防止モード: 深い)学習アプローチの表現力とカーネルメソッドの柔軟性を組み合わせたアイデア。 例えば、yang et al [2015 ]、wilson et al [2016b] などです。 a ]、tossou et al [2019 ]、calandra et al [2016 ]。
0.66
The key difference to our work is that these approaches attempt to learn kernels as an input to a kernel method, while we learn to make the output of a kernel method more expressive. 我々の研究の主な違いは、これらのアプローチがカーネルメソッドの入力としてカーネルを学習しようとする一方で、カーネルメソッドの出力をより表現力のあるものにすることである。 0.74
6 DISCUSSION We have presented a new model in the Neural Process family that extends CONVCNP by incorporating a Gaussian Process into it. 6 討論 我々は、ガウス過程を組み込むことにより、conVCNPを拡張するニューラルプロセスファミリーに新しいモデルを提示した。 0.70
We show on both synthetic and real time series that this improves performance overall, but most markedly when generalization is required: our model, GP-CONVCNP, can better extrapolate to regions far from the provided context points and is more robust when moving to real world data after training on simulated data. 我々のモデルであるGP-CONVCNPは、提供されたコンテキストポイントから離れた領域への外挿をより良くし、シミュレーションデータを用いたトレーニング後に実世界のデータに移行する際にはより堅牢である。
訳抜け防止モード: 合成と実時間の両方で性能が向上することを示す。 私たちのモデルであるGP - CONVCNPは、提供されたコンテキストポイントから遠く離れた領域への外挿をより良くします。 より堅牢で シミュレーションデータのトレーニングを経て 現実のデータに移行しました
0.76
We further retain translation equivariance, a key feature of CONVCNP, as long as a stationary kernel is used for the GP. さらに、gpに定常カーネルを使用する限り、convcnpの重要な特徴である翻訳等価性(translation equivariance)も保持する。 0.60
The introduction of the latter also allows us to draw multiple samples from the model, where the distribution of samples from our model better matches the samples from an oracle than those from a regular Neural Process or an Attentive Neural Process do. 後者の導入によって、モデルから複数のサンプルを描画することもできます。モデルからのサンプルの分布は、通常の神経プロセスや注意深い神経プロセスのものよりも、オラクルのサンプルによくマッチします。 0.74
Our model uses the prediction from a GP with an EQ-kernel 我々のモデルはEQカーネルを用いたGPからの予測を用いる 0.71
英語(論文から抽出)日本語訳スコア
as an initial estimate. 最初の見積もりとして 0.62
Interestingly, this estimate needn’t be very good—our model can learn periodicity even with a non-periodic input kernel—but when it is, our model can fully leverage it and even match the performance of an oracle, as seen in Table 1. 興味深いことに、この推定はそれほど良いものではない(我々のモデルは非周期的な入力カーネルでも周期性を学ぶことができる)。
訳抜け防止モード: 興味深いことに、この見積もりはそれほど良くない。 我々のモデルは、周期的でない入力カーネルでも周期性を学ぶことができる しかし、もしそうなら、私たちのモデルはそれを完全に活用できます 表1に示すように,oracleのパフォーマンスも一致しています。
0.58
An advantage all Neural Process flavors enjoy compared to many conventional time series prediction methods such as ARIMA models (see e g Hyndman and Athanasopoulos [2018]) is that they naturally work on non-uniform time series, with observations acquired at arbitrary times. すべての神経過程のフレーバーは、アリマモデル(例えばhyndman and athanasopoulos [2018])のような従来の時系列予測法と比較して、自然に不均一な時系列に作用し、任意の時間に観測されるという利点がある。 0.75
Of course, with the benefits of GPs we also inherit their limitations. もちろん、GPの利点により、我々はそれらの制限を継承します。 0.62
GPs are typically slow, naively requiring O(N 3) operations in the number of context observations, and our model inherits this complexity. GPは典型的には遅く、文脈観測の回数でO(N3)演算を必要とするが、我々のモデルはこの複雑さを継承する。 0.70
While this was a non-issue on the time series data used in our work, GP-CONCNP was noticably slower than CONVCNP (roughly 1.5x) in the image experiments, which we included for a more complete comparison with CONVCNP. GP-CONCNPは画像実験ではCONVCNP(約1.5倍)よりも顕著に遅く,より完全な比較が可能であった。
訳抜け防止モード: これは、我々の仕事で使われた時系列データに関する非問題でした。 GP - CONCNP は CONVCNP よりも著しく遅かった (約1.5倍) 画像実験では より完全な CONVCNP との比較を行った。
0.76
Our model still outperformed CONVCNP, but for larger images the improved performance will likely not be worth the additional cost. 私たちのモデルは依然としてCONVCNPより優れていますが、より大きな画像の場合、パフォーマンスの改善は追加コストに値しないでしょう。 0.63
Making GPs faster is a very active research area, as outlined above. 上述したように、GPを高速化することは非常に活発な研究分野である。 0.57
For our model specifically it seems reasonable to leverage work on deep kernels [Wilson et al , 2016b] or to learn mappings before the GP prediction like in Calandra et al [2016] in order to learn more meaningful GP posteriors that capture information about the training distribution. 特に本モデルでは,深層カーネル (Wilson et al , 2016b) での作業を活用するか,あるいはCalandra et al [2016] のようなGP予測の前にマッピングを学習して,トレーニング分布に関する情報をキャプチャするより有意義なGP後部を学習することは妥当であると思われる。 0.74
We do expect that our model is well suited to also work with these approximate methods, as we modify the prediction from the GP with a powerful neural network that should be able to correct minor approximation errors. 私たちのモデルは、gpからの予測を小さな近似誤差を訂正できる強力なニューラルネットワークで修正するため、これらの近似手法にも適していると期待しています。 0.68
For example, KISS-GP Wilson and Nickisch [2015] only has linear complexity, so incorporating it or one of the many other efficient approximate methods into our model should allow it to scale to much larger datasets. 例えば、kiss-gp wilson と nickisch [2015] は線形複雑性しか持たないので、モデルにそれや他の多くの効率的な近似メソッドを組み込むことで、もっと大きなデータセットにスケールできるはずです。 0.77
We leave a verification of this for future work. 私たちはこの検証を今後の作業に残します。 0.71
References Christopher M. Bishop. 参考文献 クリストファー・m・ビショップ 0.53
Neural Networks for Pattern Recog- パターンリコグのためのニューラルネットワーク 0.82
nition. Oxford University Press, Inc., 1995. ニション オックスフォード大学出版局、1995年。 0.50
Charles Blundell, Julien Cornebise, Koray Kavukcuoglu, and Daan Wierstra. Charles Blundell、Julien Cornebise、Koray Kavukcuoglu、Daan Wierstra。 0.66
Weight uncertainty in neural networks. ニューラルネットワークにおける重みの不確実性。 0.51
In International Conference on Machine Learning, pages 1613–1622, 2015. International Conference on Machine Learning, page 1613–1622, 2015 0.80
Roberto Calandra, Jan Peters, Carl Edward Rasmussen, and Marc Peter Deisenroth. Roberto Calandra、Jan Peters、Carl Edward Rasmussen、Marc Peter Deisenroth。 0.72
Manifold gaussian processes for regression. 回帰のための多様体ガウス過程 0.57
arXiv:1402.5876 [cs, stat], 2016. arXiv:1402.5876 [cs, stat], 2016 0.95
Ching-An Cheng and Byron Boots. Ching-An Cheng and Byron Boots 0.87
Variational inference for gaussian process models with linear complexity. 線形複雑性をもつガウス過程モデルの変分推論 0.72
In Advances in Neural Information Processing Systems 30, pages 5184–5194. In Advances in Neural Information Processing Systems 30 page 5184–5194。 0.85
2017. Marc Deisenroth and Jun Wei Ng. 2017. Marc Deisenroth と Jun Wei Ng 0.76
Distributed gaussian processes. 分散ガウスプロセス。 0.62
In International Conference on Machine Learning, pages 1481–1490, 2015. International Conference on Machine Learning, page 1481–1490, 2015 0.80
Martin Engelcke, Adam R. Kosiorek, Oiwi Parker Jones, and Ingmar Posner. Martin Engelcke、Adam R. Kosiorek、Oiwi Parker Jones、Ingmar Posner。 0.75
GENESIS: Generative scene inference and sampling with object-centric latent representations. genESIS: オブジェクト中心の潜在表現による生成シーン推論とサンプリング。 0.69
In International Conference on Learning Representations, 2020. 2020年、国際学習表現会議に参加。 0.78
S. M. Ali Eslami, Danilo Jimenez Rezende, Frederic Besse, Fabio Viola, Ari S. Morcos, Marta Garnelo, Avraham Ruderman, Andrei A. Rusu, Ivo Danihelka, Karol Gregor, David P. Reichert, Lars Buesing, Theophane Weber, Oriol Vinyals, Dan Rosenbaum, Neil Rabinowitz, Helen King, Chloe Hillier, Matt Botvinick, Daan Wierstra, Koray Kavukcuoglu, and Demis Hassabis. S.M. Ali Eslami, Danilo Jimenez Rezende, Frederic Besse, Fabio Viola, Ari S. Morcos, Marta Garnelo, Avraham Ruderman, Andrei A. Rusu, Ivo Danihelka, Karol Gregor, David P. Reichert, Lars Buesing, Theophane Weber, Oriol Vinyals, Dan Rosenbaum, Neil Rabinowitz, Helen King, Chloe Hillier, Matt Botvinick, Daan Wierstra, Koray Kavukcuoglu, Demis Hass Hassabis 0.88
Neural scene representation and rendering. ニューラルシーンの表現とレンダリング。 0.71
Science, 360(6394):1204– 1210, 2018. 科学、360(6394):1204–1210, 2018。 0.87
Yarin Gal and Zoubin Ghahramani. Yarin Gal と Zoubin Ghahramani。 0.79
Dropout as a bayesian approximation: Representing model uncertainty in deep learning. ベイズ近似としてのドロップアウト:ディープラーニングにおけるモデル不確実性を表現する。 0.54
In International Conference on Machine Learning, pages 1050–1059, 2016. 国際機械学習会議において、2016年1050-1059頁。 0.78
Jacob Gardner, Geoff Pleiss, Ruihan Wu, Kilian Weinberger, and Andrew Wilson. Jacob Gardner、Geoff Pleiss、Ruihan Wu、Kilian Weinberger、Andrew Wilson。 0.66
Product kernel interpolation for scalable gaussian processes. スケーラブルガウスプロセスのための製品カーネル補間 0.64
In International Conference on Artificial Intelligence and Statistics, pages 1407–1416, 2018. International Conference on Artificial Intelligence and Statistics, page 1407–1416, 2018 0.80
Marta Garnelo, Dan Rosenbaum, Christopher Maddison, Tiago Ramalho, David Saxton, Murray Shanahan, Yee Whye Teh, Danilo Rezende, and S. M. Ali Eslami. Marta Garnelo, Dan Rosenbaum, Christopher Maddison, Tiago Ramalho, David Saxton, Murray Shanahan, Yee Whye Teh, Danilo Rezende, S.M. Ali Eslami 0.83
Conditional neural processes. 条件付き神経プロセス。 0.80
In International Conference on Machine Learning, pages 1704–1713, 2018a. International Conference on Machine Learning, page 1704–1713, 2018a. 0.96
Marta Garnelo, Jonathan Schwarz, Dan Rosenbaum, Fabio Viola, Danilo J. Rezende, S. M. Ali Eslami, and Yee Whye Teh. Marta Garnelo, Jonathan Schwarz, Dan Rosenbaum, Fabio Viola, Danilo J. Rezende, S.M. Ali Eslami, Yee Whye Teh 0.87
Neural processes. In ICML Workshop on Theoretical Foundations and Applications of Deep Generative Models, 2018b. 神経プロセス。 ICML Workshop on Theory Foundations and Applications of Deep Generative Models, 2018b. 0.73
Jonathan Gordon, Wessel P. Bruinsma, Andrew Y. K. Foong, James Requeima, Yann Dubois, and Richard E. Turner. ジョナサン・ゴードン、ウェッセル・P・ブランズマ、アンドリュー・Y・K・フォン、ジェームズ・レクイマ、ヤン・デュボイス、リチャード・E・ターナー。
訳抜け防止モード: Jonathan Gordon, Wessel P. Bruinsma, Andrew Y. K. Foong James Requeima、Yann Dubois、Richard E. Turner。
0.88
Convolutional conditional neural processes. 畳み込み条件付き神経プロセス。 0.69
In International Conference on Learning Representations, 2020. 2020年、国際学習表現会議に参加。 0.78
Alex Graves. Alex Graves 0.60
Practical variational inference for neural networks. ニューラルネットワークの実践的変動推論 0.65
In Advances in Neural Information Processing Systems 24, pages 2348–2356. In Advances in Neural Information Processing Systems 24 pages 2348–2356。 0.86
2011. James Hensman, Nicolò Fusi, and Neil D. Lawrence. 2011. ジェームズ・ヘンズマン、ニコル・フシ、ニール・D・ローレンス。 0.71
Gaussian processes for big data. ビッグデータのためのガウスプロセス。 0.67
In Proceedings of the TwentyNinth Conference on Uncertainty in Artificial Intelligence, pages 282–290, 2013. In Proceedings of the TwentyNinth Conference on Uncertainty in Artificial Intelligence, page 282–290, 2013 0.87
James Hensman, Alexander Matthews, and Zoubin Ghahramani. James Hensman, Alexander Matthews, Zoubin Ghahramani 0.63
Scalable variational gaussian process classification. スケーラブルな変分ガウス過程分類。 0.64
英語(論文から抽出)日本語訳スコア
In Internation Conference on Artificial Intelligence and Statistics, pages 351–360, 2015. In Internation Conference on Artificial Intelligence and Statistics, pages 351–360, 2015 0.89
José Miguel Hernández-Lobato and Ryan P. Adams. ホセ・ミゲル・エルナンデス=ロバートとライアン・p・アダムズ。 0.30
Probabilistic backpropagation for scalable learning of bayesian neural networks. ベイズ型ニューラルネットワークのスケーラブル学習のための確率的バックプロパゲーション 0.66
In International Conference on Machine Learning, volume 37, pages 1861–1869, 2015. International Conference on Machine Learning, Volume 37, pages 1861–1869, 2015 0.80
Rob J. Hyndman and George Athanasopoulos. Rob J. HyndmanとGeorge Athanasopoulos。 0.93
Forecasting: principles and practice. 予測: 原則と実践。 0.71
OTexts, 2018. OTexts、2018年。 0.79
Hyunjik Kim, Andriy Mnih, Jonathan Schwarz, Marta Garnelo, Ali Eslami, Dan Rosenbaum, Oriol Vinyals, and Yee Whye Teh. Hyunjik Kim, Andriy Mnih, Jonathan Schwarz, Marta Garnelo, Ali Eslami, Dan Rosenbaum, Oriol Vinyals, Yee Whye Teh 0.74
Attentive neural processes. 注意深い神経プロセス。 0.65
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
Alex Krizhevsky. Alex Krizhevsky 0.58
Learning multiple layers of features from 複数の機能レイヤを学習する 0.85
tiny images. Technical report, 2009. 小さなイメージだ 技術報告、2009年。 0.64
Quoc Le, Tamas Sarlos, and Alexander Smola. Quoc Le、Tamas Sarlos、Alexander Smola。 0.57
Fastfoodcomputing hilbert space expansions in loglinear time. 高速フーズ計算ヒルベルト空間は対数時間で拡大する。 0.52
In International Conference on Machine Learning, pages 244–252, 2013. International Conference on Machine Learning, page 244–252, 2013 0.79
Tuan Anh Le, Hyunjik Kim, Marta Garnelo, Dan Rosenbaum, Jonathan Schwarz, and Yee Whye Teh. Tuan Anh Le, Hyunjik Kim, Marta Garnelo, Dan Rosenbaum, Jonathan Schwarz, Yee Whye Teh
訳抜け防止モード: Tuan Anh Le, Hyunjik Kim, Marta Garnelo, Dan Rosenbaum ジョナサン・シュワルツ(Jonathan Schwarz)とYee Whye Teh。
0.82
Empirical evaluation of neural process objectives. 神経プロセス目標の実証的評価 0.67
In NeurIPS Bayesian Deep Learning Workshop, 2018. NeurIPS Bayesian Deep Learning Workshop, 2018。 0.72
Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner. Y. Lecun, L. Bottou, Y. Bengio, P. Haffner 0.95
Gradientbased learning applied to document recognition. 文書認識へのグラディエント学習の適用 0.72
86(11): 2278–2324. 86(11): 2278–2324. 0.94
Egbert G Leigh. Egbert G Leigh 0.63
Ecological role of Volterra’s equations. ボルテラ方程式の生態学的役割 0.67
Lectures on mathematics in the life sciences. 生命科学における数学の講義。 0.80
Princeton University, 1968. 1968年プリンストン大学教授。 0.66
Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Ziwei Liu、Ping Luo、Xiaogang Wang、Xiaoo Tang。 0.63
Deep learning face attributes in the wild. 深層学習は野生の属性である。 0.64
In Proceedings of International Conference on Computer Vision (ICCV), December 2015. In Proceedings of International Conference on Computer Vision (ICCV) 2015年12月。 0.84
Christos Louizos, Xiahan Shi, Klamer Schutte, and Max Welling. Christos Louizos、Xiahan Shi、Klamer Schutte、Max Welling。 0.61
The functional neural process. 機能的な神経プロセスです 0.84
In Advances in Neural Information Processing Systems 32, pages 8743– 8754. 神経情報処理システム32の進歩において、ページ8743–8754。 0.75
2019. Radford M. Neal. 2019. ラドフォード・M・ニール 0.69
Bayesian Learning for Neural Networks. ニューラルネットワークのためのベイズ学習 0.80
Lecture Notes in Statistics. 統計学における講義ノート。 0.67
Springer, 1996. 1996年、スプリンガー。 0.57
Charles R. Qi, Hao Su, Mo Kaichun, and Leonidas J. Guibas. Charles R. Qi, Hao Su, Mo Kaichun, and Leonidas J. Guibas 0.87
PointNet: Deep learning on point sets for 3d classification In IEEE Conference on Computer and segmentation. PointNet: IEEE Conference on Computer and segmentationにおいて、3d分類のためのポイントセットに関するディープラーニング。 0.78
Vision and Pattern Recognition, pages 77–85, 2017a. Vision and Pattern Recognition, page 77–85, 2017a. 0.91
Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas 0.75
PointNet++: Deep hierarchical feature learning on point sets in a metric space. PointNet++: メトリック空間のポイントセットに関する深い階層的な特徴学習。 0.80
In Advances in Neural Information Processing Systems 30, pages 5099–5108. In Advances in Neural Information Processing Systems 30 page 5099–5108 0.77
2017b. Ali Rahimi and Benjamin Recht. 2017年。 アリ・ラヒミとベンジャミン・レヒト 0.55
Random features for largescale kernel machines. 大規模カーネルマシンのランダムな特徴。 0.73
In Advances in Neural Information Processing Systems 20, pages 1177–1184. In Advances in Neural Information Processing Systems 20 page 1177–1184 0.76
2007. Carl Edward Rasmussen and C. K. I. Williams. 2007. カール・エドワード・ラスムセンと c・k・i・ウィリアムズ 0.71
Gaussian Processes for Machine Learning. ガウス 機械学習のためのプロセス。 0.66
MIT Press, 2006. 2006年、MIT出版。 0.65
S. Roberts, M. Osborne, M. Ebden, S. Reece, N. Gibson, and S. Aigrain. S. Roberts、M. Osborne、M. Ebden、S. Reece、N. Gibson、S. Aigrain。 0.86
Gaussian processes for time-series modelling. 時系列モデリングのためのガウス過程 0.67
371(1984):20110550, 2013. 371(1984):20110550, 2013. 0.94
Dan Rosenbaum, Frederic Besse, Fabio Viola, Danilo J. Rezende, and S. M. Ali Eslami. Dan Rosenbaum, Frederic Besse, Fabio Viola, Danilo J. Rezende, S.M. Ali Eslami 0.86
Learning models for visual 3d localization with implicit mapping. 暗黙マッピングを用いた視覚的3次元位置推定のための学習モデル 0.53
In NeurIPS Bayesian Deep Learning Workshop, 2018. NeurIPS Bayesian Deep Learning Workshop, 2018。 0.72
Hugh Salimbeni, Ching-An Cheng, Byron Boots, and Marc Deisenroth. Hugh Salimbeni, Ching-An Cheng, Byron Boots, Marc Deisenroth 0.76
Orthogonally decoupled variational gaussian processes. 直交した変分ガウス過程。 0.62
In Advances in Neural Information Processing Systems 31, pages 8711–8720. 神経情報処理システム31の進歩』8711-8720頁。 0.69
2018. Gautam Singh, Jaesik Yoon, Youngsung Son, and Sungjin Ahn. 2018. Gautam Singh、Jaesik Yoon、Youngsung Son、Sungjin Ahn。 0.75
Sequential neural processes. In Advances in Neural Information Processing Systems 32, pages 10254–10264. 連続神経過程。 Advanceds in Neural Information Processing Systems 32, page 10254–10264。 0.71
2019. Vincent Sitzmann, Michael Zollhoefer, and Gordon Wetzstein. 2019. ヴィンセント・シッツマン、マイケル・ゾルホーファー、ゴードン・ウェッツスタイン。 0.69
Scene representation networks: Continuous 3dstructure-aware neural scene representations. シーン表現ネットワーク:連続的な3d構造認識ニューラルネットワーク表現。 0.63
In Advances in Neural Information Processing Systems 32, pages 1119–1130. 神経情報処理システム32の進歩は1119-1130ページである。 0.73
2019. Edward Snelson and Zoubin Ghahramani. 2019. Edward SnelsonとZoubin Ghahramani。 0.82
Sparse gaussian processes using pseudo-inputs. 擬似入力を用いたスパースガウス過程 0.65
In Advances in Neural Information Processing Systems 18, pages 1257–1264. 神経情報処理システム18の進歩』 1257-1264頁。 0.70
2006. Bharath K. Sriperumbudur, Kenji Fukumizu, Arthur Gretton, Bernhard Schölkopf, and Gert R. G. Lanckriet. 2006. Bharath K. Sriperumbudur, Fukumizu Kenji, Arthur Gretton, Bernhard Schölkopf, Gert R. G. Lanckriet 0.84
On integral probability metrics, phi-divergences and binary classification. 積分確率メトリクス、phi-divergencesおよびバイナリ分類について。 0.62
arXiv:0901.2698 [cs, math], 2009. arXiv:0901.2698 [cs, math] 2009 0.95
Michalis Titsias. Michalis Titsias 0.56
Variational learning of inducing variables in sparse gaussian processes. スパースガウス過程における変数誘導の変分学習 0.71
In International Conference on Artificial Intelligence and Statistics, pages 567–574, 2009. International Conference on Artificial Intelligence and Statistics, 567–574, 2009 0.73
Prudencio Tossou, Basile Dura, Francois Laviolette, Mario Marchand, and Alexandre Lacoste. Prudencio Tossou、Basile Dura、Francis Laviolette、Mario Marchand、Alexandre La Coste。 0.66
Adaptive deep kernel learning. 適応型深層カーネル学習。 0.76
arXiv:1905.12131 [cs, stat], 2019. arXiv: 1905.12131 [cs, stat], 2019 0.94
Riccardo Volpi, Hongseok Namkoong, Ozan Sener, John Duchi, Vittorio Murino, and Silvio Savarese. Riccardo Volpi, Hongseok Namkoong, Ozan Sener, John Duchi, Vittorio Murino, Silvio Savarese 0.72
Generalizing to unseen domains via adversarial data augmentation. 逆データ拡張による未認識ドメインへの一般化。 0.59
In Advances in Neural Information Processing Systems 31, page 5339–5349, 2018. Advances in Neural Information Processing Systems 31, page 5339–5349, 2018 0.80
Edward Wagstaff, Fabian B. Fuchs, Martin Engelcke, Ingmar Posner, and Michael Osborne. Edward Wagstaff、Fabian B. Fuchs、Martin Engelcke、Ingmar Posner、Michael Osborne。 0.77
On the limitations of representing functions on sets. 集合上の関数の表現の制限について。 0.62
In International Conference on Machine Learning, 2019. 2019年、国際機械学習会議に参加。 0.79
英語(論文から抽出)日本語訳スコア
Ke Wang, Geoff Pleiss, Jacob Gardner, Stephen Tyree, Kilian Q Weinberger, and Andrew Gordon Wilson. Ke Wang、Geoff Pleiss、Jacob Gardner、Stephen Tyree、Kilian Q Weinberger、Andrew Gordon Wilson。 0.68
Exact In Adgaussian processes on a million data points. Exact Adgaussianは100万のデータポイントを処理します。 0.74
vances in Neural Information Processing Systems 32, pages 14622–14632. 神経情報処理システム32, 14622–14632 の欠落。 0.70
2019. Timon Willi, Jonathan Masci, Jürgen Schmidhuber, and Recurrent neural processes. 2019. Timon Willi, Jonathan Masci, Jürgen Schmidhuber, Recurrent Neural Process。 0.77
Christian Osendorfer. クリスチャン・オゼンドルファー。 0.54
arXiv:1906.05915 [cs, stat], 2019. arXiv:1906.05915 [cs, stat], 2019 0.96
Andrew G Wilson, Zhiting Hu, Russ R Salakhutdinov, and Eric P Xing. Andrew G Wilson、Zhiting Hu、Russ R Salakhutdinov、Eric P Xing。 0.73
Stochastic variational deep kernel learning. 確率的変分深いカーネル学習。 0.61
In Advances in Neural Information Processing Systems 29, pages 2586–2594. In Advances in Neural Information Processing Systems 29 page 2586–2594 0.76
2016a. Andrew Gordon Wilson and Hannes Nickisch. 2016年。 Andrew Gordon Wilson と Hannes Nickisch。 0.79
Kernel interpolation for scalable structured gaussian processes (KISSGP). スケーラブルな構造化ガウス過程(kissgp)のためのカーネル補間 0.71
In International Conference on Machine Learning, 2015. 2015年 機械学習に関する国際会議を開催。 0.86
Andrew Gordon Wilson, Zhiting Hu, Ruslan Salakhutdinov, In Internaand Eric P. Xing. Andrew Gordon Wilson, Zhiting Hu, Ruslan Salakhutdinov, In Internaand Eric P. Xing 0.84
Deep kernel learning. tional Conference on Artificial Intelligence and Statistics, 2016b. 深いカーネル学習。 2016年、人工知能と統計に関する国際会議。 0.72
Wenxuan Wu, Zhongang Qi, and Li Fuxin. Wenxuan Wu, Zhong Qi, Li Fuxin 0.56
PointConv: Deep convolutional networks on 3d point clouds. PointConv: 3dポイントクラウド上の深い畳み込みネットワーク。 0.87
In IEEE Conference on Computer Vision and Pattern Recognition, pages 9621–9630, 2019. IEEE Conference on Computer Vision and Pattern Recognition, page 9621–9630, 2019。 0.85
Zichao Yang, Andrew Wilson, Alex Smola, and Le Song. Zichao Yang、Andrew Wilson、Alex Smola、Le Song。 0.72
A la carte – learning fast kernels. a la carte – 高速なカーネルを学ぶ。 0.76
In International Conference on Artificial Intelligence and Statistics, pages 1098–1106, 2015. International Conference on Artificial Intelligence and Statistics, page 1098–1106, 2015 0.81
Manzil Zaheer, Satwik Kottur, Siamak Ravanbakhsh, Barnabas Poczos, Russ R Salakhutdinov, and Alexander J Smola. Manzil Zaheer、Satwik Kottur、Siamak Ravanbakhsh、Barnabas Poczos、Russ R Salakhutdinov、Alexander J Smola。 0.69
Deep sets. In Advances in Neural Information Processing Systems 30, pages 3391–3401. 深いセット。 神経情報処理システム(英語版)30ページ3391-3401。 0.69
2017. 2017. 0.85
英語(論文から抽出)日本語訳スコア
Figure A.1: Schematic overview of the different methods used in this work. 図 a.1: この作品で使用される様々なメソッドの図式概要。 0.81
Dotted lines indicate sampling and we use the following acronyms: multilayer perceptron (MLP), kernel density estimate (KDE), Gaussian Process (GP), linear layer (LIN), convolutional neural network (CNN). 多層パーセプトロン(mlp)、カーネル密度推定(kde)、ガウス過程(gp)、線形層(lin)、畳み込みニューラルネットワーク(cnn)である。
訳抜け防止モード: ドット線はサンプリングを示す 多層パーセプトロン (multilayer perceptron, MLP) と略す。 カーネル密度推定(KDE)、ガウス過程(GP) 線形層(LIN)、畳み込みニューラルネットワーク(CNN)。
0.63
(First row) Neural Processes (NP) encode each context point (xc, yc) into a representation zc. (第一行)ニューラルプロセス(NP)は、各コンテキストポイント(xc, yc)を表現zcに符号化する。 0.80
These are then averaged to form a global representation z. これらは平均して大域表現 z を形成する。 0.64
A sample from the global representation is concatenated with the target input xt to predict the target output yt. グローバル表現からのサンプルを目標入力xtと連結して目標出力ytを予測する。
訳抜け防止モード: グローバル表現からのサンプルは、ターゲット入力 xt と連結される 目標出力 yt を予測するためです
0.81
(Second row) Attentive Neural Processes (ANP) contain a NP, but have a second deterministic path. (第2行) 注意神経プロセス(ANP)はNPを含むが、第2の決定論的経路を持つ。 0.78
In this path, the context pairs are also encoded separately into representations ac. この経路では、コンテキストペアも別々に表現 ac に符号化される。 0.71
These are then combined via an atttention mechanism that uses xt as the query, xc as the keys and ac as the values. xt をクエリとして、xc をキーとして、ac を値として使用する atttention メカニズムによってこれらが結合される。 0.68
The resulting representation a is concatenated with the representation from the NP path and the target input to predict the target output. 結果の表現aは、npパスからの表現と目標入力とを連結して目標出力を予測する。 0.70
(Third row) CONVCNP performs a kernel density estimate on the context observations (xc, yc), thus mapping to a continuous representation. (3行) CONVCNPは、コンテキスト観測(xc, yc)に基づいてカーネル密度推定を行い、連続表現にマッピングする。 0.67
This representation is evaluated on a grid, i.e. この表現はグリッド、すなわちグリッド上で評価されます。 0.53
discretized, and a projection and CNN operate on the discretized representation. 離散化され、投影とCNNは離散化表現で動作する。 0.63
The result is evaluated at a target input xt by performing a convolution with the discretized representation and finally projected to predict the target output. 離散化表現と畳み込みを行い、目標入力xtで評価し、最終的に目標出力を予測するように投影する。
訳抜け防止モード: その結果をターゲット入力xtで評価する。 離散化された表現と畳み込みを行い、最終的にターゲット出力を予測するために投影される。
0.66
(Fourth row) GP-CONVCNP works similar to CONVCNP, but instead of a deterministic kernel density estimate a Gaussian Process is applied to the context. GP-CONVCNP は CONVCNP と似ているが、決定論的カーネル密度推定の代わりにガウス過程が文脈に適用される。 0.70
We sample from the GP posterior and discretize the result, continuing with the same operations as in CONVCNP. GP後方からサンプルを採取し,結果を離散化し,CONVCNPと同じ操作を継続する。 0.71
Note that for visual purposes, the KDE and GP outputs are one-dimensional, but in reality the output space can have any number of dimensions. 視覚的目的のために、KDE と GP の出力は 1 次元であるが、実際には出力空間は任意の次元を持つことができる。 0.71
x1y1x2y2xNyNxtargetz z1z2zNµσµσMLPMLPATTENTIONaa1a2 aNMLPzz1z2zNµσµσMLPMLPxtargetKDEDISC RETIZELIN + CNNCONVxtargetLINGPD ISCRETIZELIN + CNNCONVxtargetLINyta rgetµσGP-CONVCNPCONVCNPANP NP x1y1x2y2xNyNxtargetz z1z2zNμσσMLPMLPATENTIONa1a2NM LPzz1z2zNμσσMLPMLPxtargetKDEDISC RETIZELIN + CNNCONVxtargetlingPD ISCRETIZELIN + CNNCONVxtargetLINyta rgetμσGP-CONVCNPCONVCNPANP NP 0.16
英語(論文から抽出)日本語訳スコア
A METHOD DESCRIPTIONS we can again rewrite the summands as 方法記述 再びサマンドを書き換えることができます 0.55
Fig. A.1 shows schematic representations of the different methods used in this work, and a description is given in the figure caption. フィギュア。 a.1は、この作品で使用される異なる方法の図式表現を示し、図のキャプションで記述される。 0.61
The MLPs in both NP and ANP have 6 hidden layers with 128 channels each, and the input and output sizes are adjusted to match the dimensions of data and latent representations. NPおよびANPのMLPは、それぞれ128のチャネルを持つ6つの隠蔽層を持ち、入力サイズと出力サイズはデータと潜在表現の寸法に合わせるように調整される。 0.83
The latent representation in both models has 128 dimensions, so that the encoders for the NP and the NP path in ANP have 256 output channels to represent both the mean and the standard deviation of a Gaussian distribution (in practice, we predict the log-variance, not the standard deviation). 両モデルの潜在表現は128次元であり、np と anp の np 経路のエンコーダはガウス分布の平均と標準偏差の両方を表す 256 個の出力チャネルを持つ(実際には、標準偏差ではなく対数分散を予測する)。 0.70
The attention mechanism in ANP also uses 128 as the embedding dimension. ANPの注意機構も埋め込み次元として128を使用している。 0.69
These configurations follow Le et al [2018], who evaluated several different configurations for NP and ANP. これらの構成は Le et al [2018] に続き、NP と ANP のいくつかの異なる構成を評価した。 0.66
CONVCNP and GP-CONVCNP both use a Gaussian kernel with a learnable length scale l to map the input to a continuous representation, given by CONVCNP と GP-CONVCNP はどちらも学習可能な長さスケール l のガウスカーネルを使用して、入力を連続表現にマッピングする。 0.81
(cid:48) k(x, x (cid:48) k(x, x) 0.87
) = exp (cid:18) −|x − x(cid:48) ) = exp (cid:18) −|x − x(cid:48) 0.79
2l2 |2 (cid:19) 2l2 |2 (cid:19) 0.72
The result is discretized onto a grid, which we obtain by taking the minimum and maximum of the target inputs as the value range, padded by 0.1 units. 結果が格子上に離散化され、ターゲット入力の最小値と最大値とを0.1単位の値範囲とすることで得られる。 0.81
The grid is constructed over this range with a resolution of 20 points per unit. グリッドは1ユニットあたり20ポイントの解像度でこの範囲に構築されている。 0.77
The discretized representations are projected to 8 channels before a CNN is applied. 離散表現は、cnnが適用される前に8チャンネルに投影される。 0.68
The CNN is a 12-layer residual network with ReLU activations. CNNはReLUアクティベーションを持つ12層残基ネットワークである。 0.88
The number of channels in the convolutional layers doubles every second layer for the first 6 layers and is then decreased symmetrically, leading to 8 output channels. 畳み込み層内のチャネル数は、最初の6層の第2層ごとに2倍になり、対称的に減少し、8つの出力チャネルとなる。 0.84
Residual connections are implemented via concatenation. 残余接続は連結によって実装される。 0.52
Predictions are obtained by convolving the CNN output with a target input, followed by a final projection. ターゲット入力でCNN出力を畳み込み、続いて最終的な投影によって予測が得られる。 0.70
B OPTIMIZATION Recall that our optimization objective is B 最適化 私たちの最適化の目標は 0.71
max θ log pθ(yt|xt, xc, yc) マックス θ log pθ(yt|xt, xc, yc) 0.82
which we can rewrite as 書き直すことができます 0.56
max θ log pθ(yt|xt, Z) マックス θ log pθ(yt|xt, Z) 0.80
(cid:88) f∈F (cid:88) f.f.f.f.f.f.f.f.f.f. f.f.f.f.f.f.f.f.f.f 0.41
(cid:88) f∈F (cid:88) f.f.f.f.f.f.f.f.f.f. f.f.f.f.f.f.f.f.f.f. f.f.f.f.f.f 0.40
where Z is given by the different E that encode the context defined in Section 2. ここで Z は、セクション2で定義されたコンテキストを符号化する異なる E によって与えられる。 0.68
For CONVCNP this is deterministic, so we can maximize Eq (9) directly. CONVCNP の場合、これは決定論的であるため、Eq (9) を直接最大化できる。 0.71
For the other methods log p(yt|xt, xc, yc) = log 他の方法では log p(yt|xt, xc, yc) = log 0.94
E z∼p(z|xc,yc) E ゼップ(z|xc,yc) 0.76
p(yt|xt, z) p(yt|xt, z) 0.92
(11) where we now distinguish z as an expression of Z. (11) ここで z を z の表現として区別します 0.78
In GPCONVCNP, p(z|xc, yc) is given by the GP posterior, so for training we would need to integrate over the posterior. GPCONVCNP では、p(z|xc, yc) は GP の後部から与えられるので、訓練のためには後部に積分する必要がある。 0.72
In practice, we just draw a single sample, which is common practice in stochastic mini-batch training. 実際に1つのサンプルを描くだけで、確率的ミニバッチトレーニングではよくあるプラクティスです。
訳抜け防止モード: 実際には 1つのサンプルを描き 確率的ミニバッチトレーニングにおける一般的なプラクティスです。
0.74
Approximating the expectation with this sample, we can also directly maximize the log-likelihood. このサンプルで期待を近似すると、ログライクな条件を直接最大化できる。 0.62
In contrast to the above, p(z|xc, yc) is an unknown or intractable mapping in NP and ANP, so we employ variational inference, i.e. 上記とは対照的に、p(z|xc, yc) はnp と anp における未知あるいは難解な写像であるので、変分推論を用いる。 0.68
we approximate p(z|xc, yc) with a member of some family Q that we can find by optimization. 我々は p(z|xc, yc) を、最適化によって見つけることができる族 Q のメンバーと近似する。 0.73
The log-likelihood then becomes (8) ログライクな状態が (8) 0.68
log p(yt|xt, xc, yc) ≥ log p(yt|xt, xc, yc) ≥ 1.00
E log p(yt|xt, z) E log p(yt|xt, z) 0.90
z∼q(z|xt,yt) − DKL (q(z|xt, yt)||p(z|xc, yc)) (12) z\q(z|xt,yt) − DKL(q(z|xt, yt)|p(z|xc, yc))(12) 0.81
E log p(yt|xt, z) E log p(yt|xt, z) 0.90
z∼q(z|xt,yt) − DKL (q(z|xt, yt)||q(z|xc, yc)) (13) z\q(z|xt,yt) − DKL (q(z|xt, yt)||q(z|xc, yc)) (13) 0.81
≈ where the inequality follows from Jensen’s inequality. ≈ 不等式はJensenの不等式から導かれる。 0.68
To maximize the LHS it is sufficient to maximize the RHS, and Eq (13) is what is being optimized in NP and ANP. LHS を最大化するには RHS を最大化するのに十分であり、Eq (13) は NP と ANP で最適化されている。 0.82
q corresponds to what we designated as E in Section 2. q は第2節で私たちが E と指定したものに対応する。 0.63
Like for GP-CONVCNP, we approximate the expectation with a single sample during training. GP-CONVCNPと同様に、トレーニング中に単一のサンプルで予測を近似する。 0.69
In our implementation, we use Adam with an initial learning rate of 0.001. 実装では、Adamを初期学習率0.001で使用しています。 0.68
We train each model for 600 000 batches with a batch size of 256. 各モデルに対して,バッチサイズ256の60000バッチのトレーニングを実施しました。 0.57
We repeatedly multiply the learning rate by γ = 0.995 after training for 1000 batches. 学習率を1000バッチのトレーニング後にγ = 0.995で繰り返し乗算した。 0.81
C DATA & EVALUATION DETAILS cデータと評価の詳細 0.64
C.1 SYNTHETIC DATA For all synthetic time series draws we define the x-axis to cover the interval [−3, 3]. C.1 合成データ すべての合成時系列の描画に対して、x軸は区間 [−3, 3] をカバーする。 0.71
As outlined in Section 3.2, we draw N context points randomly from this interval, with N a random integer from the range [3, 100). セクション3.2で概説されているように、この区間から N の文脈点をランダムに描き、範囲 [3, 100] から N をランダムな整数とする。 0.70
We then draw M target points in the same manner, with M a random integer from [N, 100). 次に、M を [N, 100] からランダムな整数とし、同じ方法で M の目標点を描く。 0.77
During training, we add the context points to the target set so that the methods learn to reconstruct the context. トレーニング中、ターゲットセットにコンテキストポイントを追加して、メソッドがコンテキストを再構築するようにします。 0.57
These are the different types we evaluate: これらは私たちが評価する異なるタイプです 0.70
(9) (10) (9) (10) 0.85
英語(論文から抽出)日本語訳スコア
(cid:48) k(x, x (cid:48) k(x, x) 0.87
) = 1. Samples from a Gaussian Process with a Matern-5/2 kernel with lengthscale parameter l = 0.5. ) = 1. ガウス過程のサンプルは、長さパラメータ l = 0.5 のMatern-5/2 カーネルである。 0.76
The kernel is given by カーネルは付与される 0.66
(cid:32) · exp (cid:32) ·exp 0.78
5|x − x(cid:48) 5|x − x(cid:48) 0.75
3l2 |2 (cid:33) 3l2 |2 (cid:33) 0.72
(14) 1 + (cid:18) (14) 1 + (cid:18) 0.83
+ (cid:19) + (cid:19) 0.82
l | √5|x − x(cid:48) 5|x − x(cid:48) (cid:19) うーん | 5|x − x(cid:48) 5|x − x(cid:48) (cid:19) 0.66
| l − (cid:18) −|x − x(cid:48) (cid:16) (cid:16) (cos(8πx) − cos(8πx (cid:48) (sin(8πx) − sin(8πx | うーん − (cid:18) −|x − x(cid:48) (cid:16) (cid:16) (cos(8πx) − cos(8πx) (cid:48) (sin(8πx) − sin(8πx) 0.72
|2 8 (cid:48) |2 8 (cid:48) 0.81
))2(cid:17) ))2(cid:17) ))2(cid:17) )2(cid:17) 0.93
(cid:48) k(x, x (cid:48) k(x, x) 0.87
) = exp · exp · exp ) = exp ・exp・exp 0.72
2. Samples from a Gaussian Process with a weakly peri- 2. 弱いペリを持つガウス過程からのサンプル- 0.79
odic kernel that is given by odic kernel (複数形 odic kernels) 0.75
C.3 POPULATION DYNAMICS We simulate population dynamics of a predator-prey population with a Lotka-Volterra model. c.3 人口動態 Lotka-Volterraモデルを用いて捕食者-捕食者の人口動態をシミュレートする。 0.62
Let X be the number of predators at a given time and Y the number of prey. X を与えられた時点の捕食者の数とし、Y を獲物の数とする。 0.70
We draw initial numbers X from [50, 100) and Y from [100, 150). 初期数 X を [50, 100) から、Y を [100, 150) から引き出す。 0.80
We then draw time increments from an exponential distribution and after each time increment one of the following events occurs: その後、指数分布から時間インクリメントを描き、次のイベントの1つをインクリメントする。 0.58
1. A single predator is born with probability proportional 1. 一つの捕食者が確率比例で生まれる 0.79
to the rate θ0 · X · Y θ0 · x · y まで 0.60
2. A single predator dies with probability proportional to 2. 一つの捕食者が確率に比例して死ぬ 0.74
3. A single prey is born with probability proportional to 3. 一つの獲物は確率に比例して生まれる 0.80
the rate θ1 · X θ1 · X のレート 0.90
the rate θ2 · Y θ2 · Y のレート 0.90
rate θ3 · X · Y レート θ3 · x · y 0.88
(15) (16) K(cid:88) (15) (16) k(cid:88) 0.83
k=1 3. Fourier series that are given by k=1 3. 与えられるフーリエ級数 0.62
4. A single prey dies with probability proportional to the 4. 単一の獲物は確率に比例して死ぬ 0.79
f (x) = a0 + f (x) = a0 + 0.96
ak cos(kx − φk) ak cos(kx − φk) 0.96
where K is a random integer from [10, 20) and ak (including a0) as well as φk are random real numbers drawn from [−1, 1]. ここで K は [10, 20) と ak (a0 を含む) からのランダム整数であり、φk は [−1, 1] から引き出されたランダム実数である。 0.86
4. Step functions, where we draw S stepping points along the x-axis, with S a random integer from [3, 10). 4. ステップ関数は x 軸に沿って S のステップポイントを描き、S は [3, 10] からランダム整数となる。 0.82
The interval between two stepping points is assigned a constant value that is drawn from [−3, 3]. 2つのステッピングポイントの間の間隔は、[−3, 3]から引き出される定数値に割り当てられる。 0.84
We ensure that each interval is at least 0.1 units wide and that the step difference is also at least 0.1 units in magnitude. 各間隔が少なくとも0.1単位幅であり、ステップ差が少なくとも0.1単位の大きさであることを保証する。 0.78
C.2 TEMPERATURE TIME SERIES C.2 温度時間系列 0.69
The temperature dataset we work with is taken from https://www.kaggle.c om/selfishgene/ historical-hourly-we ather-data. 扱う温度データセットはhttps://www.kaggle.c om/selfishgene/ historical-hourly-we ather-dataから取得します。 0.50
It consists of hourly temperature measurements in 30 US and Canadian cities as well as 6 Israeli cities, taken continuously over the course of ∼5 years. アメリカとカナダの30都市とイスラエルの6都市で気温の時間測定が行われ、5年間にわたって継続的に測定されている。 0.72
Occasionally there are NaN values reported in the dataset, we either crop those when at the begging/end of a sequence or fill them via linear interpolation. データセットには時にNaN値が報告され、シーケンスのbegging/endでそれをトリミングするか、線形補間によってそれらを埋める。 0.73
We use the US/Canadian cities as our training and validation set and the Israeli cities as our test set. 米国とカナダの都市をトレーニングと検証セットとして、イスラエルの都市をテストセットとして使用しています。 0.66
For both training and testing we draw random sequences of length 720 (i.e. トレーニングとテストの両方のために、長さ720のランダムなシーケンスを描画します。 0.65
30 days) from the corresponding set, and then draw N context points and M target points from the sequence, with N from the interval [20, 100) and M from [N, 100). 対応する集合から N のコンテキストポイントと M のターゲットポイントをシーケンスから描画し、[20, 100] から N を、[N, 100] から M を抽出する。 0.65
The temperatures for each city are normalized by their respective means and standard deviations, and we define the time range for a given sequence to be [0, 3], so that one time unit is equivalent to 10 days. 各都市の温度は、それぞれの手段と標準偏差によって正規化され、所定のシーケンスの時間範囲が[0, 3]と定義され、1つの時間単位が10日に相当する。 0.84
We evaluate each seed for a model with 100 random samples and report the mean and standard deviation over 5 seeds for each model. 我々は,100個のランダムサンプルを持つモデルに対して各種子を評価し,各モデルに対して平均および標準偏差を5種以上報告した。
訳抜け防止モード: 100個のランダムサンプルを用いたモデルによる各種子の評価 平均および標準偏差を モデル毎に5種以上報告します。
0.80
For convenience, we include the data with our implementation. 利便性のために、実装にデータを含めます。 0.65
The rate of the exponential distribution we draw time increments from is the sum of the above rates. 我々が時間から増やす指数分布の速度は、上記の割合の合計である。 0.64
Each population is simulated for 10000 events, and we reject populations that have died out, populations that exceed a total number of 500 individuals at any given point, as well as those where the accumulated time is larger than 100 units. それぞれの人口は1万の出来事をシミュレートし、絶滅した人口、任意の時点において合計500人を超える人口、蓄積された時間が100単位を超える人口を拒絶する。 0.66
To get value ranges that are better suitable for training, we rescale the time axis by a factor 0.1 and the population axis by a factor 0.01. トレーニングに適した値範囲を得るために、時間軸を0.1、人口軸を0.01で再スケールする。 0.65
For each population we draw θ0 from [0.005, 0.01], θ1 from [0.5, 0.8], θ2 from [0.5, 0.8] and θ3 from [0.005, 0.01]. 各集団に対して θ0 は [0.005, 0.01] から、θ1 は [0.5, 0.8] から、θ2 は [0.5, 0.8] から、θ3 は [0.005, 0.01] から引き出す。
訳抜け防止モード: 各人口に対して θ0 を [0.005, 0.01 ] から引き出す。 θ1 from [ 0.5, 0.8 ], θ2 from [ 0.5, 0.8 ] and θ3 from [ 0.005 , 0.01 ] .
0.71
These parameters result in roughly 2/3 of the simulated populations matching our criteria. これらのパラメータは、我々の基準に合致したシミュレーション人口の約2/3を占める。 0.56
We also tried the parameters reported in Gordon et al [2020], but found that we had to reject more than 90% of populations, which meant an unreasonably long training time, as the simulation process for the populations is difficult to parallelize and thus rather slow. 我々はGordon et al [2020]で報告されたパラメータも試したが、人口の90%以上を拒絶しなければならなかった。
訳抜け防止モード: また、Gordon et al[2020 ]で報告されたパラメータも試した。 人口の90%以上を拒絶しなければなりませんでした これは不当に長い訓練期間を意味します 人口シミュレーションのプロセスは 並列化が難しいので かなり遅くなります
0.74
The N context points and M target points are again drawn randomly from a population, with N from [20, 100) and M from [max(70, N ), 150). N のコンテキストポイントと M のターゲットポイントは、[20, 100] の N と [max(70, N ), 150) の M から再びランダムに引き出される。 0.77
We evaluate models trained on simulated data on real world measurements of a lynx-hare population. シミュレーションデータを用いたリンクスハア個体群の実測値に基づくモデルの評価を行った。 0.66
The data were recorded at the end of the 19th and the start of the 20th century by the Hudson’s Bay Company. データは19世紀末から20世紀初頭にかけてハドソン湾会社によって記録された。 0.59
To the best of our knowledge, the data represent recorded trades of pelts from the two animals and not direct measurements of the populations. 我々の知る限りでは、このデータは2匹の動物からのペレットの取引の記録であり、個体群の直接測定ではない。 0.68
There is no unique source for the data in a tabular format, but we https://github.com/s tan-dev/ example-models/blob/ master/knitr/ lotka-volterra/hudso n-bay-lynx-hare and include the data with our code for convenience. 表形式のデータには独自のソースはありませんが、私たちはhttps://github.com/s tan-dev/ example-models/blob/ master/knitr/ lotka-volterra/hudso n-bay-lynx-hareを使って、コードにデータを含めています。
訳抜け防止モード: 表形式のデータにはユニークなソースはありません。 モデル / blob / master / knitr/ lotka - volterra / hudson - bay - lynx - hare 利便性のために コードにデータを入れます
0.56
For evaluation, we normalize the data so that the mean population matches the mean of populations in the simulated data and the time interval matches the mean duration of a simulated population. 評価のために,シミュレーションデータ中の平均個体数の平均値と時間間隔がシミュレーションされた個体数の平均持続時間と一致するようにデータを正規化する。 0.83
used 使用 0.71
英語(論文から抽出)日本語訳スコア
Table A.1: This table corresponds to the rightmost column in Table 2, i.e. 表A.1: この表は表2の一番右の列に対応する。 0.85
it shows results on the real world population dynamics data. これは実世界の人口動態データに結果を示す。 0.79
In Table 2, the evaluation was performed as seen in Fig 3, meaning one contiguous interval on the data was selected as the target region and the rest of the data is provided as context, following Gordon et al [2020]. 表2では、図3に示すように評価が行われ、データ上の連続した間隔が対象領域として選択され、残りのデータはgordonら[2020]に従ってコンテキストとして提供される。 0.76
Here we instead sample the context and target points randomly from the entire interval, like we do in the other experiments as well. ここでは、他の実験と同様に、各区間からランダムにコンテキストとターゲットポイントをサンプリングします。 0.66
For each seed, we average over 100 random draws and report the standard deviation over 5 seeds as errors. 1種につき平均100以上のランダムな引き分けを行い、5種以上の標準偏差を誤差として報告する。 0.62
While CONVCNP maintains leading performance in terms of reconstruction error, GP-CONVCNP significantly outperforms the other methods in predictive performance, similar to what we found in Table 2. CONVCNPはリコンストラクションエラーに関して主要な性能を維持しているが、GP-CONVCNPは表2に示したような予測性能において他の手法よりも優れていた。 0.68
All methods perform worse compared to the evaluation method used in Table 2. 表2で用いられる評価方法に比べ、全ての手法はより良く機能する。 0.71
Predictive LL↑ NP −36.735 ± 4.137 ANP −38.717 ± 3.572 CONVCNP −28.762 ± 1.958 GP-CONVCNP −19.252 ± 1.846 予測 LL NP −36.735 ± 4.137 ANP −38.717 ± 3.572 CONVCNP −28.762 ± 1.958 GP-CONVCNP −19.252 ± 1.846 0.54
Recon. Error↓ 0.952 ± 0.024 0.718 ± 0.018 0.272 ± 0.008 0.343 ± 0.020 Recon Error↓ 0.952 ± 0.024 0.718 ± 0.018 0.272 ± 0.008 0.343 ± 0.020 0.52
of swapping the kernel interpolation for a GP to make the comparison fair. 比較を公平にするために カーネル補間をgpにスワップすることです 0.74
All other hyper parameters are the same as in the time series experiments. 他の全てのハイパーパラメータは、時系列実験と同じである。 0.79
Examples for both CONVCNP and GP-CONVCNP can be seen in Fig A.5, Fig A.6 and Fig A.7, with each example taken from the test sets. convcnpとgp-convcnpの両方の例は、fig a.5、fig a.6、fig a.7で見ることができる。
訳抜け防止モード: CONVCNP と GP - CONVCNP の例は、Fig A.5, Fig A.6, Fig A.7 で見ることができる。 テストセットから抽出した各例で。
0.66
There is not noticeable visual difference between the two model, so we assume that the improved performance is due to better estimates of the predictive uncertainty (i.e. 2つのモデルに視覚的な違いは見当たらないため、パフォーマンスの向上は予測の不確実性(すなわち、予測の不確実性)のより良い推定によるものであると仮定する。 0.67
the standard deviation of the predicted Gaussian). 予測されたガウスの標準偏差) 0.60
In terms of performance, we found that inference takes roughly 1.5x as long for GP-CONVCNP as it does for CONVCNP, which we believe is still an acceptable tradeoff. 性能面では, GP-CONVCNP は CONVCNP の約1.5倍の時間を要することが判明した。 0.50
C.4 WASSERSTEIN DISTANCE C.4ワッセステイン耐性 0.57
As outlined in Section 3, we seek to compare the distribution of samples from a model with a reference distribution, which we have access to for the synthetic examples sampled from a GP in the form of the prediction from the same GP. 第3節で概説されているように、モデルからのサンプルの分布と参照分布を比較し、同じGPからの予測の形でGPからサンプリングされた合成例にアクセスできるようにする。 0.69
Comparing distributions is usually done with either some form of f-divergence (e g the Kullback-Leibler divergence) or with an Integral Probability Measure (IPM) f-divergences require evaluations of likelihoods in both distributions, while we can only evaluate those under the GP posterior but not in our models. 分布の比較は通常、ある種の f-ダイバージェンス(例えば、kullback-leibler ダイバージェンス)または積分確率測度 (ipm) f-ダイバージェンス(英語版)で行われ、両方の分布における可能性の評価が必要となるが、gp の後方でのみ評価できるが、モデルでは評価できない。 0.71
IPM only compare samples from the distributions and are thus suited for our scenario. IPMは分布のサンプルのみを比較し、したがってシナリオに適合する。 0.80
One of the more well-known measures from this group is the Wasserstein distance given by: この群から最もよく知られた測度の1つは、ワッサーシュタイン距離である。 0.57
 |P|(cid:88) シュ |P| (cid:88) 0.65
i=1 1/p (17) i=1 ※1/p (17) 0.58
Wp(P, Q) = min Wp(P, Q) = min 0.85
π ||xi − yπ(i)||p π |xi − yπ(i)||p 0.81
where P = {xi}i and Q = {yi}i are collections of samples from the two distributions. ここで p = {xi}i と q = {yi}i は二つの分布からサンプルの集合である。 0.89
In colloquial terms, the Wasserstein distance is the minimum overall distance between sample pairs, taken over all possible pairings between samples from the two distributions. 口語的な言い方をすれば、ワッサーシュタイン距離はサンプル対の間の最小の全体距離であり、2つの分布からのサンプル間の全ての可能なペアを乗っ取る。 0.67
For this reason the Wasserstein-1 distance is also called the Earth Mover Distance. このため、wasserstein-1 距離は earth mover distance とも呼ばれる。 0.85
p is the only hyperparameter we need to select, making this measure a very convenient choice. p は選択する唯一のハイパーパラメータであり、この尺度は非常に便利な選択である。 0.78
We set p = 2 so that the underlying distance metric becomes the Euclidean distance. p = 2 を基底距離計量がユークリッド距離となるように設定する。 0.71
D ADDITIONAL RESULTS In this section we show some additional results, specifically we show the performance as a function of the number of context points (Fig. d 追加結果 この節では、いくつかの追加結果を示し、特に、コンテキストポイントの数(図)の関数としてパフォーマンスを示す。 0.60
A.2) as well as examples for NP and ANP on the temperature time series dataset in Fig A.3 and on the population dynamics dataset in Fig A.4. A.2は、図A.3の温度時系列データセットと図A.4の人口動態データセットにおけるNPとANPの例である。 0.83
We also show results on the population dynamics dataset in Table A.1, using a different evaluation method compared to the main manuscript. また,本書と異なる評価手法を用いて,表A.1における人口動態データセットの結果を示す。 0.76
E IMAGE EXPERIMENTS For a more complete comparison of our model with CONVCNP, we include image experiments, specifically MNIST, CIFAR10 and CelebA. E画像実験 私たちのモデルとconvcnpのより完全な比較には、画像実験、特にmnist、cifar10、celebaが含まれています。 0.57
For the latter two, we work with resampled images at 322 resolution. 後者の2つは、322の解像度で再サンプリングされた画像を扱う。 0.68
The context set has a size drawn from [20, 400) ([20, 300) for MNIST), the target set a size drawn from [50, 400), and we reconstruct both target and context points during training. コンテキストセットは、[20, 400) ([20, 300) for MNIST, the target set a size from [50, 400), and we constructed both target and context points during training。
訳抜け防止モード: コンテキストセットは、[20, 400 ) ( [ 20, 300 ) for MNIST ) から引き出されたサイズを持つ。 ターゲットは[50, 400 ]から引き出されたサイズを設定する 訓練中にターゲットポイントとコンテキストポイントを再構築します
0.84
We evaluate the average log-likehood of the model predictions on the respective test sets, as seen in Table 3. 表3に示すように,各テストセットにおけるモデル予測の平均ログ類似度を評価した。 0.86
The implementation of CONVCNP is again taken directly from the official repository, and we leave the architecture unchanged with the exception CONVCNPの実装は、再び公式リポジトリから直接取り込まれ、アーキテクチャは例外を除いて変更される。 0.67
英語(論文から抽出)日本語訳スコア
Figure A.2: Performance as a function of the number of context points for the two synthetic GP examples. 図A.2: 2つの合成GP例のコンテキストポイント数の関数としてのパフォーマンス。 0.86
For sparse context points, our model and CONVCNP are on par, while an increasing number of context points leads to an advantage for our model. スパースコンテキストポイントでは、モデルとConVCNPは同等であり、コンテキストポイントの増加はモデルに有利な結果をもたらす。
訳抜け防止モード: スパースコンテキストポイントの場合、私たちのモデルとConVCNPは同等です。 コンテキストポイントの増加は 我々のモデルに利点をもたらします
0.68
Figure A.3: Examples from the temperature time series test set for NP and ANP. 図A.3: NP と ANP の温度時系列テストセットの例。 0.80
For the interpolation task (left) we provide context points from the full sequence, for the extrapolation task (right) we provide context points in the first half of the sequence and evaluate the second. 補間タスク(左)については、全シーケンスからコンテキストポイントを提供し、外挿タスク(右)では、シーケンスの前半にコンテキストポイントを提供し、2番目を評価する。 0.63
Both methods are unable to fit the context points, likely because the frequency is too high to be represented in the models. どちらの方法も、モデルで表現するには周波数が高すぎるため、コンテキストポイントに適合することができない。 0.73
10203040506070809010 0Numberofcontextpoin ts−2−10123PredictiveLLMat ern-5/2GP10203040506 0708090100Numberofco ntextpoints−1.25−1.00−0.75−0.50−0.250.000.25WeaklyPe riodicGPNPANPConvCNP GP-ConvCNP0510152025 30Time[days]275280285290295300Te mperature[K]NP051015202530Time[days]ANP051015202530Time[days]NP051015202530Time[days]ANP 1020304050608080100N umberofcontextpoints −2−10123 PredictiveLLMatern-5 /2GP102040506080100N umberofcontextpoints −1.25−1.00−0.75−0.50−0.250.000.25WeaklyPe riodicGPNPANPConvCNP GP-ConvCNP0510152025 30Time[days]275280285290295300Te mperature[K]NP050515252530Time[days]ANP051020252530Time[days]NP05102025252525Time [days]ANPPP 0.33
英語(論文から抽出)日本語訳スコア
Figure A.4: Example of NP and ANP applied to the simulated Lotka-Volterra population dynamics (top) and to the real Hudson Bay Company lynx-hare dataset (bottom). 図 A.4: NP と ANP の例は、シミュレーションされた Lotka-Volterra 人口動態(トップ)と実際の Hudson Bay Company の lynx-hare データセット(ボットム)に適用される。 0.71
Similar to CONVCNP and GP-CONVCNP, seen in Fig 3, both work well on simulated data. 図3に見られるCONVCNPやGP-CONVCNPと同様に、どちらもシミュレーションデータでうまく機能する。 0.78
On the real data, however, both struggle to fit the context points and produce a poor prediction for the test interval. しかし、実際のデータでは、どちらのデータもコンテキストポイントの適合に苦労し、テスト間隔の予測に乏しい。 0.64
05101520253035400501 00150200250300350Pop ulation[thousands]NP0510152025303540AN PContextPredatorCont extPreyTargetPredato rTargetPrey185018601 87018801890190019101 9201930Time[years]020406080100120140Po pulation[thousands]18501860187018801890 1900191019201930Time [years] 05102025253550505015 015050350Population[thousands]NP05102025253535ANPC ontextPredatorContex tPreyTargetPredatorT argetPrey18501818801 880901910 1920Time[years]020406080100120140Po pulation[thousands]18501818188018901900 19101920Time[years] 0.31
英語(論文から抽出)日本語訳スコア
Figure A.5: Examples for CONVCNP and GP-CONVCNP applied on MNIST test data. 図A.5: MNISTテストデータに適用されたCONVCNPとGP-CONVCNPの例。 0.73
Models were trained on the training set. モデルはトレーニングセットでトレーニングされました。 0.69
Numbers indicate the number of context points and the top left panel shows the reference image for each case. 数字はコンテキストポイントの数を示し、左上のパネルは各ケースの参照画像を表示する。 0.74
ConvCNPGP-ConvCNP500 2001501005020ConvCNP GP-ConvCNP5002001501 005020ConvCNPGP-Conv CNP5002001501005020 ConvCNPGP-ConvCNP500 2001505020ConvCNPGP- ConvCNP500 2001505020ConvCNPGP- ConvCNP500 200150505020 0.13
英語(論文から抽出)日本語訳スコア
Figure A.6: Examples for CONVCNP and GP-CONVCNP applied on CIFAR10 test data. 図A.6: CIFAR10テストデータに適用されたCONVCNPとGP-CONVCNPの例。 0.70
Models were trained on the training set. モデルはトレーニングセットでトレーニングされました。 0.69
Numbers indicate the number of context points and the top left panel shows the reference image for each case. 数字はコンテキストポイントの数を示し、左上のパネルは各ケースの参照画像を表示する。 0.74
ConvCNPGP-ConvCNP500 2001501005020ConvCNP GP-ConvCNP5002001501 005020ConvCNPGP-Conv CNP5002001501005020 ConvCNPGP-ConvCNP500 2001505020ConvCNPGP- ConvCNP500 2001505020ConvCNPGP- ConvCNP500 200150505020 0.13
英語(論文から抽出)日本語訳スコア
Figure A.7: Examples for CONVCNP and GP-CONVCNP applied on CelebA test data, resized to 32x32 resolution. 図 A.7: CelebA テストデータに適用された CONVCNP と GP-CONVCNP の例。
訳抜け防止モード: 図 A.7: CelebA テストデータに適用された CONVCNP および GP - CONVCNP の例 解像度は32x32
0.81
Models were trained on the training set. モデルはトレーニングセットでトレーニングされました。 0.69
Numbers indicate the number of context points and the top left panel shows the reference image for each case. 数字はコンテキストポイントの数を示し、左上のパネルは各ケースの参照画像を表示する。 0.74
ConvCNPGP-ConvCNP500 2001501005020ConvCNP GP-ConvCNP5002001501 005020ConvCNPGP-Conv CNP5002001501005020 ConvCNPGP-ConvCNP500 2001505020ConvCNPGP- ConvCNP500 2001505020ConvCNPGP- ConvCNP500 200150505020 0.13
                                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。