論文の概要、ライセンス

# (参考訳) 多変量確率時系列予測のための自己回帰消音拡散モデル [全文訳有]

Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2101.12072v1 )

ライセンス: CC BY 4.0
Kashif Rasul, Calvin Seward, Ingmar Schuster, Roland Vollgraf(参考訳) 本研究では,その勾配を推定し,各タイミングにおけるデータ分布からのサンプルを多変量確率時系列予測のための自己回帰モデルである「texttt{TimeGrad}」を提案する。 この目的のために,スコアマッチングやエネルギーベース手法と密接な関係を持つ潜在変数モデルのクラスである拡散確率モデルを用いる。 モデルでは,データ可能性の変動境界を最適化して勾配を学習し,推定時に白色雑音をLangevinサンプリングを用いてマルコフ連鎖を介して興味の分布のサンプルに変換する。 提案手法は,数千の相関次元を持つ実世界のデータセット上での,最先端の多変量確率予測手法であることを示す。 我々は,本手法が実践者にとって有用なツールであり,今後の研究の基盤となることを願っている。

In this work, we propose \texttt{TimeGrad}, an autoregressive model for multivariate probabilistic time series forecasting which samples from the data distribution at each time step by estimating its gradient. To this end, we use diffusion probabilistic models, a class of latent variable models closely connected to score matching and energy-based methods. Our model learns gradients by optimizing a variational bound on the data likelihood and at inference time converts white noise into a sample of the distribution of interest through a Markov chain using Langevin sampling. We demonstrate experimentally that the proposed autoregressive denoising diffusion model is the new state-of-the-art multivariate probabilistic forecasting method on real-world data sets with thousands of correlated dimensions. We hope that this method is a useful tool for practitioners and lays the foundation for future research in this area.
公開日: Thu, 28 Jan 2021 15:46:10 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time 多変量確率時間に対する自己回帰消音拡散モデル 0.70
Series Forecasting 1 2 0 2 シリーズ予測 1 2 0 2 0.76
n a J 8 2 ] n a J 8 2 ] 0.85
G L . s c [ 1 v 2 7 0 2 1 G L。 sc [ 1 v 2 7 0 2 1 0.70
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
Kashif Rasul 1 Calvin Seward 1 Ingmar Schuster 1 Roland Vollgraf 1 Kashif Rasul 1 Calvin Seward 1 Ingmar Schuster 1 Roland Vollgraf 1。 0.86
Abstract In this work, we propose TimeGrad, an autoregressive model for multivariate probabilistic time series forecasting which samples from the data distribution at each time step by estimating its gradient. 概要 本研究では,その勾配を推定し,各時点におけるデータ分布からサンプルを抽出する多変量確率時系列予測の自己回帰モデルであるTimeGradを提案する。 0.64
To this end, we use diffusion probabilistic models, a class of latent variable models closely connected to score matching and energy-based methods. この目的のために,スコアマッチングやエネルギーベース手法と密接な関係を持つ潜在変数モデルのクラスである拡散確率モデルを用いる。 0.82
Our model learns gradients by optimizing a variational bound on the data likelihood and at inference time converts white noise into a sample of the distribution of interest through a Markov chain using Langevin sampling. モデルでは,データ可能性の変動境界を最適化して勾配を学習し,推定時に白色雑音をLangevinサンプリングを用いてマルコフ連鎖を介して興味の分布のサンプルに変換する。 0.84
We demonstrate experimentally that the proposed autoregressive denoising diffusion model is the new state-of-theart multivariate probabilistic forecasting method on real-world data sets with thousands of correlated dimensions. 提案手法は,数千の相関次元を持つ実世界のデータセット上で,最新の多変量確率予測手法であることを示す。 0.64
We hope that this method is a useful tool for practitioners and lays the foundation for future research in this area. 我々は,本手法が実践者にとって有用なツールであり,今後の研究の基盤となることを願っている。 0.68
1. Introduction Classical time series forecasting methods such as those in (Hyndman & Athanasopoulos, 2018) typically provide univariate point forecasts, require hand-tuned features to model seasonality, and are trained individually on each time series. 1. 古典的時系列予測手法(Hyndman & Athanasopoulos, 2018)は、典型的には一変点予測を提供し、季節をモデル化するために手作業による特徴を必要とし、各時系列で個別に訓練される。 0.78
Deep learning based time series models (Benidis et al., 2020) are popular alternatives due to their end-to-end training of a global model, ease of incorporating exogenous covariates, and automatic feature extraction abilities. 深層学習に基づく時系列モデル(Benidis et al., 2020)は、グローバルモデルのエンドツーエンドトレーニング、外因性共変体の導入の容易さ、自動特徴抽出能力によって人気がある。 0.80
The task of modeling uncertainties is of vital importance for downstream problems that use these forecasts for (business) decision making. 不確実性をモデル化する作業は、これらの予測を(ビジネス)意思決定に使用する下流問題にとって極めて重要である。
訳抜け防止モード: 下流問題における不確実性モデリングの課題 これらの予測を (ビジネス) 意思決定に使用してください。
0.79
More often the individual time series for a problem data set are statistically dependent on each other. 多くの場合、問題データセットの個々の時系列は統計的に互いに依存する。 0.82
Ideally, deep learning models need to incorporate this inductive bias in the form of multivariate (Tsay, 2014) probabilistic methods to provide accurate forecasts. 理想的には、ディープラーニングモデルは、正確な予測を提供するために、この帰納バイアスを多変量(Tsay, 2014)確率的手法の形で組み込む必要がある。 0.61
1Zalando Research, M¨uhlenstraße 25, 10243 Berlin, Germany. 1Zalando Research, M suhlenstraße 25, 10243 Berlin, ドイツ。 0.91
Correspondence to: Kashif Rasul <kashif.rasul@zalando .de>. 対応: Kashif Rasul <kashif.rasul@zalando .de>。 0.82
To model the full predictive distribution, methods typically resort to tractable distribution classes or some type of lowrank approximations to them, regardless of the true data distribution. 完全な予測分布をモデル化するために、メソッドは通常、真のデータ分布に関係なく、トラクタブルな分布クラスやある種の低ランク近似を利用する。 0.79
To model the distribution in a general fashion, one needs probabilistic methods with tractable likelihoods. 分布を一般の方法でモデル化するには,確率的手法が不可欠である。 0.88
Till now several deep learning methods have been proposed for this purpose such as autoregressive (van den Oord et al., 2016c) or generative ones based on normalizing flows (Papamakarios et al., 2019) which can learn flexible models of high dimensional multivariate time series. 現在、自己回帰型(van den Oord et al., 2016c)や正規化フローに基づく生成型(Papamakarios et al., 2019)など、高次元多変量時系列の柔軟なモデルを学ぶことができるようなディープラーニング手法が提案されている。 0.79
Even if the full likelihood might not be tractable, often one can optimize a tractable lower bound to the likelihood. 仮に完全な可能性が引けないとしても、しばしばその可能性に対する引けやすい下界を最適化することができる。 0.55
But still, these methods require a certain structure in the functional approximators, for example on the determinant of the Jacobian (Dinh et al., 2017) for normalizing flows. しかし、これらの方法は、例えば、流れを正規化するジャコビアン(dinh et al., 2017)の行列式において、関数近似子に一定の構造を必要とする。 0.69
Energy-based models (EBM) (Hinton, 2002; LeCun et al., 2006) on the other hand have a much less restrictive functional form. 一方、エネルギーベースのモデル(EBM)(Hinton, 2002; LeCun et al., 2006)は、はるかに制限の少ない機能形式を有する。 0.85
They approximate the unnormalized log-probability so that density estimation reduces to a non-linear regression problem. 密度推定が非線形回帰問題に減少するように、非正規化ログ確率を近似する。 0.68
EBMs have shown to perform well in learning high dimensional data distributions at the cost of being difficult to train (Song & Kingma, 2021). EBMは、訓練が難しいコストで高次元データ分布の学習にうまく機能することが示されています(Song & Kingma、2021)。 0.73
In this work, we propose autoregressive EBMs to solve the multivariate probabilistic time series forecasting problem via a model we call TimeGrad and show that not only are we able to train such a model with all the inductive biases of probabilistic time series forecasting, but this model performs exceptionally well when compared to other modern methods. 本研究では,TimeGradと呼ばれるモデルを用いて,多変量確率時系列予測問題の解法として自己回帰型EMMを提案する。
訳抜け防止モード: 本研究では,TimeGrad と呼ばれるモデルを用いた多変量確率的時系列予測問題の解法として自己回帰型 EBM を提案する。 証明できるだけでなく このようなモデルを確率的時系列予測の 帰納バイアスで訓練するのです しかし、このモデルは、他の現代的な方法と比較して、非常によく機能します。
0.73
This autoregressive-EBM combination retains the power of autoregressive models, such as good performance in extrapolation into the future, with the flexibility of EBMs as a general purpose high-dimensional distribution model, while remaining computationally tractable. この自己回帰-EBMの組み合わせは、将来への外挿性能などの自己回帰モデルの性能を保ちつつ、汎用的な高次元分布モデルとしてのESMの柔軟性を保ちながら、計算的に抽出可能なままである。 0.72
The paper is organized as follows. 論文は以下の通り整理される。 0.65
In Section 2 we first set up the notation and detail the EBM of (Ho et al., 2020) which forms the basis of our per time-step distribution model. 第2節ではまず,時間段階ごとの分布モデルの基礎となる (Ho et al., 2020) の EBM の表記と詳細を設定した。 0.76
Section 3 introduces the multivariate probabilistic time series problem and we detail the TimeGrad model. 第3節では,多変量確率時系列問題を導入し,TimeGradモデルを詳述する。 0.73
The experiments with extensive results are detailed in Section 4. 実験の結果は第4節で詳述されている。 0.73
We cover related work in Section 5 and conclude with some discussion in Section 6. 第5節で関連する作業を取り上げ、第6節でいくつかの議論を締めくくります。 0.53
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting 多変量確率時系列予測のための自己回帰消音拡散モデル 0.71
2. Background Let x0 ∼ qX (x0) denote the multivariate training vector from some input space X = RD and let pθ(x0) denote the probability density function (PDF) which aims to approximate qX (x0) and allows for easy sampling. 2. 背景 任意の入力空間 X = RD からの多変量トレーニングベクトルを x0 > qX (x0) とし、pθ(x0) を qX (x0) を近似し、容易にサンプリングできる確率密度関数(PDF) とする。 0.85
Diffusion models (Sohl-Dickstein et al., 2015) are latent variable models of 拡散モデル (Sohl-Dickstein et al., 2015) は潜在変数モデルである。 0.85
the form pθ(x0) :=(cid:82) pθ(x0:N ) dx1:N , where x1, . pθ(x0) :=(cid:82) pθ(x0:N ) dx1:N である。 0.83
. . , xN are latents of dimension RD. . . 、xN。 次元RDの潜在値です 0.76
Unlike in variational autoencoders (Kingma & Welling, 2019) the approximate posterior q(x1:N|x0), 変分オートエンコーダ(kingma & welling, 2019)とは異なり、近似後方q(x1:n|x0) 0.72
q(x1:N|x0) = ΠN q(x1:N|x0) = qN 0.77
n=1q(xn|xn−1) n=1q(xn|xn−1) 0.49
is not trainable but fixed to a Markov chain (called the forward process) that gradually adds Gaussian noise to the signal: 訓練はできないが、信号にガウスノイズを徐々に加えるマルコフ連鎖(前方過程と呼ばれる)に固定される。 0.66
q(xn|xn−1) := N (xn;(cid:112)1 − βnxn−1, βnI). q(xn|xn−1) := N (xn;(cid:112)1 − βnxn−1, βnI)。 0.80
The forward process uses an increasing variance schedule β1, . 前方プロセスは増加する分散のスケジュール β1 を使用します。 0.74
. . , βN with βn ∈ (0, 1). . . βn ∈ (0, 1) のβN。 0.84
The joint distribution pθ(x0:N ) is called the reverse process, and is defined as a Markov chain with learned Gaussian transitions starting with p(xN ) = N (xN ; 0, I), where each subsequent transition of 合同分布 pθ(x0:N ) は逆過程と呼ばれ、p(xN ) = N (xN ; 0, I) から始まる学習されたガウス遷移を持つマルコフ連鎖として定義される。
訳抜け防止モード: 合同分布 pθ(x0 : N ) は逆過程と呼ばれる。 p(xN ) = N(xN ; 0) から始まる学習ガウス遷移を持つマルコフ連鎖として定義される。 I) 後続の移行のそれぞれを行う。
0.82
pθ(x0:N ) := p(xN )Π1 pθ(x0:N ) := p(xN ) =1 0.94
n=N pθ(xn−1|xn) n=N pθ(xn−1|xn) 0.54
is given by a parametrization of our choosing denoted by pθ(xn−1|xn) := N (xn−1; µθ(xn, n), Σθ(xn, n)2I), (1) with shared parameters θ. pθ(xn−1|xn) := N (xn−1; μθ(xn, n), Σθ(xn, n)2I) (1) で表される選択のパラメトリゼーションによって与えられる。 0.79
Both µθ : RD × N → RD and Σθ : RD × N → R take two inputs, namely the variable xn ∈ RD as well as the noise index n ∈ N. The goal of pθ(xn−1|xn) is to eliminate the Gaussian noise added in the diffusion process. 2つの入力、すなわち、変数 xn ∈ RD とノイズ指数 n ∈ N を取ります。p*(xn−1|xn) の目標は、拡散過程に追加されるガウス雑音を排除することです。
訳抜け防止モード: μθ : RD × N → RD と Σθ : RD × N → R はどちらも2つの入力を取る。 つまり、変数 xn ∈ RD とノイズ指数 n ∈ N は、pθ(xn−1|xn ) のゴールである。 拡散過程に付加されるガウスノイズを除去する。
0.88
The parameters θ are learned to fit the data distribution qX (x0) by minimizing the negative loglikelihood via a variational bound using Jensen’s inequality: パラメータθは、jensenの不等式を用いて変分境界を介して負の対数同化を最小化することにより、データ分布qx(x0)に適合するように学習される。
訳抜け防止モード: パラメータθはデータ分布qX(x0)に適合するように学習される Jensenの不等式を用いた変動境界による負の対数同値の最小化
0.79
Eq(x0)[− log pθ(x0)] ≤ Eq(x0:N )[− log pθ(x0:N ) + log q(x1:N|x0)]. Eq(x0)[− log p,(x0)] ≤ Eq(x0:N )[− log p,(x0:N ) + log q(x1:N|x0)] である。 0.92
min θ min θ This upper bound can be shown to be equal to 分 θ 分 θ この上限は等しいことを示すことができる 0.70
(cid:34) − log p(xN ) − N(cid:88) (cid:34) − log p(xN ) − N(cid:88) 0.89
log pθ(xn−1|xn) q(xn|xn−1) ログ pθ(xn−1|xn) q(xn|xn−1) 0.65
n=1 (cid:35) n=1 (cid:35) 0.69
. Eq(x0:N ) . Eq(x0:N ) 0.91
min θ (2) As shown by (Ho et al., 2020), a property of the forward process is that it admits sampling xn at any arbitrary noise level n in closed form, since if αn := 1 − βn and ¯αn := i=1αi its cumulative product, we have: Πn 分 θ 2) (Ho et al., 2020) で示されるように、前処理の特性は、αn := 1 − βn と αn := i=1αi がその累積積であることから、任意の任意の雑音レベル n において xn を閉形式でサンプリングすることを認めることである。 0.73
q(xn|x0) = N (xn; q(xn|x0) = N (xn; 0.90
¯αnx0, (1 − ¯αn)I). ○αnx0,(1 − ○αn)I)。 0.68
(3) √ N(cid:88) (3) √ N(cid:88) 0.85
By using the fact that these processes are Markov chains, the objective in (2) can be written as the KL-divergence between Gaussian distributions: これらの過程がマルコフ連鎖であるという事実を用いて、(2) の目的はガウス分布の間の KL-発散として記述できる。 0.70
− log pθ(x0|x1) + DKL(q(xN|x0)||p(xN )) − log pθ(x0|x1) + DKL(q(xN|x0)||p(xN )) 0.77
+ DKL(q(xn−1|xn, x0)||pθ(xn−1|xn)), + DKL(q(xn−1|xn, x0)||p(xn−1|xn)) 0.77
(4) n=2 and (Ho et al., 2020) shows that by the property (3) the forward process posterior in these KL divergences when conditioned on x0, i.e. (4) n=2 そして (Ho et al., 2020) は、性質(3) によって、x0 で条件付きになったとき、これらの KL の分岐の前方過程が後方にあることを示した。 0.68
q(xn−1|xn, x0) are tractable given by q(xn−1|xn, x0) は導出可能である 0.70
q(xn−1|xn, x0) = N (xn−1; ˜µn(xn, x0), ˜βnI), q(xn−1|xn, x0) = N (xn−1; sμn(xn, x0), sβnI) 0.80
where ˜µn(xn, x0) := どこに μn(xn,x0) := 0.77
√ ¯αn−1βn 1 − ¯αn ○αn−1βn 1 − ○αn 0.46
√ x0 + αn(1 − ¯αn−1) √ x0 + αn(1 − sαn−1) 0.80
1 − ¯αn xn and 1~αn xn そして 0.76
˜βn := 1 − ¯αn−1 1 − ¯αn βn := 1 − sαn−1 1 − sαn 0.67
βn. (5) Further, (Ho et al., 2020) shows that the KL-divergence between Gaussians can be written as: βn。 (5) さらに (Ho et al., 2020) は、ガウス間のKL分割を次のように記述できることを示している。
訳抜け防止モード: βn。 (5) さらに (Ho et al ., 2020 ) は、 KL - ガウスの発散は次のように書くことができる。
0.81
DKL(q(xn−1|xn, x0)||pθ(xn−1|xn)) = DKL(q(xn−1|xn, x0)||p\(xn−1|xn)) = 0.67
Eq (cid:107)˜µn(xn, x0) − µθ(xn, n)(cid:107)2 eq (cid:107) sμn(xn, x0) − μθ(xn, n)(cid:107)2 0.81
+ C, (6) (cid:21) +C (6) (cid:21) 0.73
(cid:20) 1 2Σ2 θ (cid:20)1 2Σ2 θ 0.75
(cid:19) (cid:18) (cid:19) (cid:18) 0.78
where C is a constant which does not depend on θ. ここで C は θ に依存しない定数である。 0.79
So instead of a parametrization (1) of pθ that predicts ˜µ, one can √ instead use the property (3) to write xn(x0, ) = ¯αnx0 + 1 − ¯αn for  ∼ N (0, I) and the formula for ˜µ to obtain √ √ that µθ must predict (xn − βn/ αn, but since xn is available to the network, we can choose: したがって、pθ のパラメトリゼーション (1) の代わりに、その性質 (3) を用いて xn(x0, s) = sαnx0 + 1 − sαn と書くことができ、μθ が (xn − βn)/ αn を予測しなければならない sμ の式を得ることができるが、xn はネットワークで利用可能であるので、次の式を選ぶことができる。 0.83
1 − ¯αn)/ √ 1 − sαn)/ √ 0.85
β2 n 2Σ2 (cid:20) β2n 2Σ2 (cid:20) 0.74
Ex0, 1√ αn xn − Ex0。 1~αn xn − 0.68
βn√ 1 − ¯αn βn = 1 − sαn 0.57
θ(xn, n) シュθ(xn, n) 0.79
, µθ(xn, n) = , μθ(xn, n) = 0.90
θαn(1 − ¯αn) θαn(1 − sαn) 0.74
(7) where θ is a network which predicts  ∼ N (0, I) from xn, so that the objective simplifies to: √ (cid:107) − θ( (7) は xn から > N (0, I) を予想するネットワークであり、目的を > (cid:107) > − >θ() に単純化する。 0.72
1 − ¯αn, n)(cid:107)2 (8) resembling the loss in Noise Conditional Score Networks (Song & Ermon, 2019; 2020) using score matching. スコアマッチングを用いたNoise Conditional Score Networks (Song & Ermon, 2019; 2020)の損失に似ている。
訳抜け防止モード: ノイズ条件付きスコアネットワーク(Song & Ermon)の損失に類似した1 − (αn, n)(cid:107)2 (8)。 2019年、2020年。
0.80
Once to sample from the reverse process xn−1 ∼ trained, pθ(xn−1|xn) we can compute βn√ 1 − ¯αn 逆過程 xn−1 からサンプルを得ると、pθ(xn−1|xn) を計算できる。 0.80
θ(xn, n)) + Σθz シュθ(xn, n)) + Σθz 0.84
xn−1 = 1√ αn xn−1 = 1~αn 0.58
(xn − ¯αnx0 + (xn −) αnx0+ 0.69
√ where z ∼ N (0, I) for n = N, . √ ここでzは n = N に対して N (0, I) である。 0.82
. . , 2 and z = 0 when n = 1. . . , 2 および z = 0 は n = 1 である。 0.87
The full sampling procedure for x0, starting from white noise sample xN , resembles Langevin dynamics where we sample from the most noise-perturbed distribution and reduce the magnitude of the noise scale until we reach the smallest one. ホワイトノイズサンプルxNから始まるx0の完全なサンプリング手順は、最もノイズが摂動する分布からサンプリングしたランゲイン力学に似ており、最小のノイズに到達するまでノイズスケールの規模を小さくする。 0.82
(cid:21) (cid:21) 0.78
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting 多変量確率時系列予測のための自己回帰消音拡散モデル 0.71
3. TimeGrad Model i,t ∈ We denote the entities of a multivariate time series by x0 R for i ∈ {1, . 3. 時間次モデル i,t ∈ は、i ∈ {1, に対する x0 r による多変量時系列の実体を表す。 0.82
. . , D} where t is the time index. . . , d} ここで t は時間指数である。 0.82
Thus the t ∈ RD. したがって t ∈ RD である。 0.83
We are multivariate vector at time t is given by x0 tasked with predicting the multivariate distribution some given prediction time steps into the future and so in what follows consider time series with t ∈ [1, T ], sampled from the complete time series history of the training data, where we will split this contiguous sequence into a context window of size [1, t0) and prediction interval [t0, T ], reminiscent of seq-to-seq models (Sutskever et al., 2014) in language modeling. 時間 t における多変量ベクトルは、与えられた予測時間ステップを未来に予測する x0 によって与えられるので、トレーニングデータの完全な時系列履歴からサンプリングされた t ∈ [1, T ] の時系列を考えると、言語モデリングにおける seq-to-seq モデル (Sutskever et al., 2014) を想起させる、この連続シーケンスを、サイズ [1, t0) と予測間隔 [t0, T ] のコンテキストウィンドウに分割する。 0.86
In the univariate probabilistic DeepAR model (Salinas et al., 2019b), the log-likelihood of each entity x0 i,t at a time step t ∈ [t0, T ] is maximized over an individual time series’ prediction window. 単変量確率的DeepARモデル(Salinas et al., 2019b)では、各エンティティ x0 i,t の時間ステップ t ∈ [t0, T ] におけるログ類似度を個々の時系列の予測ウィンドウ上で最大化する。 0.82
This is done with respect to the parameters of some chosen distributional model via the state of an RNN derived from its previous time step x0 i,t−1 and its corresponding covariates ci,t−1. これは、以前の時間ステップ x0 i,t−1 と対応する共変 ci,t−1 から派生した RNN の状態を介して選択された分布モデルのパラメータに関して行われる。 0.74
The emission distribution model, which is typically Gaussian for real-valued data or negative binomial for count data, is selected to best match the statistics of the time series and the network incorporates activation functions that satisfy the constraints of the distribution’s parameters, e.g. 典型的には実数値データに対するガウス的、またはカウントデータの負の二項式である放射分布モデルは、時系列の統計に最もよく一致するように選択され、ネットワークは、分布のパラメータの制約を満たす活性化関数を組み込む。 0.85
a softplus() for the scale parameter of the Gaussian. ガウスのスケールパラメータの Softplus() です。 0.54
A straightforward time series model for multivariate realvalued data could use a factorizing output distribution instead. 多変量実数値データに対する直列モデルでは、代わりに分解出力分布を用いることができる。 0.69
Shared parameters can then learn patterns across the individual time series entities through the temporal component — but the model falls short of capturing dependencies in the emissions of the model. 共有されたパラメータは、時間的要素を通して個々の時系列エンティティにまたがるパターンを学習することができる。
訳抜け防止モード: 共有されたパラメータは、時間成分を通して個々の時系列エンティティのパターンを学習できる しかし、モデルはモデルの排出物への依存を捉えていない。
0.77
For this, a full joint distribution at each time step has to be modeled, for example by using a multivariate Gaussian. このため、例えば多変量ガウス系を用いて、各時間ステップにおける完全なジョイント分布をモデル化する必要がある。 0.76
However, modeling the full covariance matrix not only increases the number of parameters of the neural network by O(D2), making learning difficult but computing the loss is O(D3) making it impractical. しかし、完全な共分散行列のモデリングは、ニューラルネットワークのパラメータ数をO(D2)で増加させるだけでなく、学習を難しくするが、損失を計算することはO(D3)を非現実的にする。 0.72
Furthermore, statistical dependencies for such distributions would be limited to second-order effects. さらに、そのような分布の統計的依存性は二階効果に限定される。 0.63
Approximating Gaussians with low-rank covariance matrices do work however and these models are referred to as Vec-LSTM in (Salinas et al., 2019a). しかし、低ランクな共分散行列を持つガウスの近似は機能し、これらのモデルはVec-LSTM in (Salinas et al., 2019a) と呼ばれる。
訳抜け防止モード: ガウス系を低位共分散行列で近似するが、 これらのモデルはvec - lstm in (salinas et al ., 2019a)と呼ばれる。
0.63
Instead, in this work we propose TimeGrad which aims to learn a model of the conditional distribution of the future time steps of a multivariate time series given its past and covariates as: t0:T|x0 代わりに、この研究では、過去と共変点を与えられた多変量時系列の将来の時間ステップの条件付き分布のモデルを学ぶことを目的としたTimeGradを提案する。 0.81
1:t0−1, c1:T ) = ΠT 1:t0−1, c1:T ) = 0.87
1:t−1, c1:T ), 1:t−1, c1:T) 0.92
qX (x0 t|x0 qX (x0) t|x0 0.61
(9) were we assume that the covariates are known for all the time points and each factor is learned via a conditional denoising diffusion model introduced above. (9) 共変体はすべての時間点で知られていると仮定し、各因子は上記の条件付き消音拡散モデルによって学習される。 0.76
To model the temporal dynamics we employ the autoregressive recurrent 自己回帰リカレントを用いた時間的ダイナミクスのモデル化 0.81
qX (x0 t=t0 qX (x0) t=t0 0.61
Algorithm 1 Training for each time series step t ∈ [t0, T ] アルゴリズム 1 各時間系列ステップ t ∈ [t0, T] のトレーニング。 0.85
Input: data x0 repeat 入力: data x0 repeat 0.92
t ∼ qX (x0 t ) and state ht−1 t=qX(x0。 t ) と状態 ht−1 0.77
Initialize n ∼ Uniform(1, . 初期化 n , Uniform(1, )。 0.77
. . , N ) and  ∼ N (0, I) Take gradient step on . . ( , n ) と n (0, i) は勾配ステップを取る。 0.80
√ ∇θ(cid:107) − θ( θ(cid:107) - θ(cid:107) である。 0.52
¯αnx0 t + 1 − ¯αn, ht−1, n)(cid:107)2 ○αnx0 t + 1 − αn, ht−1, n)(cid:107)2 0.68
√ until converged neural network (RNN) architecture from (Graves, 2013; Sutskever et al., 2014) which utilizes the LSTM (Hochreiter & Schmidhuber, 1997) or GRU (Chung et al., 2014) to encode the time series sequence up to time point t, given the covariates ct, via the updated hidden state ht: √ 収束するまで LSTM (Hochreiter & Schmidhuber, 1997) または GRU (Chung et al., 2014) を使用する (Graves, 2013; Sutskever et al., 2014) のニューラルネットワーク (RNN) アーキテクチャは、更新された非表示状態 ht を介して、共変点 ct が与えられた時点 t までの時系列シーケンスをエンコードします。 0.80
ht = RNNθ(concat(x0 ht = RNN(concat(x0) 0.86
t , ct), ht−1), t , ct), ht−1), 0.85
(10) where RNNθ is a multi-layer LSTM or GRU parameterized by shared weights θ and h0 = 0. (10) RNNθ は共有重み θ と h0 = 0 でパラメータ化される多層LSTM あるいは GRU である。 0.84
Thus we can approximate (9) by the model したがって、モデルによって近似(9)できます。 0.71
ΠT t=t0 pθ(x0 πt t=t0 pθ(x0) 0.54
t|ht−1), (11) t|ht−1)。 (11) 0.68
where now θ comprises the weights of the RNN as well as denoising diffusion model. 現在では RNN の重みと拡散モデルのデノイジングから構成されている。 0.67
This model is autoregressive as it consumes the observations at the time step t − 1 as input to learn the distribution for the next time step as shown in Figure 1. このモデルは、図1に示すように、次のステップの分布を学ぶために入力として時間ステップt − 1で観測を消費するので、自己回帰的である。 0.71
3.1. Training Training is performed by randomly sampling context and adjoining prediction sized windows from the training time series data and optimizing the parameters θ that minimize the negative log likelihood of the model (11): 3.1. 訓練 トレーニング時系列データからランダムにコンテキストをサンプリングし、予測サイズのウィンドウを随伴させ、モデルの負のログ可能性を最小限に抑えるパラメータθを最適化する(11)。 0.77
T(cid:88) t=t0 T(cid:88) t=t0 0.66
− log pθ(x0 − log pθ(x0) 0.76
t|ht−1), starting with the hidden state ht0−1 obtained by running the RNN on the chosen context window. t|ht−1)。 選択されたコンテキストウィンドウでRNNを実行して得られる非表示状態ht0−1から始まる。 0.61
The conditional variant of the objective (4) for time step t and noise index n is then given by the following simplification of (8) (Ho et al., 2020): 時間ステップ t と雑音指数 n に対する目的 (4) の条件付き変種は、次の (8) の単純化によって与えられる(ho et al., 2020)。 0.77
(cid:2)(cid:107) − θ( (cid:2)(cid:107)>−θ() 0.67
√ E x0 t ,,n √ E x0 t , , ,n 0.84
¯αnx0 t + √ ○αnx0 t + √ 0.70
1 − ¯αn, ht−1, n)(cid:107)2(cid:3) , (cid:113) 1 − αn , ht−1, n (cid:107)2 (cid:3) , (cid:113) 0.77
˜βn (5), when we choose the variance in (1) to be Σθ = where now the θ network is also conditioned on the hidden state. このとき、(1) の分散を σθ = と選び、ここで σθ のネットワークは隠れた状態でも条件付けされる。
訳抜け防止モード: 1 ) の分散を σθ = ここで選ぶと、βn (5 ) である。 現在では、θ ネットワークは隠れた状態でも条件付けされている。
0.70
Algorithm 1 is the training procedure for each time step in the prediction window using this objective. アルゴリズム1は、この目的を用いて予測ウィンドウ内の各時間ステップのトレーニング手順である。 0.82
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting 多変量確率時系列予測のための自己回帰消音拡散モデル 0.71
match the original scale. 元のスケールと一致します 0.67
This rescaling technique simplifies the problem for the model, which is reflected in significantly improved empirical performance as noted in (Salinas et al., 2019b). この再スケーリング手法は,Salinas et al., 2019bで述べたように,実験性能の大幅な向上に反映されるモデルの問題を単純化する。 0.73
The other method of a short-cut connection from the input to the output of the function approximator, as done in the multivariate point forecasting method LSTNet (Lai et al., 2018), is not applicable here. 関数近似器の出力に対する入力からのショートカット接続の他の方法は、多変量点予測法 LSTNet (Lai et al., 2018) で行われているように、ここでは適用できない。 0.83
3.4. Covariates We employ embeddings for categorical features (Charrington, 2018), that allows for relationships within a category, or its context, to be captured when training time series models. 3.4. 共変体 カテゴリ内の関係や,あるいは時系列モデルをトレーニングする際のコンテキストをキャプチャすることのできる,カテゴリ的特徴の埋め込み(Charrington, 2018)を採用しています。 0.67
Combining these embeddings as features for forecasting yields powerful models like the first place winner of the Kaggle Taxi Trajectory Prediction1 challenge (De Br´ebisson et al., 2015). これらの埋め込みを予測機能として組み合わせることで、Kaggle Taxi Trajectory Prediction1 Challenge(De Br ́ebisson et al., 2015)の優勝者のような強力なモデルが得られる。 0.68
The covariates ct we use are composed of time-dependent (e.g. 私たちが使用する共変量ctは時間依存(例えば)から構成される。 0.56
day of week, hour of day) and timeindependent embeddings, if applicable, as well as lag features depending on the time frequency of the data set we are training on. 曜日、曜日)および時間に依存しない埋め込みは、該当する場合は、トレーニング中のデータセットの時間頻度に応じて遅延機能を備えています。 0.69
All covariates are thus known for the periods we wish to forecast. したがって、全ての共変量は我々が予測したい周期で知られている。 0.49
4. Experiments We benchmark TimeGrad on six real-world data sets and evaluate against several competitive baselines. 4. 実験 TimeGradを6つの実世界のデータセットでベンチマークし、いくつかの競合するベースラインに対して評価する。 0.67
The source code of the model will be made available after the review process. モデルのソースコードは、レビュープロセス後に利用可能になります。 0.75
4.1. Evaluation Metric and Data Set 4.1. 評価指標とデータセット 0.73
For evaluation, we compute the Continuous Ranked Probability Score (CRPS) (Matheson & Winkler, 1976) on each time series dimension, as well as on the sum of all time series dimensions (the latter denoted by CRPSsum). 評価のために,連続ランク付確率スコア (CRPS) (Matheson & Winkler, 1976) を各時系列次元および全時系列次元の和で計算する(後者はCRPSsumで表される)。 0.72
CRPS measures the compatibility of a cumulative distribution function F with an observation x as CRPSは、観測xを有する累積分布関数Fの互換性を測定する。 0.81
(cid:90) R (cid:90) R 0.82
CRPS(F, x) = CRPS(F, x) = 0.85
(F (z) − I{x ≤ z})2 dz, (F (z) − I{x ≤ z})2 dz, 0.85
where I{x ≤ z} is the indicator function which is one if x ≤ z and zero otherwise. ここで i{x ≤ z} は、x ≤ z でなければ 0 であるような指標函数である。 0.86
CRPS is a proper scoring function, hence CRPS attains its minimum when the predictive distribution F and the data distribution are equal. CRPSは適切な得点関数であるため、予測分布Fとデータ分布が等しくなるとCRPSはその最小値となる。 0.88
EmployI{Xs ≤ ing the empirical CDF of F , i.e. EmployI{Xs ≤ ing the empirical CDF of F 、すなわち。 0.77
ˆF (z) = 1 z} with S samples Xs ∼ F as a natural approximaS tion of the predictive CDF, CRPS can be directly computed from simulated samples of the conditional distribution (9) at each time point (Jordan et al., 2019). 予測CDFの自然な近似として S のサンプル Xs(z) = 1 z {\displaystyle Xs(z)=1z} を持つ CRPS は、各時点の条件分布 (9) のシミュレーションされたサンプルから直接計算することができる(Jordan et al., 2019)。 0.82
Finally, CRPSsum is obtained by first summing across the D timeseries — both for the ground-truth data, and sampled data 最後に、CRPSsumは、まずD時系列(地上データとサンプルデータの両方)をまとめて得られる。 0.70
(cid:80)S s=1 (cid:80) s=1 0.77
1https://www.kaggle. com/c/ 1https://www.kaggle. com/c/ 0.34
pkdd-15-predict-taxi -service-trajectory- i pkdd-15-predict-taxi -service-trajectory- i 0.17
Figure 1. TimeGrad schematic: an RNN conditioned diffusion probabilistic model at some time t depicting the forward and conditional reverse processes. 図1。 timegrad schematic: rnn conditioned diffusion probabilistic model at some time t describeding the forward and conditional reverse processes。 0.72
Algorithm 2 Sampling x0 アルゴリズム 2 サンプリング x0 0.78
t via annealed Langevin dynamics t via annealed Langevin dynamics 0.85
t ∼ N (0, I) and state ht−1 t の N (0, I) と状態 ht−1 0.94
Input: noise xN for n = N to 1 do if n > 1 then z ∼ N (0, I) 入力: n = N to 1 のノイズ xN が n > 1 ならば、z は N (0, I) となる。 0.90
else z = 0 end if xn−1 t = 1√ end for Return: x0 t その他 z = 0 end if xn−1 t = 1> end for return: x0 t 0.77
(xn t − βn√ 1− ¯αn (xn) t − βn = 1− >αn 0.71
θ(xn t , ht−1, n)) + Σθz シュθ(xn) t , ht−1, n)) + Σθz 0.74
αn 3.2. Inference αn 3.2. 推論 0.70
After training, we wish to predict for each time series in our data set some prediction steps into the future and compare with the corresponding test set time series. トレーニング後、データ内の各時系列を予測して、将来の予測ステップを設定し、対応するテストセット時系列と比較したいと考えています。 0.75
As in training, we run the RNN over the last context sized window of the training set to obtain the hidden state hT via (10). トレーニングと同様に、トレーニングセットの最後のコンテキストサイズウィンドウ上でRNNを実行し、(10)を介して隠れた状態hTを取得します。 0.63
Then we follow the sampling procedure in Algorithm 2 to obtain a sample x0 T +1 of the next time step, which we can pass autoregressively to the RNN together with the covariates cT +1 to obtain the next hidden state hT +1 and repeat until the desired forecast horizon has been reached. 次にアルゴリズム2のサンプリング手順に従い、次のステップのサンプルx0 T +1を得る。これは共変量cT +1と共に自己回帰的にRNNに渡して次の隠れ状態hT +1を取得し、所望の予測地平線に到達するまで繰り返すことができる。 0.77
This process of sampling trajectories from the initial state hT can be repeated many times (e.g. 初期状態hTから軌道をサンプリングするこのプロセスは、何度も繰り返すことができる(例)。 0.79
S = 100) to obtain empirical quantiles of the uncertainty of our predictions. S = 100) 予測の不確実性の実証的量子化を得る。 0.74
3.3. Scaling 3.3. スケーリング 0.68
In real-world data, the magnitudes of different time series entities can vary drastically. 実世界のデータでは、異なる時系列エンティティの規模は劇的に変化する。 0.72
To normalize scales, we divide each time series entity by their context window mean (or 1 if its zero) before feeding it into the model. スケールを正規化するために、各時系列エンティティを、モデルに与える前に、コンテキストウィンドウ平均(あるいは0であれば1)で分割する。 0.74
At inference, the samples are then multiplied by the same mean values to 推論では、サンプルは同じ平均値で乗算されます。 0.61
x0txNtx0t−1ct−1ht−2ht−1……RNNxn−1txntp(xn−1txnt,ht−1)……q(xntxn−1t) x0txntx0t−1ct−1ht−2ht−1......rnnxn−1txntp>(xn−1t,ht−1)...q(xnt,xn−1t) 0.26
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting 多変量確率時系列予測のための自己回帰消音拡散モデル 0.71
{1, . . . , N} using the Transformer’s (Vaswani et al., 2017) Fourier positional embeddings, with Nmax = 500, into R32 vectors. {1, . . . , N} は Transformer's (Vaswani et al., 2017) を用いて、Nmax = 500 のフーリエ位置埋め込みを R32 ベクトルに組み込む。 0.85
The network θ consists of conditional 1-dim dilated ConvNets with residual connections adapted from the WaveNet (van den Oord et al., 2016a) and DiffWave (Kong et al., 2021) models. このネットワークは、WaveNet (van den Oord et al., 2016a) と DiffWave (Kong et al., 2021) モデルから適応した残存接続を持つ条件付き1次元拡張 ConvNets から構成されている。 0.78
Figure 2 shows the schematics of a single residual block i = {0, . 図2は1つの残留ブロック i = {0, のスキーマを示している。 0.76
. . , 7} together with the final output from the sum of all the 8 skip-connections. . . , 7} は 8 つのスキップ接続の総和からの最終出力と一緒になる。 0.84
All, but the last, convolutional network layers have an output channel size of 8 and we use a bidirectional dilated convolution in each block i by setting its dilation to 2i%2. すべてだが、最後の畳み込みネットワーク層は出力チャネルサイズが8で、その拡張度を2i%2にすることで、各ブロックiに双方向拡張畳み込みを使用する。 0.78
We use a validation set from the training data of the same size as the test set to tune the number of epochs for early stopping. 私たちは、テストセットと同じ大きさのトレーニングデータから検証セットを使用して、早期停止のためのエポック数をチューニングします。 0.64
All experiments run on a single Nvidia V100 GPU with 16GB of memory. すべての実験は16gbのメモリを持つnvidia v100 gpu上で実行される。 0.75
Table 1. Dimension, domain, frequency, total training time steps and prediction length properties of the training data sets used in the experiments. 表1。 実験で使用したトレーニングデータセットの次元,領域,頻度,総トレーニング時間ステップおよび予測長さ特性。 0.75
DATA SET EX C H A N G E SO L A R EL E C. TR A F F I C TA X I WI K I. データセット EX C H A N G E SO L A R EL E C. TR A F F I C TA X I WI K I。 0.67
DIM. D 8 137 370 963 1, 214 2, 000 DIM。 D 8 137 370 963 1, 214 2, 000 0.84
DOM. FREQ. DOM。 FREQ。 0.80
R+ R+ R+ (0, 1) R+ R+ R+ (0, 1) 0.88
N N DAY HOUR HOUR HOUR 30-MIN N DAY HOUR HOUR HOUR 30-MIN 0.66
DAY TIME STEPS 日 TIME STEPS 0.77
6, 071 7, 009 5, 833 4, 001 1, 488 792 6, 071 7, 009 5, 833 4, 001 1, 488 792 0.85
PRED. STEPS プリド。 STEPS 0.65
30 24 24 24 24 30 30 24 24 24 24 30 0.85
(cid:104) (cid:17)(cid:105) (cid:104) (cid:17)(cid:105) 0.77
i x0 i,t CRPS i x0 i,t CRPS 0.92
(cid:16) ˆFsum(t),(cid:80) (cid:16)\fsum(t),(ci d:80) 0.93
(yielding ˆFsum(t) for each time point). (各時点について >Fsum(t) を得る。) 0.75
The results are then averaged over the prediction horizon, i.e. 結果は、予測の地平線、すなわち平均されます。 0.76
formally CRPSsum = Et . 正式には CRPSsum = Et である。 0.59
As noted in (de B´ezenac et al., 2020) CRPSsum is also a proper scoring function and we use it, instead of likelihood based metrics, since not all methods we compare against yield analytical forecast distributions or likelihoods are not meaningfully defined. CRPSsumは、(de B ́ezenac et al., 2020) に述べられているように、適切なスコアリング関数であり、確率ベースの指標ではなく、それを用いる。
訳抜け防止モード: d'ezenac et al ., 2020 ) crpssum また、適度なスコアリング機能であり、確率ベースのメトリクスの代わりにそれを使用します。 すべての方法が収率分析予測分布や可能性と比較されるわけではないので、意味のある定義はできない。
0.69
For our experiments we use Exchange (Lai et al., 2018), Solar (Lai et al., 2018), Electricity2, Traffic3, Taxi4 and Wikipedia5 open data sets, preprocessed exactly as in (Salinas et al., 2019a), with their properties listed in Table 1. 私たちの実験では、Exchange(Lai et al., 2018)、Solar(Lai et al., 2018)、Electricity2、Traffic3、Taxi4、Wikipedia5のオープンデータセットを使用しており、そのプロパティはテーブル1にリストされている(Salinas et al., 2019a)。 0.79
As can be noted in the table, we do not need to normalize scales for Traffic. 表に示すように、トラフィックのスケールを正規化する必要はありません。 0.61
4.2. Model Architecture 4.2. モデルアーキテクチャ 0.72
We train TimeGrad via SGD using Adam (Kingma & Ba, 2015) with learning rate of 1 × 10−3 on the training split of each data set with N = 100 diffusion steps using a linear variance schedule starting from β1 = 1 × 10−4 till βN = 0.1. sgdをadam (kingma & ba, 2015) を用いて学習し,各データセットの学習分割率を 1 × 10−3 とし,n = 100 の拡散ステップで,β1 = 1 × 10−4 から βn = 0.1 までの線形分散スケジュールを用いて学習した。 0.79
We construct batches of size 64 by taking random windows (with possible overlaps), with the context size set to the number of prediction steps, from the total time steps of each data set (see Table 1). 私たちは、各データセットの合計時間ステップから、予測ステップの数に設定されたコンテキストサイズで、ランダムウィンドウ(可能な重なり付き)を取ることによって64のサイズのバッチを構築します(表1参照)。 0.73
For testing we use a rolling windows prediction starting from the last context window history before the start of the prediction and compare it to the ground-truth in the test set by sampling S = 100 trajectories. テストでは、予測開始前の最後のコンテキストウィンドウ履歴から始まるローリングウィンドウ予測を使用し、S = 100の軌跡をサンプリングして、テストセットのグラウンドトラスと比較します。 0.75
The RNN consists of 3 layers of an LSTM with the hidden state ht ∈ R64 and we encode the noise index n ∈ 2https://archive.ics .uci.edu/ml/datasets / RNN は隠れた状態 ht ∈ R64 を持つ LSTM の 3 つの層で構成され、ノイズインデックス n ∈ 2https://archive.ics .uci.edu/ml/datasets / をエンコードする。 0.64
ElectricityLoadDiagr ams20112014 ElectricityLoadDiagr ams20112014 0.78
3https://archive.ics .uci.edu/ml/datasets / 3https://archive.ics .uci.edu/ml/datasets / 0.26
PEMS-SF 4https://www1.nyc.go v/site/tlc/about/ PEMS-SF 4https://www.nyc.gov /site/tlc/about/ 0.42
tlc-trip-record-data .page tlc-trip-record-data .page 0.24
5https://github.com/ mbohlkeschneider/ 5https://github.com/ mbohlkeschneider/ 0.39
gluon-ts/tree/mv_rel ease/datasets gluon-ts/tree/mv_rel ease/datasets 0.20
Figure 2. The network architecture of consisting of residual layers = 8 conditional residual blocks with the Gated Activation Unit σ(·) (cid:12) tanh(·) from (van den Oord et al., 2016b); whose skip-connection outputs are summed up to compute the final output. 図2。 残差層 = 8 条件付き残差ブロックからなるネットワークアーキテクチャは、ゲート付きアクティベーションユニット σ(·) (cid:12) tanh(·) from (van den oord et al., 2016b); 最終的な出力を計算するためにスキップ接続出力を合計する。 0.78
Conv1x1 and Conv1d are 1D convolutional layers with filter size of 1 and 3, respectively, padding so that the spatial size remains D, and all but the last convolutional layer has output channels residual channels = 8. conv1x1とconv1dはそれぞれフィルタサイズが1と3の1次元畳み込み層であり、空間サイズがdのままであり、最後の畳み込み層以外はすべて出力チャネル残差チャネル = 8 である。 0.83
FC are linear layers used to up/down-sample the input to size D. FCは入力をDにアップ/ダウンサンプルするために使用される線形層である。 0.61
θ 4.3. Results θ 4.3. 結果 0.74
Using the CRPSsum as an evaluation metric, we compare test time predictions of TimeGrad to a wide range of existing methods including classical multivariate methods: 評価指標としてcrpssumを用いて,timegradのテスト時間予測を,古典的多変量法を含む幅広い既存手法と比較する。 0.81
• VAR (L¨utkepohl, 2007) a mutlivariate linear vector • var (l sutkepohl, 2007) a mutlivariate linear vector 0.83
ht−1nConv1x1 ReLUNoise Emb.Conv1x1++Gated act. ht−1nConv1x1 ReLUNoise Emb.Conv1x1++Gated Act 0.34
unitxntDilated Conv1d+FC UpsamplerConv1x1 ReLUConv1x1 ReLUResidual block iInput to block i+1+Conv1d ReLUConv1dout=residual_channelsout =1out=residual_channelsout =residual_channelsout =residual_channelsout =residual_channels dilation=2**(i%2)out=residual_channelsres idual_layersFCout=residual_channelsout =D unitxntDilated Conv1d+FC UpsamplerConv1x1 ReLUConv1x1 ReLUResidual block iInput to block i+1+Conv1d ReLUConv1d\out=residual_ channelsout=1out=residual_ channelsout=residual_ channelsout=residual_ channelsout=residual_ channelsout=residual_ channelsout=2**(i%2)out=residual_ channelsresidual_lay ersFCout=D 0.29
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting 多変量確率時系列予測のための自己回帰消音拡散モデル 0.71
Table 2. Test set CRPSsum comparison (lower is better) of models on six real world data sets. 表2。 6つの実世界のデータセット上のモデルのテストセット crpssum 比較(より優れている)。 0.76
Mean and standard error metrics for TimeGrad obtained by re-training and evaluating 10 times. TimeGradの10回の再トレーニングと評価によって得られた平均および標準エラーメトリクス。 0.73
Method VES VAR 方法 VES VAR 0.81
VAR-Lasso GARCH KVAE VAR-Lasso GARCH KVAE 0.72
Vec-LSTM ind-scaling Vec-LSTM ind‐scaling 0.58
Vec-LSTM lowrank-Copula Vec-LSTM Lowrank‐Copula 0.56
GP scaling GP GP スケーリング GP 0.78
Copula Transformer MAF コプラ 変圧器 MAF 0.65
TimeGrad Exchange 0.005±0.000 0.005±0.000 0.012±0.0002 0.023±0.000 0.014±0.002 0.008±0.001 TimeGrad Exchange 0.005±0.000 0.005±0.000 0.012±0.0002 0.023±0.000 0.014±0.002 0.008±0.001 0.53
Solar 0.9±0.003 0.83±0.006 0.51±0.006 0.88±0.002 0.34±0.025 0.391±0.017 Solar 0.9±0.003 0.83±0.006 0.51±0.006 0.88±0.002 0.34±0.025 0.391±0.017 0.21
Electricity 0.88±0.0035 0.039±0.0005 0.025±0.0002 0.19±0.001 0.051±0.019 0.025±0.001 電気 0.88±0.0035 0.039±0.0005 0.025±0.0002 0.19±0.001 0.051±0.019 0.025±0.001 0.47
Traffic 0.35±0.0023 0.29±0.005 0.15±0.002 0.37±0.0016 0.1±0.005 0.087±0.041 Traffic 0.35±0.0023 0.29±0.005 0.15±0.002 0.37±0.0016 0.1±0.005 0.087±0.041 0.21
Taxi Wikipedia タクシー Wikipedia 0.76
- 0.506±0.005 - 0.506±0.005 0.57
- 3.1±0.004 - 3.1±0.004 0.57
- 0.095±0.012 0.133±0.002 - 0.095±0.012 0.133±0.002 0.54
0.007±0.000 0.007±0.000 0.29
0.319±0.011 0.319±0.011 0.29
0.064±0.008 0.064±0.008 0.29
0.103±0.006 0.103±0.006 0.29
0.326±0.007 0.326±0.007 0.29
0.241±0.033 0.241±0.033 0.29
0.009±0.000 0.009±0.000 0.29
0.368±0.012 0.368±0.012 0.29
0.022±0.000 0.022±0.000 0.29
0.079±0.000 0.079±0.000 0.29
0.183±0.395 0.183±0.395 0.29
1.483±1.034 1.483±1.034 0.29
0.007±0.000 0.007±0.000 0.29
0.337±0.024 0.337±0.024 0.29
0.0245±0.002 0.0245±0.002 0.29
0.078±0.002 0.078±0.002 0.29
0.208±0.183 0.208±0.183 0.29
0.086±0.004 0.086±0.004 0.29
0.005±0.003 0.006±0.001 0.005±0.003 0.006±0.001 0.24
0.301±0.014 0.287±0.02 0.301±0.014 0.287±0.02 0.24
0.0207±0.000 0.0206±0.001 0.0207±0.000 0.0206±0.001 0.24
0.056±0.001 0.044±0.006 0.056±0.001 0.044±0.006 0.24
0.179±0.002 0.114±0.02 0.179±0.002 0.114±0.02 0.24
0.063±0.003 0.0485±0.002 0.063±0.003 0.0485±0.002 0.24
auto-regressive model with lags corresponding to the periodicity of the data, データの周期性に対応する遅延を持つ自動回帰モデル。 0.71
joint emission distribution is given by a low-rank plus diagonal covariance Gaussian copula and 共同放出分布は低ランク+対角共分散ガウスコプラによって与えられ、 0.72
• VAR-Lasso a Lasso regularized VAR, •VAR-Lasso A Lasso正規化VAR 0.73
• GARCH (van der Weide, 2002) a multivariate condi- •garch (van der weide, 2002) a multivariate condi- 0.84
tional heteroskedastic model and 定型的ヘテロスケキスティックモデルと 0.58
• VES a innovation state space model (Hyndman et al., • VESは革新状態空間モデル(Hyndman et al.)である。 0.72
2008); as well as deep learning based methods namely: 2008); 深層学習に基づく手法 すなわち 0.54
• KVAE (Fraccaro et al., 2017) a variational autoencoder to represent the data on top of a linear state space model which describes the dynamics, • KVAE (Fraccaro et al., 2017) は、力学を記述する線形状態空間モデル上のデータを表現する変分オートエンコーダである。 0.79
• Vec-LSTM-ind-scaling (Salinas et al., 2019a) which models the dynamics via an RNN and outputs the parameters of an independent Gaussian distribution with mean-scaling, •Vec-LSTM-ind-scaling (Salinas et al., 2019a)は、RNNを介して力学をモデル化し、平均スケーリングによる独立ガウス分布のパラメータを出力する。 0.72
• Vec-LSTM-lowrank-Cop ula (Salinas et al., 2019a) which instead parametrizes a low-rank plus diagonal covariance via Copula process, •Vec-LSTM-lowrank-Cop ula (Salinas et al., 2019a)は、代わりにコプラ過程を通じて低ランクと対角の共分散をパラメータ化する。 0.55
• GP-scaling (Salinas et al., 2019a) which unrolls an LSTM with scaling on each individual time series before reconstructing the joint distribution via a lowrank Gaussian, •GPスケーリング(Salinas et al., 2019a)では,低ランクガウスによる関節分布の再構築前に,各時系列のスケーリングでLSTMをアンロールする。 0.76
• GP-Copula (Salinas et al., 2019a) which unrolls an LSTM on each individual time series and then the GP-Copula (Salinas et al., 2019a) は、LSTM を各タイムシリーズに展開し、その後に展開します。
訳抜け防止モード: • GP - Copula(Salinas et al., 2019a)は、各タイムシリーズにLSTMを展開します。 そして
0.88
• Transformer-MAF (Rasul et al., 2021) which uses Transformer (Vaswani et al., 2017) to model the temporal conditioning and Masked Autoregressive Flow (Papamakarios et al., 2017) for the distribution emission model. • Transformer-MAF (Rasul et al., 2021) は Transformer (Vaswani et al., 2017) を用いて時間条件をモデル化し, Masked Autoregressive Flow (Papamakarios et al., 2017) を分布放出モデルとして用いた。 0.91
Table 2 lists the corresponding CRPSsum values averaged over 10 independent runs together with their empirical standard deviations and shows that the TimeGrad model sets the new state-of-the-art on all but the smallest of the benchmark data sets. 表2は、10以上の独立した実行平均値とその経験的な標準偏差をリストし、TimeGradモデルがベンチマークデータセットの最小を除いて、最新の新しい状態を設定することを示しています。 0.71
Note that flow based models must apply continuous transformations onto a continuously connected distribution, making it difficult to model disconnected modes. フローベースのモデルは連続的に連結された分布に連続変換を適用する必要があるため、断続モードのモデル化が困難である。 0.74
Flow models assign spurious density to connections between these modes leading to potential inaccuracies. フローモデルはこれらのモード間の接続にスプリアス密度を割り当て、潜在的な不正確性をもたらす。 0.61
Similarly the generator network in variational autoencoders must learn to map from some continuous space to a possibly disconnected space which might not be possible to learn. 同様に、変分オートエンコーダのジェネレータネットワークは、連続空間から学習できないかもしれない非連結空間への写像を学ぶ必要がある。 0.73
In contrast EMBs do not suffer from these issues (Du & Mordatch, 2019). 対照的に、EMBはこれらの問題に苦しんでいない(Du & Mordatch, 2019)。 0.60
4.4. Ablation 4.4. アブレーション 0.63
The length N of the forward process is a crucial hyperparameter, as a large N allows the reverse process to be approximately Gaussian which assists the forward process to approximate it better. 前方過程の長さ N は重要な超パラメータであり、大きな N は逆過程をほぼガウス的であることを可能にし、前方過程がよりよく近似するのを助ける。 0.78
We evaluate to which extent, if any at all, bigger N affects prediction performance, with an ablation study where we record the test set CRPSsum 我々は,テストセットCRPSsumを記録するアブレーション研究により,大Nが予測性能にどのような影響を及ぼすかを評価する。 0.78
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting 多変量確率時系列予測のための自己回帰消音拡散モデル 0.71
of the Traffic data set for different total diffusion process lengths N = 2, 4, 8, . 異なる全拡散過程の長さ n = 2, 4, 8, に対するトラフィックデータセット。 0.78
. . , 256 while keeping all other hyperparemeters unchanged. . . 他のすべてのハイパーパレメーターを変更せずに256。 0.78
The results are then plotted in Figure 3 where we note that N can be reduced down to ≈ 10 without significant performance loss. 結果が図3にプロットされ、パフォーマンスの大幅な低下なしに n を 10 に減らすことができることに注意します。 0.77
An optimal value is achieved at N ≈ 100 and larger levels are not beneficial if all else is kept fixed. 最適値は N > 100 で達成され、他の全ての値が固定されている場合、より大きなレベルは有益ではない。 0.64
Figure 3. TimeGrad test set CRPSsum for Traffic data for varying total diffusion length N. Good performance is established already at N = 10 with optimal value at N ≈ 100. 図3。 TimeGradテストセットCRPSsum for Traffic data for varying total spread length N。N = 10ですでに良好な性能が確立されており、最適な値は100です。 0.79
To highlight the predictions of TimeGrad we show in Figure 4 the predicted 50% and 90% distribution intervals of the first 6 dimensions of the full 963 dimensional multivariate forecast of the Traffic benchmark. TimeGradの予測を強調するために、図4に、トラフィックベンチマークの全963次元多変量予測の最初の6次元の予測50%と90%の分布間隔を示します。 0.85
5. Related Work 5.1. 5. 関連作品5.1。 0.74
Energy-Based Methods エネルギーベース手法 0.77
The EBM of (Ho et al., 2020) that we adapt is based on methods that learn the gradient of the log-density called Stein score function (Hyv¨arinen, 2005; Vincent, 2011) and at inference time use this gradient estimate via Langevin dynamics to sample from the model of the data distribution (Song & Ermon, 2019). 私たちが適用した(Ho et al., 2020) の EBM は、Stein score function (Hyv sarinen, 2005; Vincent, 2011) と呼ばれる対数密度の勾配を学習する手法に基づいており、推定時にデータ分布のモデル(Song & Ermon, 2019)からLangevin dynamics を通してこの勾配推定を利用する。 0.81
These models achieve impressive results for image generation (Ho et al., 2020; Song & Ermon, 2020) when trained in an unsupervised fashion without requiring adversarial optimization. これらのモデルは、逆最適化を必要とせずに教師なしの方法で訓練された場合、画像生成(ho et al., 2020; song & ermon, 2020)に印象的な結果をもたらす。 0.62
By perturbing the data using multiple noise scales, the score network captures both coarse and fine-grained data features. 複数のノイズスケールを用いてデータを摂動することにより、スコアネットワークは粗いデータ特徴ときめ細かいデータ特徴の両方をキャプチャする。 0.61
The closest related work to TimeGrad is in the recent non-autoregressive conditional methods for high fidelity waveform generation (Chen et al., 2021; Kong et al., 2021). TimeGradに最も近い関連は、高忠実度波形生成のための最近の非自動回帰条件法(Chen et al., 2021; Kong et al., 2021)である。 0.85
Although these methods learn the distribution of vector valued data via denoising diffusion methods, as done here, they do not consider its temporal development. これらの手法は,ベクトル値データの分布を拡散法によって学習するが,時間的発展は考慮していない。 0.82
Also neighbor- Figure 4. TimeGrad prediction intervals and test set ground-truth for Traffic data of the first 6 of 963 dimensions from first rolling-window. 隣人 図4。 第1ローリングウインドウから963次元の最初の6次元のトラヒックデータに対するタイムグレード予測間隔と試験セット 0.63
ing dimensions of waveform data are highly correlated and have a uniform scale, which is not necessarily true for multivariate time series problems where neighboring entities occur arbitrarily (but in a fixed order) and can have different scales. 波形データのing次元は高い相関性を持ち、一様スケールを持つが、これは近隣の実体が任意に(しかし一定の順序で)発生し、異なるスケールを持つ多変量時系列問題には必ずしも当てはまらない。 0.77
(Du & Mordatch, 2019) also use EBMs to model one and multiple steps for a trajectory modeling task in an non-autoregressive fashion. (Du & Mordatch, 2019) はまた EBM を使用して、非回帰的な方法で軌道モデリングタスクの 1 つと複数のステップをモデル化します。 0.67
101102N101100CRPS-SU MTraffic00:0015-Jun2 00800:0016-Jun18:000 6:0012:0018:0006:001 2:000.0000.0050.0100 .0150.0200.0250.0300 .035observationsmedi an prediction90.0% prediction interval50.0% prediction interval00:0015-Jun2 00800:0016-Jun18:000 6:0012:0018:0006:001 2:000.050.100.150.20 0.2500:0015-Jun20080 0:0016-Jun18:0006:00 12:0018:0006:0012:00 0.000.010.020.030.04 0.050.060.070.0800:0 015-Jun200800:0016-J un18:0006:0012:0018: 0006:0012:000.000.01 0.020.030.040.050.06 0.070.0800:0015-Jun2 00800:0016-Jun18:000 6:0012:0018:0006:001 2:000.020.040.060.08 0.100.120.140.1600:0 015-Jun200800:0016-J un18:0006:0012:0018: 0006:0012:000.000.05 0.100.150.200.250.30 101102N101100CRPS-SU MTraffic00:0015-Jun2 00800:0016-Jun18:000 6:0012:0018:0006:001 2:000.0000.0050.0100 .0150.0200.0250.0300 .035observationsmedi an prediction90.0% prediction interval50.0% prediction interval00:0015-Jun2 00800:0016-Jun18:000 6:0012:0018:0006:001 2:000.050.100.150.20 0.2500:0015-Jun20080 0:0016-Jun18:0006:00 12:0018:0006:0012:00 0.000.010.020.030.04 0.050.060.070.0800:0 015-Jun200800:0016-J un18:0006:0012:0018: 0006:0012:000.000.01 0.020.030.040.050.06 0.070.0800:0015-Jun2 00800:0016-Jun18:000 6:0012:0018:0006:001 2:000.020.040.060.08 0.100.120.140.1600:0 015-Jun200800:0016-J un18:0006:0012:0018: 0006:0012:000.000.05 0.100.150.200.250.30 0.04
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting 多変量確率時系列予測のための自己回帰消音拡散モデル 0.71
5.2. Time Series Forecasting 5.2. 時系列予測 0.68
Neural time series methods have recently become popular ways of solving the prediction problem via univariate point forecasting methods (Oreshkin et al., 2020; Smyl, 2020) or univariate probabilistic methods (Salinas et al., 2019b). ニューラル時系列法は、最近、一変点予測法(Oreshkin et al., 2020; Smyl, 2020)または一変点確率法(Salinas et al., 2019b)によって予測問題を解く一般的な方法となっている。 0.69
In the multivariate setting we also have point forecasting methods (Lai et al., 2018; Li et al., 2019) as well as probabilistic methods, like this model, which explicitly model the data distribution using Gaussian copulas (Salinas et al., 2019a), GANs (Yoon et al., 2019), or normalizing flows (de B´ezenac et al., 2020; Rasul et al., 2021). 多変量設定では、点予測法(Lai et al., 2018; Li et al., 2019)や、このモデルのような確率的手法もあり、ガウスコプラ(Salinas et al., 2019a)、GAN(Yoon et al., 2019)、正規化フロー(de B ́ezenac et al., 2020; Rasul et al., 2021)を用いてデータ分布を明示的にモデル化する。 0.85
Bayesian neural networks can also be used to provide epistemic uncertainty in forecasts as well as detect distributional shifts (Zhu & Laptev, 2018), although these methods often do not perform as well empirically (Wenzel et al., 2020). ベイズニューラルネットワークは、予測の認識的不確実性や分布シフトの検出にも利用できる(zhu & laptev, 2018)が、これらの手法は経験的にはあまりうまく機能しないことが多い(wenzel et al., 2020)。 0.71
6. Conclusion We have presented TimeGrad, a versatile multivariate probabilistic time series forecasting method that leverages the exceptional performance of EBMs to learn and sample from the distribution of the next time step, autoregressivly. 6. 結論 ebmsの例外的な性能を活用し,次の時間ステップの分布から自己回帰的に学習・サンプルを行う多変量確率時系列予測手法であるtimegradを提案する。 0.83
Analysis of TimeGrad on six commonly used time series benchmarks establishes the new state-of-the-art against competitive methods. 6つの一般的な時系列ベンチマークのTimeGradの分析は、競争方法に対する新しい最先端を確立します。 0.59
We note that while training TimeGrad we do not need to loop over the EBM function approximator θ, unlike in the normalizing flow setting where we have multiple stacks of bijections. タイムグレードをトレーニングしている間は、複数の単射のスタックを持つ正規化フロー設定とは異なり、ebm関数をループする必要はないことに注意する。 0.65
However while sampling we do loop N times over θ. しかし、サンプリング中は n 倍の θ をループする。 0.69
A possible strategy to improve sampling times introduced in (Chen et al., 2021) uses a combination of improved variance schedule and an L1 loss to allow sampling with fewer steps at the cost of a small reduction in quality if such a trade-off is required. また、(Chen et al.,2021)で導入されたサンプリング時間を改善するための戦略として、改良された分散スケジュールとL1損失の組み合わせを用いて、そのようなトレードオフが必要な場合には、少ないステップでサンプリングを行うことができる。 0.70
A recent paper (Song et al., 2021) generalize the diffusion processes via a class of non-Markovian processes which also allows for faster sampling. 最近の論文(Song et al., 2021)は、より高速なサンプリングを可能にする非マルコフ過程のクラスを介して拡散過程を一般化している。 0.69
The use of normalizing flows for discrete valued data dictates that one dequantizes it (Theis et al., 2016), by adding uniform noise to the data, before using the flows to learn. 離散値データへの正規化フローの使用は、学習するためにフローを使用する前に、データに均一なノイズを加えることによって、それを非定量化する(theis et al., 2016)。 0.73
Dequantization is not needed in the EBM setting and future work could explore methods of explicitly modeling discrete distributions. ebmの設定では非量子化は不要であり、将来の研究は離散分布を明示的にモデル化する方法を探求することができる。 0.56
As noted in (Du & Mordatch, 2019) EBMs exhibit better out-of-distribution (OOD) detection than other likelihood models. Du & Mordatch, 2019)で指摘されているように、EMMは、他の可能性モデルよりも優れた分散アウトオブディストリビューション(OOD)検出を示す。 0.48
Such a task requires models to have a high likelihood on the data manifold and low at all other locations. このようなタスクは、データ多様体上で高い可能性を持ち、他のすべての場所で低いモデルを必要とする。 0.66
Surprisingly (Nalisnick et al., 2019) showed that likelihood models, including flows, were assigning higher likelihoods to OOD data whereas EBMs do not suffer from this issue since they penalize high probability under the model but low probability under the data distribution explicitly. 驚くべきことに(nalisnick et al., 2019)、フローを含む確率モデルがoodデータに対して高い確率を割り当てているのに対して、ebmsはモデルの下で高い確率を課すが、データ分布下では低い確率を明示的に示しているため、この問題に苦しむことはない。 0.61
Future work could evaluate the usage of TimeGrad for anomaly detection tasks. 未来 作業は異常検出タスクにTimeGradを使用することを評価することができる。 0.72
For long time sequences, one could replace the RNN with a Transformer architecture (Rasul et al., 2021) to provide better conditioning for the EBM emission head. 長時間のシーケンスでは、RNNをTransformerアーキテクチャ(Rasul et al.、2021)に置き換えて、EMMエミッションヘッドのより良いコンディショニングを提供できます。
訳抜け防止モード: 長い間、RNNをTransformerアーキテクチャ(Rasul et al ., 2021)に置き換えることができた。 EBMの放出の頭部のためのよりよい調節を提供するため。
0.75
Concurrently, since EBMs are not constrained by the form of their functional approximators, one natural way to improve the model would be to incorporate architectural choices that best encode the inductive bias of the problem being tackled, for example with graph neural networks (Niu et al., 2020) when the relationships between entities are known. 同時に、EMMは関数近似器の形で制限されていないため、モデルを改善する自然な方法の1つは、エンティティ間の関係が知られている場合、例えばグラフニューラルネットワーク(Niu et al., 2020)のように、取り組まれる問題の誘導バイアスを最もよくコードするアーキテクチャ上の選択を組み込むことである。 0.74
References Benidis, K., Rangapuram, S. S., Flunkert, V., Wang, B., Maddix, D., Turkmen, C., Gasthaus, J., BohlkeSchneider, M., Salinas, D., Stella, L., Callot, L., and Januschowski, T. Neural forecasting: Introduction and literature overview, 2020. Benidis, K., Rangapuram, S.S., Flunkert, V., Wang, B., Maddix, D., Turkmen, C., Gasthaus, J., BohlkeSchneider, M., Salinas, D., Stella, L., Callot, L., and Januschowski, T. Neural forecasting: 紹介と文学の概要, 2020。 0.83
Charrington, S. TWiML & AI Podcast: Systems and Software for Machine Learning at Scale with Jeff Dean, 2018. Charrington, S. TWiML & AI Podcast: Systems and Software for Machine Learning at Scale, Jeff Dean, 2018。 0.85
URL https://bit.ly/2G0Lm Gg. URL https://bit.ly/2G0Lm Gg 0.50
Chen, N., Zhang, Y., Zen, H., Weiss, R. J., Norouzi, M., and Chan, W. WaveGrad: Estimating gradients for waveform generation. Chen, N., Zhang, Y., Zen, H., Weiss, R. J., Norouzi, M. and Chan, W. WaveGrad: 波形生成の勾配の推定 0.86
In International Conference on Learning Representations 2021 (Conference Track), 2021. International Conference on Learning Representations 2021 (Conference Track) 2021年。 0.72
URL https://openreview.n et/forum? URL https://openreview.n et/forum? 0.59
id=NsMLjcFaO8O. id=NsMLjcFaO8O。 0.48
Chung, J., Gulcehre, C., Cho, K., and Bengio, Y. Empirical evaluation of gated recurrent neural networks on sequence modeling. Chung, J., Gulcehre, C., Cho, K., and Bengio, Y. シーケンスモデリングにおけるゲートされた繰り返しニューラルネットワークの実証的評価。 0.84
In NIPS 2014 Workshop on Deep Learning, December 2014, 2014. 2014年12月「NIPS 2014 Workshop on Deep Learning」に参加。 0.87
de B´ezenac, E., Rangapuram, S. S., Benidis, K., BohlkeSchneider, M., Kurle, R., Stella, L., Hasson, H., Gallinari, P., and Januschowski, T. Normalizing Kalman Filters for Multivariate Time series Analysis. de B ́ezenac, E., Rangapuram, S.S., Benidis, K., BohlkeSchneider, M., Kurle, R., Stella, L., Hasson, H., Gallinari, P., and Januschowski, T. Normalizing Kalman Filters for Multivariate Time Series Analysis。 0.90
In Advances in Neural Information Processing Systems, volume 33. ニューラル情報処理システムの進歩において、第33巻。 0.64
Curran Associates, Inc., 2020. Curran Associates、Inc.、2020。 0.79
De Br´ebisson, A., Simon, E., Auvolat, A., Vincent, P., and Bengio, Y. Artificial Neural Networks Applied In Proceedings of the to Taxi Destination Prediction. De Br ́ebisson, A., Simon, E., Auvolat, A., Vincent, P., and Bengio, Y. Artificial Neural Networks Applied In Proceedings of the To Taxi Destination Prediction。 0.91
2015th International Conference on ECML PKDD Discovery Challenge - Volume 1526, ECMLPKDDDC’15, pp. 2015th International Conference on ECML PKDD Discovery Challenge - Volume 1526, ECMLPKDDDC’15, pp。 0.86
40–51, Aachen, Germany, Germany, 2015. 40-51, Aachen, Germany, Germany, 2015 0.81
CEURWS.org. CEURWS.org 0.82
URL http://dl.acm.org/ci tation. URL http://dl.acm.org/ci tation 0.53
cfm?id=3056172.3056178. cfm?id=3056172.3056178 0.67
Dinh, L., Sohl-Dickstein, J., and Bengio, S. Density estimation using Real NVP. Dinh, L., Sohl-Dickstein, J., and Bengio, S. Real NVPを用いた密度推定。 0.88
In International Conference on Learning Representations 2017 (Conference Track), International Conference on Learning Representations 2017 (Conference Track) に参加して 0.93
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting 多変量確率時系列予測のための自己回帰消音拡散モデル 0.71
2017. URL https://openreview.n et/forum? 2017. URL https://openreview.n et/forum? 0.72
id=HkpbnH9lx. id=HkpbnH9lx。 0.48
Du, Y. and Mordatch, I. Du, Y. and Mordatch, I. 0.94
Implicit Generation and Modeling with Energy Based Models. エネルギーベースモデルによる暗黙的生成とモデリング。 0.80
In Wallach, H., Larochelle, H., Beygelzimer, A., d'Alch´e-Buc, F., Fox, E., and Garnett, R. Wallach, H., Larochelle, H., Beygelzimer, A., d'Alch ́e-Buc, F., Fox, E., and Garnett, R。 0.97
(eds. ), Advances in Neural Information Processing Systems, volume 32, pp. (eds)。 ), 神経情報処理システムの進歩, ボリューム32, pp。 0.74
3608–3618. 3608–3618. 0.71
Curran Associates, Inc., 2019. Curran Associates、Inc.、2019。 0.77
URL https://proceedings. URL https://proceedings. com 0.68
neurips.cc/paper/201 9/file/ 378a063b8fdb1db941e3 4f4bde584c7d-Paper. neurips.cc/paper/201 9/file/378a063b8fdb1 db941e34f4bde584c7d- Paper 0.14
pdf. Fraccaro, M., Kamronn, S., Paquet, U., and Winther, A Disentangled Recognition and Nonlinear O. pdf。 Fraccaro, M., Kamronn, S., Paquet, U., and Winther, A Disentangled Recognition and Nonlinear O。 0.81
In Dynamics Model for Unsupervised Learning. 教師なし学習のためのダイナミクスモデル 0.73
Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R. Guyon, I., Luxburg, U.V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R。 0.87
(eds. ), Advances in Neural Information Processing Systems, volume 30, pp. (eds)。 ), 神経情報処理システムの進歩, ボリューム30, pp。 0.74
3601–3610. 3601–3610. 0.71
Curran Associates, Inc., 2017. Curran Associates, Inc.、2017。 0.87
URL https://proceedings. URL https://proceedings. com 0.68
neurips.cc/paper/201 7/file/ 7b7a53e239400a13bd6b e6c91c4f6c4e-Paper. neurips.cc/paper/201 7/file/ 7b7a53e239400a13b6be 6c91c4f6c4e-Paper 0.13
pdf. Graves, A. pdf。 Graves, A。 0.82
Generating Sequences With Recurrent Neural 繰り返しニューラルによるシーケンス生成 0.82
Networks. arXiv preprint arXiv:1308.0850, 2013. ネットワーク。 arXiv preprint arXiv:1308.0850, 2013 0.79
Hinton, G. E. Training Products of Experts by Minimizing Contrastive Divergence. Hinton, G. E. Training Products of Experts by Minimizing Contrastive Divergence 0.86
Neural Computation, 14 (8):1771––1800, August 2002. Neural Computation, 14 (8):1771–1800, August 2002 0.90
ISSN 0899-7667. doi: 10.1162/089976602760 128018. ISSN 0899-7667. doi: 10.1162/089976602712 8018 0.59
URL https://doi. URL https://doi.com 0.68
org/10.1162/08997660 2760128018. org/10.1162/08997660 2760128018 0.39
Ho, J., Jain, A., and Abbeel, P. Denoising Diffusion Probabilistic Models. Ho、J.、Jain、A.、Abbeel、P. Denoising Diffusion Probabilistic Models。 0.83
In Wallach, H., Larochelle, H., Beygelzimer, A., d'Alch´e-Buc, F., Fox, E., and Garnett, R. Wallach, H., Larochelle, H., Beygelzimer, A., d'Alch ́e-Buc, F., Fox, E., and Garnett, R。 0.97
(eds. ), Advances in Neural Information Processing Systems, volume 33. (eds)。 ), 神経情報処理システムの進歩, ボリューム33。 0.74
Curran Associates, Inc., 2020. Curran Associates、Inc.、2020。 0.79
URL https: //papers.nips.cc/pap er/2020/file/ 4c5bcfec8584af0d967f 1ab10179ca4b-Paper. URL https: //papers.nips.cc/pap er/2020/file/ 4c5bcfec8584af07f1ab 10179ca4b-Paper 0.24
pdf. Hochreiter, S. and Schmidhuber, J. pdf。 Hochreiter, S. and Schmidhuber, J. 0.88
Long Short-Term Memory. Neural Computation, 9(8):1735–1780, November 1997. 短期記憶。 Neural Computation, 9(8):1735–1780, November 1997 0.71
ISSN 0899-7667. doi: 10.1162/neco.1997.9. 8. ISSN 0899-7667. doi: 10.1162/neco.1997.9. 8 0.41
1735. Hyndman, R. and Athanasopoulos, G. Forecasting: Principles and practice. 1735. Hyndman, R. and Athanasopoulos, G. Forecasting: 原則と実践。 0.88
OTexts, 2018. OTexts、2018年。 0.79
ISBN 9780987507112. ISBN 9780987507112。 0.82
Hyndman, R., Koehler, A., Ord, K., and Snyder, R. Forecasting with exponential smoothing. Hyndman, R., Koehler, A., Ord, K., and Snyder, R. 指数的平滑化による予測。 0.90
The state space approach, chapter 17, pp. the state space approach, chapter 17, pp. (英語) 0.74
287–300. Springer-Verlag, 2008. doi: 10.1007/978-3-540-71 918-2. 287–300. Springer-Verlag, 2008. doi: 10.1007/978-3-540-71 918-2 0.56
Hyv¨arinen, A. Estimation of Non-Normalized Statistical Models by Score Matching. ハイヴ・シャリネン, A. スコアマッチングによる非正規化統計モデルの推定 0.74
Journal of Machine Learning Research, 6(24):695–709, 2005. Journal of Machine Learning Research, 6(24):695–709, 2005 0.91
URL http://jmlr. URL http://jmlr.com 0.74
org/papers/v6/hyvari nen05a.html. org/papers/v6/hyvari nen05a.html 0.26
Jordan, A., Kr¨uger, F., and Lerch, S. Evaluating Probabilistic Forecasts with scoringRules. Jordan, A., Kr suger, F., and Lerch, S. scoringRulesによる確率予測の評価。 0.81
Journal of Statistical Software, Articles, 90(12):1–37, 2019. Journal of Statistical Software, Articles, 90(12):1–37, 2019。 0.96
ISSN 1548-7660. doi: 10.18637/jss.v090.i1 2. ISSN 1548-7660. doi: 10.18637/jss.v090.i1 2 0.42
URL https: //www.jstatsoft.org/ v090/i12. url https: //www.jstatsoft.org/ v090/i12 0.39
Kingma, D. P. and Ba, J. Adam: A method for stochastic optimization. Kingma, D. P. and Ba, J. Adam: 確率最適化の方法。 0.84
In International Conference on Learning Representations (ICLR), 2015. 2015年、ICLR(International Conference on Learning Representations)に参加。 0.87
Kingma, D. P. and Welling, M. An Introduction to Variational Autoencoders. Kingma, D. P. and Welling, M. An Introduction to Variational Autoencoders 0.92
Foundations and Trends in Machine Learning, 12(4):307–392, 2019. doi: 10.1561/ 2200000056. 機械学習の基礎とトレンド 12(4):307–392, 2019. doi: 10.1561/2200000056 0.83
URL https://doi.org/10.1 561/ 2200000056. URL https://doi.org/10.1 561/ 2200000056 0.54
Kong, Z., Ping, W., Huang, J., Zhao, K., and Catanzaro, B. DiffWave: A Versatile Diffusion Model for Audio Synthesis. Kong, Z., Ping, W., Huang, J., Zhao, K. and Catanzaro, B. DiffWave: A Versatile Diffusion Model for Audio Synthesis 0.84
In International Conference on Learning Representations 2021 (Conference Track), 2021. International Conference on Learning Representations 2021 (Conference Track) 2021年。 0.72
URL https: //openreview.net/for um?id=a-xFK8Ymz5J. URL https: //openreview.net/for um?id=a-xFK8Ymz5J 0.44
Lai, G., Chang, W.-C., Yang, Y., and Liu, H. Modeling Long- and Short-Term Temporal Patterns with Deep In The 41st International ACM SINeural Networks. Lai, G., Chang, W.-C., Yang, Y. and Liu, H. Modeling Long- and Short-Term Temporal Patterns with Deep In The 41th International ACM SINeural Networks 0.97
GIR Conference on Research & Development in Information Retrieval, SIGIR ’18, pp. GIR Conference on Research & Development in Information Retrieval, SIGIR '18, pp. 0.85
95–104, New York, NY, USA, 2018. 95-104, New York, NY, USA, 2018。 0.89
ACM. ISBN 978-1-4503-5657-2. doi: 10.1145/3209978.3210 006. ACM。 ISBN 978-1-4503-5657-2. doi: 10.1145/3209978.3210 006 0.59
URL http://doi.acm. url http://doi.acm。 0.61
org/10.1145/3209978. 3210006. org/10.1145/3209978. 3210006。 0.31
LeCun, Y., Chopra, S., Hadsell, R., Ranzato, M., and Huang, F. A Tutorial on Energy-Based Learning. LeCun, Y., Chopra, S., Hadsell, R., Ranzato, M., and Huang, F. A Tutorial on Energy-Based Learning。 0.92
In Bakir, G., Hofman, T., Sch¨olkopf, B., Smola, A., and Taskar, B. Bakir, G., Hofman, T., Sch solkopf, B., Smola, A., and Taskar, B。 0.81
(eds. ), Predicting Structured Data. (eds)。 ) 構造化データの予測。 0.80
MIT Press, 2006. 2006年MITプレス入社。 0.65
Li, S., Jin, X., Xuan, Y., Zhou, X., Chen, W., Wang, Y.-X., and Yan, X. Li, S., Jin, X., Xuan, Y., Zhou, X., Chen, W., Wang, Y.-X., Yan, X。 0.86
Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. 時系列予測における変圧器の局所性向上とメモリボトルネックの解消 0.73
In Wallach, H., Larochelle, H., Beygelzimer, A., d’Alch´e Buc, F., Fox, E., and Garnett, R. Wallach, H., Larochelle, H., Beygelzimer, A., d’Alch ́e Buc, F., Fox, E., and Garnett, R。 0.86
(eds. ), Advances in Neural Information Processing Systems 32, pp. (eds)。 )、ニューラル情報処理システム32, pp. の進歩。 0.74
5244–5254. 5244–5254. 0.71
Curran Associates, Inc., 2019. Curran Associates、Inc.、2019。 0.77
L¨utkepohl, H. New Introduction to Multiple Time Series Analysis. L sutkepohl, H. New Introduction to Multiple Time Series Analysis 0.80
Springer Berlin Heidelberg, 2007. ベルリン・ハイデルベルク、2007年。 0.65
ISBN 9783540262398. ISBN 9783540262398。 0.82
URL https://books.google . URL https://books.google .com 0.62
de/books?id=muorJ6FHIiEC. de/books?id=muorJ6FHIiEC 0.53
Matheson, J. E. and Winkler, R. L. Scoring Rules for Continuous Probability Distributions. Matheson, J. E. and Winkler, R. L. Scoring Rules for Continuous Probability Distributions 0.99
Management Science, 22(10):1087–1096, 1976. 経営科学 22(10):1087-1096, 1976年。 0.78
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting 多変量確率時系列予測のための自己回帰消音拡散モデル 0.71
Nalisnick, E., Matsukawa, A., Teh, Y. W., Gorur, D., and Lakshminarayanan, B. Nalisnick, E., Matsukawa, A., Teh, Y. W., Gorur, D., Lakshminarayanan, B。 0.82
Do Deep Generative Models Know What They Don’t Know? 深層生成モデルは、自分が知らないことを知っているか? 0.69
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
URL https: //openreview.net/for um?id=H1xwNhCcYm. URL https: //openreview.net/for um?id=H1xwNhCcYm 0.54
Niu, C., Song, Y., Song, J., Zhao, S., Grover, A., and Ermon, S. Permutation Invariant Graph Generation via ScoreBased Generative Modeling. Niu, C., Song, Y., Song, J., Zhao, S., Grover, A., and Ermon, S. Permutation Invariant Graph Generation via ScoreBased Generative Modeling 0.84
In Chiappa, S. and Calandra, R. チッパ, S. およびカランドラ, R。 0.60
(eds. ), The 23rd International Conference on Artificial Intelligence and Statistics, AISTATS 2020, 26-28 August 2020, Online [Palermo, Sicily, Italy], volume 108 of Proceedings of Machine Learning Research, pp. (eds)。 The 23rd International Conference on Artificial Intelligence and Statistics, AISTATS 2020, 26-28 August 2020, Online (Palermo, Sicily, Italy), Volume 108 of Proceedings of Machine Learning Research, pp。 0.81
4474– 4484. 4474– 4484. 0.94
PMLR, 2020. PMLR、2020年。 0.88
Oreshkin, B. N., Carpov, D., Chapados, N., and Bengio, Y. N-BEATS: Neural basis expansion analysis for interpretable time series forecasting. Oreshkin, B. N., Carpov, D., Chapados, N. and Bengio, Y. N-BEATS: 解釈可能な時系列予測のためのニューラルネットワークベース展開解析 0.83
In International Conference on Learning Representations, 2020. International Conference on Learning Representations, 2020に出展。 0.78
URL https: //openreview.net/for um?id=r1ecqn4YwB. URL https: //openreview.net/for um?id=r1ecqn4YwB 0.48
Papamakarios, G., Pavlakou, T., and Murray, I. Masked Autoregressive Flow for Density Estimation. Papamakarios, G., Pavlakou, T., and Murray, I. Masked Autoregressive Flow for Density Estimation。 0.86
Advances in Neural Information Processing Systems 30, 2017. ニューラル情報処理システム30, 2017の進歩。 0.66
Papamakarios, G., Nalisnick, E., Rezende, D. J., Mohamed, S., and Lakshminarayanan, B. Normalizing Flows for Probabilistic Modeling and Inference, 2019. Papamakarios, G., Nalisnick, E., Rezende, D.J., Mohamed, S., and Lakshminarayanan, B. 確率モデリングと推論のための正規化フロー, 2019。 0.89
Rasul, K., Sheikh, A.-S., Schuster, I., Bergmann, U., and Vollgraf, R. Multivariate Probabilistic Time Series Forecasting via Conditioned Normalizing Flows. Rasul, K., Sheikh, A.-S., Schuster, I., Bergmann, U., and Vollgraf, R. Multivariate Probabilistic Time Series Forecasting via Conditioned Normalizing Flows。 0.90
In International Conference on Learning Representations 2021 (Conference Track), 2021. International Conference on Learning Representations 2021 (Conference Track) 2021年。 0.72
URL https: //openreview.net/for um?id=WiGQBFuVRv. URL https: //openreview.net/for um?id=WiGQBFuVRv。 0.57
Salinas, D., Bohlke-Schneider, M., Callot, L., Medico, R., and Gasthaus, J. High-dimensional multivariate forecasting with low-rank Gaussian Copula Processes. Salinas, D., Bohlke-Schneider, M., Callot, L., Medico, R., and Gasthaus, J. 低ランクガウスコプラプロセスを用いた高次元多変量予測。 0.84
In Wallach, H., Larochelle, H., Beygelzimer, A., d’Alch´e Buc, F., Fox, E., and Garnett, R. Wallach, H., Larochelle, H., Beygelzimer, A., d’Alch ́e Buc, F., Fox, E., and Garnett, R。 0.86
(eds. ), Advances in Neural Information Processing Systems 32, pp. (eds)。 )、ニューラル情報処理システム32, pp. の進歩。 0.74
6824–6834. 6824–6834. 0.71
Curran Associates, Inc., 2019a. Curran Associates, Inc., 2019a 0.79
Salinas, D., Flunkert, V., Gasthaus, J., and Januschowski, T. DeepAR: Probabilistic forecasting with autoreInternational Journal gressive recurrent networks. Salinas, D., Flunkert, V., Gasthaus, J. and Januschowski, T. DeepAR: AutoreInternational Journal gressive Recurrent Networkによる確率予測。 0.80
of Forecasting, 2019b. forecasting』、2019年。 0.62
URL http://www.sciencedi rect.com/science/ article/pii/S0169207 019301888. url http://www.sciencedi rect.com/science/ article/pii/s0169207 019301888。 0.37
ISSN 0169-2070. ISSN 0169-2070。 0.71
Smyl, S. A hybrid method of exponential smoothing and recurrent neural networks for time series International Journal of Forecastforecasting. Smyl, S. 時系列 International Journal of Forecastforecasting の指数平滑化と繰り返しニューラルネットワークのハイブリッド手法。 0.75
ing, 36(1):75–85, 2020. doi: https://doi.org/10.1 016/j.ijforecast.201 9.03.017. doi: https://doi.org/10.1 016/j.ijforecast.201 9.03.017。 0.56
URL http://www.sciencedi rect.com/science/ URL http://www.sciencedi rect.com/science/ 0.42
ISSN 0169-2070. ISSN 0169-2070。 0.71
article/pii/S0169207 019301153. 記事/pii/s01692070193011 53 0.41
Competition. M4 Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., and Ganguli, S. Deep Unsupervised Learning using Nonequilibrium Thermodynamics. 競争。 M4 非平衡熱力学を用いたSohl-Dickstein, J., Weiss, E., Maheswaranathan, N., and Ganguli, S. Deep Unsupervised Learning 0.80
In Bach, F. and Blei, D. Bach, F. and Blei, D. 0.80
(eds. ), Proceedings of the 32nd International Conference on Machine Learning, volume 37 of Proceedings of Machine Learning Research, pp. (eds)。 The 32th International Conference on Machine Learning, Volume 37 of Proceedings of Machine Learning Research, pp。 0.73
2256–2265, Lille, France, 2015. 2256-2265, Lille, フランス, 2015。 0.78
PMLR. URL http://proceedings.m lr. PMLR。 URL http://proceedings.m lr。 0.74
press/v37/sohl-dicks tein15.html. press/v37/sohl-dicks tein15.html 0.28
Song, J., Meng, C., and Ermon, S. Denoising DiffuIn International Conference sion Implicit Models. Song、J.、Meng、C.、Ermon、S. Denoising DiffuIn International Conference sion Implicit Models。 0.84
on Learning Representations 2021 (Conference Track), 2021. on Learning Representations 2021 (Conference Track)、2021年。 0.83
URL https://openreview.n et/pdf? URL https://openreview.n et/pdf? 0.59
id=St1giarCHLP. id=St1giarCHLP。 0.48
Song, Y. and Ermon, S. Song, Y. and Ermon, S. 0.94
Generative Modeling by Estimating Gradients of the Data Distribution. データ分布の勾配推定による生成モデリング 0.67
In Wallach, H., Larochelle, H., Beygelzimer, A., d'Alch´e-Buc, F., Fox, E., and Garnett, R. Wallach, H., Larochelle, H., Beygelzimer, A., d'Alch ́e-Buc, F., Fox, E., and Garnett, R。 0.97
(eds. ), Advances in Neural Information Processing Systems, volume 32, pp. (eds)。 ), 神経情報処理システムの進歩, ボリューム32, pp。 0.74
11918–11930. 11918–11930. 0.71
Curran Associates, Inc., URL https://proceedings. Curran Associates, Inc., URL https://proceedings. com 0.84
neurips.cc/paper/201 9/file/ 3001ef257407d5a371a9 6dcd947c7d93-Paper. neurips.cc/paper/201 9/file/3001ef257407d 5a371a96dcd947c7d93- Paper 0.15
pdf. 2019. pdf。 2019. 0.84
Song, Y. and Ermon, S. mproved Techniques for Training Score-Based Generative Models. Song, Y. and Ermon, S. mproved Techniques for Training Score-Based Generative Models 0.93
In Wallach, H., Larochelle, H., Beygelzimer, A., d'Alch´e-Buc, F., Fox, E., and Garnett, R. Wallach, H., Larochelle, H., Beygelzimer, A., d'Alch ́e-Buc, F., Fox, E., and Garnett, R。 0.97
(eds. ), Advances in Neural Information Processing Systems, volume 33. (eds)。 ), 神経情報処理システムの進歩, ボリューム33。 0.74
Curran Associates, Inc., 2020. Curran Associates、Inc.、2020。 0.79
URL https://proceedings. URL https://proceedings. com 0.68
neurips.cc/paper/202 0/file/ 92c3b916311a5517d929 0576e3ea37ad-Paper. neurips.cc/paper/202 0/file/92c3b916311a5 517d9290576e3ea37ad- Paper 0.16
pdf. Song, Y. and Kingma, D. P. How to Train Your EnergyBased Models. pdf。 Song, Y. and Kingma, D. P. How to Training Your Energy Based Models 0.85
2021. URL https://arxiv.org/ abs/2101.03288. 2021. URL https://arxiv.org/ abs/2101.03288 0.69
Sutskever, I., Vinyals, O., and Le, Q. V. Sequence to Sequence Learning with Neural Networks. Sutskever, I., Vinyals, O., and Le, Q. V. Sequence to Sequence Learning with Neural Networks (英語) 0.91
In Ghahramani, Z., Welling, M., Cortes, C., Lawrence, N., and Weinberger, K. Ghahramani, Z., Welling, M., Cortes, C., Lawrence, N., Weinberger, K。 0.73
(eds. ), Advances in Neural Information Processing Systems 27, pp. (eds)。 ), 神経情報処理システム27, pp. の進歩がみられた。 0.78
3104–3112. 3104–3112. 0.71
Curran Associates, Inc., 2014. Curran Associates, Inc., 2014年。 0.92
Theis, L., van den Oord, A., and Bethge, M. A note on the evaluation of generative models. Theis, L., van den Oord, A., and Bethge, M. 生成モデルの評価に関するメモ。 0.78
In International Conference on Learning Representations, 2016. 2016年、国際学習表現会議に参加。 0.78
URL http:// arxiv.org/abs/1511.0 1844. URL http:// arxiv.org/abs/1511.0 1844 0.52
arXiv:1511.01844. arXiv:1511.01844。 0.48
Tsay, R. S. Multivariate Time Series Analysis: With R and Financial Applications. Tsay, R. S. Multivariate Time Series Analysis: With R and Financial Applications 0.87
Wiley Series in Probability and Statistics. Wiley Series in Probability and Statistics(英語) 0.84
Wiley, 2014. 2014年、ワイリー。 0.60
ISBN 9781118617908. ISBN 9781118617908。 0.83
英語(論文から抽出)日本語訳スコア
Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting 多変量確率時系列予測のための自己回帰消音拡散モデル 0.71
Yoon, J., Jarrett, D., and van der Schaar, M. Timeseries Generative Adversarial Networks. Yoon, J., Jarrett, D. and van der Schaar, M. Timeseries Generative Adversarial Networks 0.83
In Wallach, H., Larochelle, H., Beygelzimer, A., d'Alch´e-Buc, F., Fox, E., and Garnett, R. Wallach, H., Larochelle, H., Beygelzimer, A., d'Alch ́e-Buc, F., Fox, E., and Garnett, R。 0.97
(eds. ), Advances in Neural Information Processing Systems, volume 32, pp. (eds)。 ), 神経情報処理システムの進歩, ボリューム32, pp。 0.74
5508–5518. 5508–5518. 0.71
Curran Associates, Inc., URL https://proceedings. Curran Associates, Inc., URL https://proceedings. com 0.84
2019. neurips.cc/paper/201 9/file/ c9efe5f26cd17ba6216b be2a7d26d490-Paper. 2019. neurips.cc/paper/201 9/file/c9efe5f26cd17 6216bbe2a7d26d490-pa per 0.17
pdf. Zhu, L. and Laptev, N. Deep and Confident Prediction for Time Series at Uber. pdf。 Zhu, L. and Laptev, N. Deep and Confident Prediction for Time Series at Uber。 0.87
In 2017 IEEE International Conference on Data Mining Workshops (ICDMW), volume 00, pp. 2017年、IEEE International Conference on Data Mining Workshops (ICDMW), Volume 00, pp。 0.74
103–110, November 2018. doi: 10.1109/ICDMW. 103-110, 2018年11月: 10.1109/ICDMW 0.57
2017.19. URL doi.ieeecomputersoci ety. 2017.19. url doi.ieeecomputersoci ety 0.74
org/10.1109/ICDMW.20 17.19. org/10.1109/ICDMW.20 17.19 0.29
van den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., and Kavukcuoglu, K. WaveNet: A Generative Model for Raw Audio. van den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., Kvukcuoglu, K. WaveNet: A Generative Model for Raw Audio。 0.83
In The 9th ISCA Speech Synthesis Workshop, Sunnyvale, CA, USA, 13-15 September 2016, pp. The 9th ISCA Speech Synthesis Workshop, Sunnyvale, CA, USA, 13-15 September 2016. 0.79
125. ISCA, 2016a. 125. ISCA、2016a。 0.86
URL http://www.isca-spee ch. URL http://www.isca-spee ch.com 0.45
org/archive/SSW_2016 /abstracts/ssw9_ DS-4_van_den_Oord.ht ml. org/archive/SSW_2016 /abstracts/ssw9_ DS-4_van_den_Oord.ht ml 0.18
van den Oord, A., Kalchbrenner, N., Espeholt, L., kavukcuoglu, k., Vinyals, O., and Graves, A. van den Oord, A., Kalchbrenner, N., Espeholt, L., kavukcuoglu, k., Vinyals, O., and Graves, A。 0.83
Conditional Image Generation with PixelCNN Decoders. PixelCNNデコーダを用いた条件画像生成 0.82
In Lee, D., Sugiyama, M., Luxburg, U., Guyon, I., and Garnett, R. In Lee, D., Sugiyama, M., Luxburg, U., Guyon, I., and Garnett, R。 0.84
(eds. ), Advances in Neural Information Processing Systems, volume 29, pp. (eds)。 ) 神経情報処理システムの進歩, 第29巻, pp。 0.73
4790–4798. 4790–4798. 0.71
Curran Associates, Inc., URL https://proceedings. Curran Associates, Inc., URL https://proceedings. com 0.84
neurips.cc/paper/201 6/file/ b1301141feffabac455e 1f90a7de2054-Paper. neurips.cc/paper/201 6/file/b1301141feffa bac455e1f90a7de2054- Paper 0.18
pdf. 2016b. pdf。 2016年。 0.77
van den Oord, A., Kalchbrenner, N., and Kavukcuoglu, K. Pixel Recurrent Neural Networks. van den Oord、A.、Kalchbrenner、N.、Kavukcuoglu、K. Pixel Recurrent Neural Networks。 0.83
In Balcan, M. F. and Weinberger, K. Q. バルカン, m. f. and weinberger, k. q. 0.60
(eds. ), Proceedings of The 33rd International Conference on Machine Learning, volume 48 of Proceedings of Machine Learning Research, pp. (eds)。 The 33rd International Conference on Machine Learning, Volume 48 of Proceedings of Machine Learning Research, pp。 0.74
1747–1756, New York, New York, USA, 20–22 Jun 2016c. 1747-1756, new york, usa, 20–22 jun 2016c。 0.84
PMLR. URL http://proceedings.m lr. PMLR。 URL http://proceedings.m lr。 0.74
press/v48/oord16.htm l. press/v48/oord16.htm l 0.33
van der Weide, R. GO-GARCH: a multivariate generalized orthogonal GARCH model. van der Weide, R. GO-GARCH:多変量一般直交GARCHモデル。 0.80
Journal of Applied Econometrics, 17(5):549–564, 2002. doi: 10.1002/jae.688. Journal of Applied Econometrics, 17(5):549–564, 2002. doi: 10.1002/jae.688 0.76
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L. u., and Polosukhin, I. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L. u., Polosukhin, I。 0.86
Attention is All you Need. 注意はあなたが必要とするすべてです。 0.61
In Guyon, I., Luxburg, U., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R. Guyon, I., Luxburg, U., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R。 0.81
(eds. ), Advances in Neural Information Processing Systems 30, pp. (eds)。 ) 神経情報処理システム30の進歩, pp。 0.74
5998–6008. 5998–6008. 0.71
Curran Associates, Inc., 2017. Curran Associates, Inc.、2017。 0.87
URL http://papers.nips.c c/paper/ 7181-attention-is-al l-you-need.pdf. URL http://papers.nips.c c/paper/ 7181-attention-is-al l-you-need.pdf. 0.29
Vincent, P. A Connection Between Score Matching and Denoising Autoencoders. Vincent, P. A Connection between Score Matching and Denoising Autoencoders. (英語) 0.82
Neural Computation, 23(7):1661– 1674, 2011. Neural Computation, 23(7):1661–1674, 2011 0.74
URL https://doi.org/10.1 162/ NECO_a_00142. URL https://doi.org/10.1 162/ NECO_a_00142。 0.40
Wenzel, F., Roth, K., Veeling, B., Swiatkowski, J., Tran, L., Mandt, S., Snoek, J., Salimans, T., Jenatton, R., and Nowozin, S. How good is the Bayes posterior in deep neural networks really? Wenzel, F., Roth, K., Veeling, B., Swiatkowski, J., Tran, L., Mandt, S., Snoek, J., Salimans, T., Jenatton, R., and Nowozin, S. ディープニューラルネットワークのベイズ後部はどのくらい良いのでしょうか? 0.83
In III, H. D. and Singh, A. iii, h. d. and singh, a. 0.72
(eds. ), Proceedings of the 37th International Conference on Machine Learning, volume 119 of Proceedings of Machine Learning Research, pp. (eds)。 The 37th International Conference on Machine Learning, Volume 119 of Proceedings of Machine Learning Research, pp。 0.73
10248–10259. 10248–10259. 0.71
PMLR, 13–18 Jul 2020. PMLR、13-18 Jul 2020。 0.80
URL http://proceedings.m lr. URL http://proceedings.m lr。 0.69
press/v119/wenzel20a .html. press/v119/wenzel20a .html 0.30
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。