# (参考訳) 映像予測のための量子条件COT-GAN [全文訳有]

Quantized Conditional COT-GAN for Video Prediction ( http://arxiv.org/abs/2106.05658v1 )

ライセンス: CC BY 4.0
Tianlin Xu and Beatrice Acciaio(参考訳) 因果的最適輸送(COT)は、古典的最適輸送問題に時間的因果性制約を課し、経路空間上の分布間の距離の新しい概念を自然に生成する。 逐次学習にCOT理論を最初に応用したのは、Xuらである。 (2020)では,逐次データ生成に最適化された暗黙的生成モデルを学習するための逆アルゴリズムとしてCOT-GANを導入した。 Xuなどを参照。 (2020年)本論文の貢献は2倍である。 まず,シーケンス予測に適した条件付きCOT-GANを開発する。 これは、データセットが過去の進化の観察からシーケンスがどのように進化するかを学ぶために現在使用されていることを意味する。 第2に,backhoffらによる特定種類の量子化を通じて,経験的尺度の修正を行うことにより,収束結果を改善する。 (2020). 得られた量子化条件付きCOT-GANアルゴリズムをビデオ予測に応用した。

Causal Optimal Transport (COT) results from imposing a temporal causality constraint on classic optimal transport problems, which naturally generates a new concept of distances between distributions on path spaces. The first application of the COT theory for sequential learning was given in Xu et al. (2020), where COT-GAN was introduced as an adversarial algorithm to train implicit generative models optimized for producing sequential data. Relying on Xu et al. (2020), the contribution of the present paper is twofold. First, we develop a conditional version of COT-GAN suitable for sequence prediction. This means that the dataset is now used in order to learn how a sequence will evolve given the observation of its past evolution. Second, we improve on the convergence results by working with modifications of the empirical measures via a specific type of quantization due to Backhoff et al. (2020). The resulting quantized conditional COT-GAN algorithm is illustrated with an application for video prediction.
公開日: Thu, 10 Jun 2021 11:10:53 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。


    Page: /      
1 2 0 2 n u J 1 2 0 2 n u J 0.85
0 1 ] L M . t a t s [ 0 1 ]LM . t a t s [ 0.74
1 v 8 5 6 5 0 1 v 8 5 6 5 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Quantized Conditional COT-GAN 量子状態COT-GAN 0.49
for Video Prediction Tianlin Xu ビデオ予測のために Tianlin (複数形 Tianlins) 0.50
Department of Statistics London School of Economics 統計学科 ロンドン経済学学校 0.74
t.xu12@lse.ac.uk t.xu12@lse.ac.uk 0.43
Beatrice Acciaio Beatrice 属 0.58
Department of Mathematics ETH Zurich 数学科 ETH Zurich 0.65
beatrice.acciaio@mat h.ethz.ch beatrice.acciaio@mat h.ethz.ch 0.47
Abstract Causal Optimal Transport (COT) results from imposing a temporal causality constraint on classic optimal transport problems, which naturally generates a new concept of distances between distributions on path spaces. 概要 因果的最適輸送(COT)は、古典的最適輸送問題に時間的因果性制約を課し、経路空間上の分布間の距離の新しい概念を自然に生成する。 0.64
The first application of the COT theory for sequential learning was given in Xu et al [50], where COTGAN was introduced as an adversarial algorithm to train implicit generative models optimized for producing sequential data. 逐次学習のためのCOT理論の最初の応用はXu et al [50]で、COTGANは逐次データの生成に最適化された暗黙的な生成モデルを訓練するための逆アルゴリズムとして導入された。 0.70
Relying on [50], the contribution of the present paper is twofold. 50]に依拠して,本論文の貢献は2つある。 0.72
First, we develop a conditional version of COT-GAN suitable for sequence prediction. まず,シーケンス予測に適した条件付きCOT-GANを開発する。 0.69
This means that the dataset is now used in order to learn how a sequence will evolve given the observation of its past evolution. これは、データセットが過去の進化の観察からシーケンスがどのように進化するかを学ぶために現在使用されていることを意味する。 0.68
Second, we improve on the convergence results by working with modifications of the empirical measures via a specific type of quantization due to Backhoff et al [8]. 第2に、Backhoff et al [8] による特定の量子化のタイプを通して経験的測度の変更を施すことにより収束結果を改善する。 0.77
The resulting quantized conditional COT-GAN algorithm is illustrated with an application for video prediction. 得られた量子化条件付きCOT-GANアルゴリズムをビデオ予測に応用した。 0.68
1 Introduction Time series prediction is a challenging task. 1 はじめに 時系列予測は難しい課題です。 0.66
Given past observations, a desirable model should not only capture the distribution of features at each time step, but also predict its complex evolution over time. 過去の観察を考えると、望ましいモデルは各時点における特徴の分布を捉えるだけでなく、時間とともにその複雑な進化を予測する必要がある。 0.73
Autoregressive models which predict one time step after another seem to be a natural choice for learning such a task, see e g [16, 27, 33, 49]. あるステップを次々に予測する自己回帰モデルは、そのようなタスクを学ぶための自然な選択であるように思える。
訳抜け防止モード: 次から次へと進むステップを予測する自己回帰モデル そのような仕事を学ぶための 自然な選択です eg [16, 27, 33, 49]
However, the drawbacks of autoregressive models are the compounding error due to multi-step sampling and their high computational cost, see e g [27, 38]. しかし、自己回帰モデルの欠点は、多段階サンプリングと高い計算コストによる複合誤差である(e g [27, 38])。
訳抜け防止モード: しかし、自己回帰モデルの欠点は、マルチステップサンプリングによる複合誤差と高い計算コストである。 e g [ 27 , 38 ] を参照。
Most existing models for time series prediction tend to ignore the temporal dependencies in sequences in the loss function, merely relying on certain specific network architectures, such as recurrent neural network (RNN) and 1D and 3D convolutional neural network (CNN), to capture the underlying dynamics, see e g [42, 4, 39, 47, 43]. 時系列予測の既存のモデルの多くは、損失関数のシーケンスにおける時間的依存関係を無視し、リカレントニューラルネットワーク(RNN)や1Dおよび3D畳み込みニューラルネットワーク(CNN)といった特定のネットワークアーキテクチャに依存しているだけであり、基礎となるダイナミクスをキャプチャするために、eg[42, 4, 39, 47, 43]を参照してください。 0.81
For this learning task, the loss function used to compare prediction and real evolution plays a crucial role. この学習タスクでは、予測と実際の進化を比較するのに使われる損失関数が重要な役割を果たす。 0.73
However, a loss function that is blind to the sequential nature of data will almost certainly disappoint. しかし、データのシーケンシャルな性質に盲目な損失関数は、ほぼ確実に失望するだろう。 0.70
Yoon et al [52] proposed TimeGAN to tackle this problem by introducing an auxiliary step-wise loss function to the original GAN objective, which indeed leads to more coherent and accurate predictions. Yoonら[52]は、元のGAN目標に補助的なステップワイズ損失関数を導入することで、この問題を解決するためにTimeGANを提案した。 0.56
More recently, the advances in the field of causal optimal transport (COT) have shown a promising direction for sequential modeling, see e g [7, 8, 35, 50]. より最近では、因果的最適輸送(cot)の分野における進歩はシーケンシャルモデリングに有望な方向を示している(eg [7, 8, 35, 50])。 0.70
This type of transport constrains the transport plans to respect temporal causality, in that the arrival sequence at any time t depends on the starting sequence only up to time t. In this way, at every time we only use information available up to that time, which is a natural request in sequential learning. このタイプの輸送計画では、任意の時刻 t における到着シーケンスは、時刻 t までの開始シーケンスに依存するため、時間的因果関係を尊重する。
訳抜け防止モード: この種の輸送は輸送計画に制約を与える 時間的因果関係を尊重する 任意の時刻における到着シーケンス t は、時刻 t までの開始シーケンスに依存する。 いつでも その時まで 利用可能な情報しか 使っていません。 これはシーケンシャルラーニングにおける 自然な要求です
This is the foundation of COT-GAN [50], where the training objective is tailored to sequential data. これがCOT-GAN[50]の基礎であり、トレーニング目標をシーケンシャルデータに合わせる。 0.66
This proved to be an efficient tool, leading to generation of high-quality video sequences. これは効率的なツールであることが証明され、高品質なビデオシーケンスの生成に繋がった。 0.60
Although the sharpness of single frames remains a challenge in video modeling, COT-GAN demonstrates that the evolution of motions can be reproduced in a smooth manner without further regularization. 単一フレームのシャープさはビデオモデリングの課題であり続けているが、COT-GANは運動の進化をさらに規則化することなく円滑に再現できることを示した。 0.62
Preprint. Under review. プレプリント。 レビュー中。 0.63
While COT-GAN is trained to produce sequences, the algorithm we propose here is learning conditional sequences, that is, how a sequence is likely to evolve given the observation of its past evolution. COT-GANは配列を生成するために訓練されているが、ここで提案するアルゴリズムは条件付きシーケンスを学習することである。
訳抜け防止モード: COT - GANはシーケンスを生成するために訓練されているが、ここで提案するアルゴリズムは条件付きシーケンスの学習である。 それは... 過去の進化を観察すれば シーケンスがどのように進化するかがわかります
For this task, we employ a modification of the empirical measure that was introduced by Backhoff et al [8] in the framework of adapted Wasserstein (AW) distance. 本研究では,backhoff et al [8] が適応wasserstein (aw) 距離の枠組みに導入した経験的尺度の修正を行った。 0.69
AW-distance is the result of an optimal transport problem where the plans are constrained to be causal in both direction (so-called bicausal optimal transport); see [35, 36]. aw距離は、計画が両方向(いわゆるバイカウス最適輸送)で因果となるように制約された最適輸送問題の結果である([35, 36]を参照)。 0.78
This turns out to be the appropriate distance to measure how much two processes differ, when we want to give importance to the evolution of information, see e g [9]. これは、2つのプロセスがどの程度異なるかを測定するのに適切な距離であることが判明しました。
訳抜け防止モード: これは、2つのプロセスがどれだけ異なるかを測定するのに適切な距離であることが判明した。 情報の進化を 重要視したい時です e[9]を見てください。
As noted in [36] and [8], the AW-distance between a distribution and the empirical measure of a sample from it may not vanish while the size of the sample goes to infinity. 36] と [8] で述べられているように、分布とサンプルからの経験的測度の間の距離は、サンプルのサイズが無限になる間は消えないかもしれない。 0.84
To correct for this, Pflug and Pichler [36] proposed a convoluted empirical measure with a scaled smoothing kernel, while Backhoff et al [8] suggested an adapted empirical measure obtained by quantizationboth aiming to smooth the empirical measure in some way in order to yield a better convergence. これを修正するために、Pflug と Pichler [36] はスケールした滑らかな核を持つ複雑な経験的測度を提案し、Backhoff らは[8] がより収束性を得るために、ある方法で経験的測度を滑らかにすることを目的とした量子化によって得られる適応的な経験的測度を提案した。 0.64
In this paper, we follow the approach of adapting the empirical measure by quantization as done in [8], and show that this quantized empirical measure improves the performance of conditional COT-GAN. 本稿では,[8]で行った量子化による経験的尺度の適応のアプローチに従い,この定量化された経験的尺度が条件付きCOT-GANの性能を向上させることを示す。 0.71
The process described above gives rise to quantized conditional COT-GAN. 上記のプロセスは、量子化された条件付きCOT-GANをもたらす。 0.53
The main contributions of the current paper can then be summarized as follows: 現在の論文の主な貢献は以下のとおりである。 0.62
• we extend the COT-GAN to a conditional framework, powered by an encoder-decoder style • COT-GAN を Encoder-decoder スタイルの条件付きフレームワークに拡張する。 0.77
generator structure; • we employ a new quantized empirical measure in the learning structure, which is a strongly 発電機構造; •我々は,学習構造に新しい量化経験的尺度を取り入れている。 0.78
consistent estimator with respect to COT; COTに関する一貫した推定器 0.61
• we show that our quantized conditional COT-GAN algorithm outperforms state-of-the-art • 量子化条件付きcot-ganアルゴリズムが最先端技術を上回ることを示す。 0.50
results for video prediction. ビデオ予測の結果です 0.64
2 Framework i=1 where T ∈ N We are given a dataset consisting of n i.i.d. 2 フレームワーク i=1 ここで T ∈ N は n i.i.d からなるデータセットを与えられる。 0.71
d-dimensional sequences (xi is the number of time steps and d ∈ N is the dimensionality at each time. d-次元列 (xi は時間ステップの数、d ∈ N は各時間における次元である。 0.85
This is thought of as a random sample from an underlying distribution µ on Rd×T , from which we want to extract other sequences. これは、Rd×T 上の基底分布 μ からランダムなサンプルとして考え、そこから他の配列を抽出したいと考える。 0.79
More precisely, we want to learn the conditional distribution of (xk+1, . より正確には、 (xk+1, ) の条件分布を学習したい。 0.76
. . , xT ) given (x1, . . . , xt ) が与えられた (x1, . 0.82
. . , xk) under µ, for any fixed k ∈ {1, . . . , xk) は μ の下、任意の固定 k ∈ {1, に対して。 0.82
. . , T − 1}. . . , T − 1} である。 0.83
In the application of video prediction, an entire video contains T frames, each of which has resolution d. The first k frames of the video are taken as an input sequence, and later frames from time k + 1 to T are the target sequence. ビデオ予測の応用において、ビデオ全体はtフレームを含み、それぞれ解像度dを有する。ビデオの最初のkフレームを入力シーケンスとし、後段の時間k+1〜tフレームをターゲットシーケンスとする。
訳抜け防止モード: ビデオ予測の応用において、ビデオ全体はtフレームを含む。 それぞれが分解能dを持っています ビデオの最初のkフレームを入力シーケンスとして取得する。 時間 k + 1 から t までの後のフレームは対象シーケンスである。
We will use the notation xs:t = (xs, ..., xt), for 1 ≤ s ≤ t ≤ T . 1 ≤ s ≤ t ≤ T に対して xs:t = (xs, ..., xt) という表記を用いる。 0.70
The conditional learning will be done via a conditional generative adversarial structure, based on a specific type of optimal transport tailored for distributions on path spaces, as introduced in the next section, in the wake of what is done in [50]. 条件付き学習は,[50]でなされたことをきっかけに,次の節で紹介されるように,パス空間上の分布用に調整された特定のタイプの最適移動手段に基づいて,条件付き生成的逆行構造によって行われる。 0.75
1, . . . , xi 1, . . . えっ? 0.74
T )n 3 Optimal Transport and Causal Optimal Transport Given two probability measures µ, ν defined on RD, D ∈ N, and a cost function c : RD × RD → R, the classical (Kantorovich) optimal transport of µ into ν is formulated as T)n 3 最適輸送と因果最適輸送 RD, D ∈ N 上で定義される2つの確率測度 μ, ν とコスト関数 c : RD × RD → R が与えられたとき、μ の ν への古典的(カントロビッチ)最適輸送は、ν への定式化される。 0.82
Wc(µ, ν) := inf Wc(μ, ν) := inf 0.85
Eπ[c(x, y)], Eπ[c(x, y)], 0.77
π∈Π(µ,ν) (1) where Π(µ, ν) is the set of probability measures on RD × RD with marginals µ, ν, which are called transport plans between µ and ν. π∈Π(µ,ν) 1(μ, ν) が RD × RD 上の確率測度の集合であり、その辺が μ, ν であり、これは μ と ν の間の輸送計画と呼ばれる。 0.89
Here c(x, y) is interpreted as the cost of transporting a unit of mass from x to y. Wc(µ, ν) is thus the minimal total cost to transport the mass µ to ν. ここで c(x, y) は質量の単位を x から y へ輸送するコストと解釈される: Wc(μ, ν) は質量 μ から ν へ輸送する最小の総コストである。 0.84
When c(x, y) is a distance function between x and y (usually (cid:107)x − y(cid:107)p for some 1 ≤ p < ∞), Wc(µ, ν) is known as Wasserstein distance or Earth mover distance. c(x, y) が x と y の間の距離函数(通常 (cid:107)x − y(cid:107)p が 1 ≤ p < ∞ であるとき、wc(μ, ν) は wasserstein distance あるいは earth mover distance として知られている。 0.93
We are interested in transports between path spaces, that is, D = d × T in the above notations. 上記の記法における経路空間、すなわち D = d × T 間の輸送に関心がある。
訳抜け防止モード: 私たちは経路空間、すなわち経路空間間の輸送に興味があります。 D = d × T である。
Since now there is a time component intrinsic in the space RD, we are adopting a particular kind of transport which is tailored for path spaces. 現在、空間RDに固有の時間成分が存在するため、経路空間に合わせた特定の種類の輸送が採用されている。 0.74
We denote by x = (x1, ..., xT ) and y = (y1, ..., yT ) the first and second half of the coordinates on Rd×T × Rd×T , respectively. x = (x1, ..., xT ) と y = (y1, ..., yT ) で、それぞれ Rd×T × Rd×T 上の座標の第1および第2の座標を表す。 0.78
A probability measure π on Rd×T × Rd×T is called causal transport plan if it satisfies the constraint Rd×T × Rd×T 上の確率測度 π は、制約を満たすならば因果輸送計画と呼ばれる。 0.87
π(dyt|dx1:T ) = π(dyt|dx1:t) π(dyt|dx1:T ) = π(dyt|dx1:t) 0.82
for all t = 1,··· , T − 1. すべての t = 1,··· , T − 1 に対して。 0.93
(2) 2 (2) 2 0.85
Intuitively, the probability mass moved to the arrival sequence at time t only depends on the starting sequence up to time t. The set of causal plans between µ and ν is denoted by ΠK(µ, ν), and restricting the space of transport plans in (1) to such a set gives rise to the causal optimal transport problem: 直感的には、t の到着順序に移動する確率質量は、時刻 t までの開始順序にのみ依存する。 μ と ν の間の因果計画の集合は tK(μ, ν) で表され、(1) における輸送計画の空間をそのような集合に制限することは因果最適輸送問題を引き起こす。 0.85
WK c (µ, ν) := WK c (μ, ν) := 0.85
inf π∈ΠK(µ,ν) inf πππk(μ,ν) 0.80
Eπ[c(x, y)]. eπ[c(x, y)] である。 0.88
(3) COT has already found wide application in dynamic problems in stochastic calculus and mathematical finance, see e g [2, 1, 3, 9, 8], and first numerical results are given in [3, 50]. (3) COTはすでに確率計算と数理ファイナンスにおける動的問題に広く応用されており、e g [2, 1, 3, 9, 8] を参照して、[3, 50] で最初の数値結果が与えられる。 0.76
In this section we will recall the main steps that led to the COT-GAN algorithm for sequential learning in Xu et al [50], and refer to Appendix A for the details. この節では、Xu et al [50]における逐次学習のCOT-GANアルゴリズムに繋がった主要なステップを思い出し、詳細はAppendix Aを参照しよう。 0.72
We then introduce a conditional version, called conditional COT-GAN (CCOT-GAN), suited for sequential prediction. 次に、逐次予測に適した条件付きCOT-GAN(CCOT-GAN)を導入する。 0.70
Solving (causal) optimal transport problems is typically computational costly for large datasets. 最適輸送問題の解法(因果的)は通常、大きなデータセットに対して計算コストがかかる。 0.63
One way to circumvent this challenge is to resort to approximations of transport problems by means of efficiently solvable auxiliary problems. この課題を回避する一つの方法は、効率的に解決可能な補助問題を用いて輸送問題の近似を利用することである。
訳抜け防止モード: この課題を回避する一つの方法は 効率的な解決可能な補助問題による輸送問題の近似を利用する。
Notably, Genevay et al [20] proposed the Sinkhorn divergence, which allows for the use of the Sinkhorn algorithm [15]. 特に、genevay et al [20] は、シンクホーンアルゴリズム [15] の使用を可能にするシンクホーンの発散を提案した。 0.69
The first observation is that (1) is the limit for ε → 0 of the entropy-regularized transport problems {Eπ[c(x, y)] − εH(π)}, 最初の観察は、(1) がエントロピー正規化輸送問題 {Eπ[c(x, y)] − εH(π)} の ε → 0 の極限であるということである。 0.87
Pc,ε(µ, ν) := inf Pc,ε(μ, ν) := inf 0.85
ε > 0, (4) ε > 0, (4) 0.85
π∈Π(µ,ν) where H(π) is the Shannon entropy of π. Denoting by πc,ε(µ, ν) the optimizer in (4), and by Wc,ε(µ, ν) := Eπc,ε(µ,ν)[c(x, y)] the resulting total cost, the Sinkhorn divergence is defined as π∈Π(µ,ν) H(π) は π のシャノンエントロピーである。 πc,ε(μ, ν) が (4) のオプティマイザであり、Wc,ε(μ, ν) := Eπc,ε(μ,ν)[c(x, y)] が結果として得られる総コストに対して、シンクホーンの発散は定義される。 0.91
(cid:99)Wc,ε(µ, ν) := 2Wc,ε(µ, ν) − Wc,ε(µ, µ) − Wc,ε(ν, ν). (cid:99)Wc,ε(μ, ν) := 2Wc,ε(μ, ν) − Wc,ε(μ, μ) − Wc,ε(ν, ν)。 0.86
Similarly, in a causal setting, we consider the entropy-regularized COT problems 同様に、因果設定では、エントロピー正規化cot問題を考える。 0.57
PK c,ε(µ, ν) := PK c,ε(μ, ν) := 0.85
inf π∈ΠK(µ,ν) inf πππk(μ,ν) 0.80
{Eπ[c(x, y)] − εH(π)}, Eπ[c(x, y)] − εH(π)}, 0.78
ε > 0, approximating (3). ε > 0, ほぼ(3)。 0.74
By using an equivalent characterization of causality (see Appendix A), this can be reformulated as a maximization over regularized transport problems with respect to a specific family of cost functions: 因果性の等価なキャラクタリゼーション(付録 a を参照)を用いることで、これはコスト関数の特定の族に関する正規化輸送問題に対する最大化として再構成することができる。 0.68
(5) (6) The family of costs CK(µ, c) is given by (5) (6) コスト CK(μ, c) の族が与えられる 0.79
(cid:40) CK(µ, c) := (cid:40) CK(μ, c) := 0.82
c(x, y) + PK c,ε(µ, ν) = c(x, y) + PK c,ε(μ, ν) = 0.85
sup cK∈CK(µ,c) sup cK~CK(μ,c) 0.83
PcK,ε(µ, ν). PcK,ε(μ, ν)。 0.75
J(cid:88) T−1(cid:88) j(cid:88) t−1(cid:88) 0.70
j=1 t=1 (cid:41) t (y)∆t+1M j(x) : J ∈ N, (hj, M j) ∈ H(µ) hj j=1 t=1。 (cid:41) t (y) =t+1M j(x) : J ∈ N, (hj, M j) ∈ H(μ) hj 0.67
(7) , (8) where ∆t+1M (x) := Mt+1(x1:t+1) − Mt(x1:t) and H(µ) is a set of functions depicting causality: H(µ) := {(h, M ) : h = (ht)T−1 t=1 ∈ M(µ), Mt ∈ Cb(Rd×t)}, with M(µ) being the set of martingales on Rd×T w.r.t. (7) , (8) H(μ) := {(h, M) : h = (ht)T−1 t=1 ∈ M(μ), Mt ∈ Cb(Rd×t)} であり、M(μ) は Rd×T w.r.t 上の有理数の集合である。
訳抜け防止モード: (7) , (8) t+1 M ( x ) : = Mt+1(x1 : t+1 ) − Mt(x1 : t ) H(μ ) は因果性を表す関数の集合である: H(μ ) : = { ( h, M ) : h = (ht)T−1 t=1 ∈ M(μ ) Mt ∈ Cb(Rd×t ) } で、M(μ ) は Rd×T w.r.t 上の有理数の集合である。
the canonical filtration and the measure µ, and Cb(Rd×t) the space of continuous, bounded functions on Rd×t. 正準フィルターと測度 μ と Cb(Rd×t) は Rd×t 上の連続有界函数の空間である。 0.70
This suggests the following as a robust version of the Sinkhorn divergence from (5) that takes into account causality: これは、因果性を考慮した (5) からのシンクホーンの発散の堅牢なバージョンとして下記を示唆する。 0.68
t=1 , ht ∈ Cb(Rd×t), M = (Mt)T t=1, ht ∈ Cb(Rd×t), M = (Mt)T 0.90
(cid:99)WcK,ε(µ, ν). (cid:99)WcK,ε(μ, ν)。 0.90
sup cK∈CK(µ,c) sup cK~CK(μ,c) 0.83
This is the distance used by the discriminator in COT-GAN [50] in order to evaluate the discrepancy between real data and generated one (up to a slightly different definition of Sinkhorn divergence, see Appendix A), and it is the one we will use in the current paper for sequential prediction. これは、COT-GAN[50]における判別器が実データと生成されたデータとの相違を評価するために使用する距離であり(シンクホーンの発散のわずかに異なる定義である Appendix A を参照)、現在の論文で私たちが逐次予測に使用する距離である。 0.76
Furthermore, [50] makes the two following adjustments needed to make computations feasible. さらに、[50]は、計算を可能にするために必要な2つの調整を行う。 0.68
First, rather than considering the whole set of costs in (8), in (7) we optimize over a subset CK(µ, c), by j=1 of dimension bounded by a fixed J ∈ N. Second, considering h := (hj)J まず、(8) におけるコスト全体の集合を考えるのではなく、(7) において、(μ, c) の部分集合 ck(μ, c) を固定 j ∈ n で有界な次元の j=1 で最適化する。 0.73
j=1 and M := (M j)J j=1 と M := (M j)J 0.98
3 3 0.85
instead of requiring M to be a martingale, we consider all continuous bounded functions and introduce a regularization term which penalizes deviations from being a martingale. M をマーチンゲールとする代わりに、すべての連続有界函数を考え、マーチンゲールから逸脱を罰する正規化項を導入する。
訳抜け防止モード: m をマルティンゲールとする代わりに、すべての連続有界関数を考える マーチンゲールであることから逸脱を罰する正規化用語を導入する。
For a mini-batch of size m, {xi サイズmのミニバッチに対してxi 0.67
i=1, sampled from the dataset, the martingale penalization for M is defined as データセットからi=1をサンプリングし、Mのマルティンゲーレのペナル化を定義する。 0.57
1:T}m pM((cid:98)µ) := 1:T}m pM((cid:98)μ) := 0.92
1 mT (cid:112)Var[M j] + η 1mT (cid:112)Var[M j] + η 0.89
1:t+1) − M j 1:t+1) − M j 0.94
t (xi 1:t) t (xi) 1:t) 0.89
(cid:12)(cid:12)(cid :12)(cid:12)(cid:12) , (cid:12)(cid:12)(cid :12)(cid:12) 0.92
M j t+1(xi Mj t+1(xi) 0.58
J(cid:88) T−1(cid:88) j(cid:88) t−1(cid:88) 0.70
(cid:12)(cid:12)(cid :12)(cid:12)(cid:12) m(cid:88) (cid:99)WcK ϕ ,ε((cid:98)µ,(cid:98)νθ) − λpMϕ2 (cid:12)(cid:12)(cid :12)(cid:12)(cid:88) (cid:99)WcK φ ,ε((cid:98)μ,(cid:98)νθ) − λpMφ2 0.85
t=1 ((cid:98)µ), t=1。 ((cid:98)μ) 0.67
where(cid:98)µ is the empirical measure corresponding to the mini-batch sampled from the dataset, Var[M ] ここで(cid:98)μはデータセットからサンプリングされたミニバッチに対応する経験的尺度であるVar[M ] 0.73
is the empirical variance of M over time and batch, and η > 0 is a small constant. m の時間とバッチにおける経験的分散であり、η > 0 は小さい定数である。 0.78
This leads to the following objective function for COT-GAN in [50]: これは[50]におけるCOT-GANの次の目的関数につながる。 0.62
j=1 i=1 where (cid:98)νθ is the empirical measure corresponding to the mini-batch produced by the generator, j=1 i=1 ここで (cid:98)νθ は発生器によって生成されるミニバッチに対応する経験的測度である。 0.59
parameterized by θ, hϕ1 and Mϕ2 represent the discriminator who learns the worst-case cost cK ϕ , parameterized by ϕ := (ϕ1, ϕ2), and λ is a positive constant (see Appendix A for details). θ によってパラメータ化され、hφ1 と Mφ2 は φ := (φ1, φ2) でパラメータ化され、λ は正の定数である(詳細は Appendix A を参照)。 0.80
We now extend the analysis developed in [50] to a conditional framework for sequence prediction. 現在,[50]で開発された解析を,シーケンス予測のための条件付きフレームワークに拡張する。 0.79
Given the past history of a sequence up to time step k, the aim of CCOT-GAN is learning to predict the evolution from time step k + 1 to T . 時間ステップ k までのシーケンスの過去の歴史を考えると、ccot-ganの目的は、時間ステップ k + 1 から t への進化を予測することである。
訳抜け防止モード: 時間ステップ k までのシーケンスの過去の履歴が与えられたとき CCOTの目的 - GANは学習している 時間ステップ k + 1 から T への進化を予測する。
As usual, the learning is done by stochastic gradient descent (SGD) on mini-batches. 通常のように、学習はミニバッチ上で確率勾配降下(SGD)によって行われる。 0.64
Given a sample {xi k+1:T}m from a distribution ζ (noise) on some latent space Z, we define the generator as a conditional model gθ, parameterized by θ, which predicts the future evolution ˆxi k+1:T ). ある潜在空間 Z 上の分布 φ (ノイズ) からのサンプル {xi k+1:T}m が与えられたとき、生成元を条件モデル gθ として定義し、θ でパラメータ化して将来の進化 xi k+1:T を予測する。 0.78
The prediction 1:k over the time dimension in k+1:T is then concatenated with the corresponding input sequence xi ˆxi order to be compared with the training sequence xi 1:T by the discriminator. そして、k+1:Tにおける時間次元上の予測1:kと対応する入力シーケンスxi xi順とを連結し、判別器によりトレーニングシーケンスxi1:Tと比較する。 0.85
We denote the empirical distributions of real and concatenated data by 我々は実データと連結データの経験的分布を表す。 0.75
i=1 from the dataset and a sample {zi データセットから i=1 とサンプル {zi 0.86
k+1:T = gθ(xi k+1:T = gθ(xi) 0.78
1:T}m 1:k, zi 1:T}m 1:k,zi 0.84
(9) m(cid:88) (9) m(cid:88) 0.85
(cid:98)µ := (cid:98)μ := 0.92
1 m (cid:98)νc 1m (cid:98)νc 0.76
m(cid:88) 1 m m(cid:88) 1m 0.82
where(cid:98)νc where(cid:98)νc 0.78
i=1. Following COT-GAN’s formulation of adversarial training, we arrive at the parameterized objective function for CCOT-GAN: i=1。 COT-GANの対人訓練の定式化に続いて、CCOT-GANのパラメータ化対象関数に到達する。 0.69
δxi , θ := δxi , θ := 0.83
1:T i=1 1:k,ˆxi θ incorporates the parameterization of gθ through {ˆxi k+1:T}m ((cid:98)µ). 1:T i=1 1:k, xi θ は { xi k+1:T}m ((cid:98)μ) を通して gθ のパラメータ化を組み込む。 0.73
1:k}m k+1:T}m 1:k}m k+1:T}m 1.00
(cid:99)WcK ϕ ,ε((cid:98)µ,(cid:98)νc (cid:99)WcK φ ,ε((cid:98)μ,(cid:98)νc 0.88
θ) − λpMϕ2 θ) − λpMφ2 0.74
i=1 δconcat(xi i=1 δconcat(xi) 0.68
k+1:T ), In the implementation of CCOT-GAN, the generator gθ is broken down into two components: an encoder that learns the features of input sequences {xi i=1 and a decoder that predicts future evolutions given the features of inputs and noise {zi i=1. k+1:T)。 CCOT-GAN の実装では、ジェネレータ gθ は入力シーケンス {xi i=1 の特徴を学習するエンコーダと、入力とノイズ {zi i=1 の特徴から将来の進化を予測するデコーダの2つのコンポーネントに分けられる。 0.79
The discriminator role is played by hϕ1 and Mϕ2, which are parameterized separately by two neural networks that respect temporal causality. 判別器の役割はhφ1とMφ2によって演じられ、時間的因果関係を尊重する2つのニューラルネットワークによって別々にパラメータ化される。 0.58
These can take the shape of RNNs or 1D or 3D CNNs that are constrained to causal connections only, see Appendix B for details. これらは、因果接続のみに制約されたRNNまたは1Dまたは3D CNNの形を取ることができる。 0.70
We maximize the objective function (10) over ϕ to θ, and minimize φ から θ 上の目的関数 (10) を最大化し、最小化する。 0.79
search for a robust (worst-case) distance between the two empirical measures(cid:98)µ and(cid:98)νc 2つの経験的測度(cid:98)μと(cid:98)νcの間のロバストな距離の探索 0.77
it over θ to learn a conditional model that produces plausible sequential prediction. 予測可能な逐次予測を生成する条件モデルを学ぶのにθを超える。 0.77
(10) 5 Adapted Empirical Measure and QCCOT-GAN (10) 適応的経験尺度とQCCOT-GAN 0.71
It was noted by Backhoff et al [8] and Pflug and Pichler [36] that the (classical) empirical measures are not necessarily consistent estimators with respect to distances originating from transport problems where transports plans respect causality constraints. Backhoff et al [8] と Pflug and Pichler [36] は、輸送計画が因果制約を遵守する輸送問題から生じる距離に関して、(古典的な)経験的測度は必ずしも一貫した推定器ではないことを指摘した。 0.76
The nested distance [35] or adapted Wasserstein distance [8] is the result of an optimal transport problem where plans are required to satisfy the causality constraint (2) as well as its symmetric counterpart, when inverting the role of x and y: ネスト距離 [35] または適応ワッサースタイン距離 [8] は、x と y の役割を反転させるとき、因果性制約 (2) と対称に対応するための計画が必要となる最適な輸送問題の結果である。 0.78
AWc(µ, ν) := inf(cid:8)Eπ[c(x, y)] : π ∈ ΠK(µ, ν), π(cid:48) ∈ ΠK(ν, µ)(cid:9) , AWc(μ, ν) := inf(cid:8)Eπ[c(x, y)] : π ∈ πK(μ, ν), π(cid:48) ∈ πK(ν, μ)(cid:9) , 0.96
(11) where π(cid:48)(dx, dy) = π(dy, dx). (11) ここで π(cid:48)(dx, dy) = π(dy, dx) となる。 0.87
Now, for any measure µ, and for the empirical measures(cid:98)µN relative to a random sample of size N さて、任意の測度 μ と経験的測度 (cid:98)μn に対して、大きさ n のランダムなサンプルに対して 0.78
from it, it is known (see e g [19]) that そこから(eg[19]参照)、それが知られている。 0.73
Wc(µ,(cid:98)µN ) → 0 Wc(μ,(cid:98)μN ) → 0 0.99
as N → ∞, N → ∞ である。 0.90
4 4 0.85
whereas [8, 36] observe that this is not necessarily true when substituting the Wasserstein distance Wc with the adapted Wasserstein distance AWc. 一方 [8, 36] は、ワッサーシュタイン距離 Wc を適応されたワッサーシュタイン距離 AWc に置き換えるとき、必ずしもそうではないことを観察する。
訳抜け防止モード: 一方 [8, 36] は これは必ずしもwasserstein距離wcをwasserstein距離awcと置換する場合に当てはまるものではない。
This is of course undesirable, in particular thinking of the fact that the discriminator will evaluate discrepancies between real and generated measure by relying on empirical measures of the respective minibatches, see Section 4 and [50]. これはもちろん望ましくないことであり、特に、判別器が各ミニバッチの実証測度に依存することにより、実測度と生成測度の相違を評価するという事実を考えると、第4節及び第50節を参照のこと。 0.55
In [8] and [36], two different ways of adapting the empirical measure are suggested: by smoothing using a scaled kernel and by a quantization technique, respectively. 8] と[36] では、それぞれスケールされたカーネルと量子化技術を用いて滑らか化することで、経験的測度に適応する2つの異なる方法が提案される。 0.78
We adopt the latter, as it gives optimal convergence rates when the data is high-dimensional (d ≥ 3) in comparison to the rates provided by Wasserstein distance, see [19]. 後者は、データが高次元(d ≥ 3)であるときに最適な収束率を与えるので、ワッサーシュタイン距離から得られる速度と比較すると、[19]を見よ。 0.73
Moreover, as pointed out in [8], since the kernelconvoluted empirical measures are not discrete, they may require further quantization. さらに、[8]で指摘されているように、核に反する経験的測度は離散的ではないため、さらなる量子化が必要である。 0.55
Definition 5.1. (Adapted empirical measure). 定義5.1。 (適応経験的尺度) 0.61
Let µ be any Borel probability measure on ([0, 1]d)T , and (xi)i∈N an i.i.d. μ を ([0, 1]d)T 上のボレル確率測度とし、(xi)i)N an i.i.d とする。 0.70
sample from it. Set r = (T + 1)−1 for d = 1 and r = (dT )−1 for d ≥ 2. サンプルだ r = (T + 1)−1 を d = 1 とし、r = (dT )−1 を d ≥ 2 とする。 0.67
For all N ≥ 1, partition the cube [0, 1]d into disjoint union of N rd sub-cubes with edges of length N−r. すべての N ≥ 1 に対して、立方体 [0, 1]d は、長さ N−r の辺を持つ N rd の部分キューブの不連結和に分割する。 0.68
Let φN : ([0, 1]d)T → ([0, 1]d)T map a sequence x1:T to the sequence u1:T , where, for every t, ut is the center of the sub-cube to which xt belongs. φN : ([0, 1]d)T → ([0, 1]d)T を列 x1:T を列 u1:T に写す。
訳抜け防止モード: φN : ( [ 0, 1]d)T → ( [ 0, 1]d) とする。 1]d)T はシーケンス x1 : T をシーケンス u1 : T, ここで、すべての t に対して ut は xt が属する部分立方体の中心である。
Then, for any N ∈ N, the adapted empirical measure is defined as すると、任意の N ∈ N に対して、適応された経験測度が定義される。 0.61
(We will drop the index N on φ and(cid:98)µA where there is no ambiguity on the size of the sample.) ( φ 上の指数 N と(cid:98)μA は、サンプルのサイズに曖昧さがない。)
訳抜け防止モード: (φ および(cid:98)μA 上の指数 N を落とします。 サンプルのサイズには曖昧さはありません)
i=1 δφN (xi i=1 δφN (xi) 0.63
1:T ). (12) 1:T)。 (12) 0.80
A demonstration of Definition 5.1 in 2D and 3D settings is shown in Figure 1. 図1に2Dおよび3D設定における定義5.1のデモを示す。 0.83
Figure 1: Illustration of adapted empirical measure, in the case T = 1 and N = 500000, for d = 2 (left) and d = 3 (right). 図1: T = 1 と N = 500000 の場合、d = 2 (左) と d = 3 (右) に対して、適応された経験測度の図式化。 0.79
The partition is indicated by cyan dash lines and the centroids by red dots. 分割はシアンダッシュラインで示され、セントロイドは赤い点で示される。 0.64
Any data point is mapped into the centroid of the sub-cube it belongs to. 任意のデータポイントは、それが属するサブキューブのセントロイドにマッピングされる。 0.69
(cid:98)µA (cid:98)μA 0.74
N := 1 N N(cid:88) N := 1N n(cid:88) 0.80
The following theorem is an immediate consequence of results proved in [8], under appropriate conditions on the cost c and on the measure µ, see Appendix B. Theorem 5.1. 以下の定理は [8] で証明された結果の即時的な結果であり、コスト c と測度 μ の適切な条件の下では、アペンディックス B. Theorem 5.1 を参照。 0.77
The adapted empirical measure is a strongly consistent estimator w.r.t. 適応的な経験測度は強い一貫した推定器 w.r.t である。 0.49
WK c , that is, Moreover, the following estimate for the rate of convergence holds: WK c、つまり、 さらに、以下の収束率の推定値が成り立つ。 0.67
lim N→∞WK c (µ,(cid:98)µA リム N→∞WK c(μ,(cid:98)μA 0.60
N )] ≤ C c (µ,(cid:98)µA N− 1 N )] ≤ C c (μ,(cid:98)μa ,n− 1 0.76
N− 1 N− 1 dT N−1 N−1 dT 0.72
T +1 E[WK N ) = 0 almost surely. T+1 E[WK] N ) = 0 はほぼ確実に成り立つ。 0.80
2T log(N + 1) 2T log(N + 1) 0.96
for d = 1 for d = 2 for d ≥ 3 d = 1 for d = 2 for d ≥ 3 の場合 0.86
(13) (14) for all N ≥ 1, where C is a positive constant that only depends on d, T , and on the Lipschitz-constant in (23). (13) (14) すべての N ≥ 1 に対して、C は d, T と (23) のリプシッツ定数にのみ依存する正の定数である。 0.81
Relying on this convergence result, we now introduce the quantized CCOT-GAN (QCCOT-GAN). この収束結果に基づいて、量子化されたCCOT-GAN(QCCOT-GAN)を導入する。 0.57
In fact, the principle behind the concept of adapted empirical measure coincides with that of vector quantization (VQ) [23], a data compression technique widely used in computer vision and signal processing, see e g [30, 21, 32]. 実際、適応経験測度の概念の背景にある原理はベクトル量子化(VQ)[23]と一致しており、これはコンピュータビジョンや信号処理で広く使われているデータ圧縮技術である。
訳抜け防止モード: 実際、適応的経験測度の概念の背後にある原理はベクトル量子化(VQ ) [23 ] の概念と一致する。 コンピュータビジョンと信号処理で広く使われているデータ圧縮技術 e g [ 30 , 21 , 32 ]
A typical VQ algorithm divides the grid into smaller blocks, 典型的なVQアルゴリズムは、グリッドを小さなブロックに分割する。 0.72
5 5 0.85
generates a discrete codebook (lookup table) using algorithms such as nearest neighbor, and maps values to discrete codes according to the codebook. 近辺のアルゴリズムを用いて離散コードブック(ルックアップテーブル)を生成し、コードブックに従って値を離散コードにマップする。 0.76
The difficulty of VQ incorporated in generative models lies in finding the optimal codebook that represents the original data. 生成モデルに組み込まれたVQの難しさは、元のデータを表す最適なコードブックを見つけることである。 0.74
Recent works [34, 37, 18] for image synthesis learn the codebook during training. 画像合成のための最近の研究[34, 37, 18]は、トレーニング中にコードブックを学習する。 0.66
In contrast, quantization in QCCOT-GAN is theoretically justified by Theorem 5.1, and the construction of the codebook for our purpose is guided by Definition 5.1. 対照的に、QCCOT-GANの量子化は理論上は Theorem 5.1 で正当化され、私たちの目的のためのコードブックの構築は Definition 5.1 でガイドされる。 0.65
Once a codebook is computed and stored before training starts, we can quantize the original data in real-time by トレーニング開始前にコードブックが計算され、保存されると、元のデータをリアルタイムで定量化できます。 0.71
ek = φ(xi ek = φ(xi) 0.97
t) where k = arg min t) k = arg min の場合 0.86
j ||xi t − ej||, j |xi t − ej|| 0.83
(15) and ej represents a code (a centroid of a block in our case) in the codebook. (15) ejはコードブック内のコード(私たちの場合のブロックのセントロイド)を表します。 0.74
In the context of QCCOT-GAN, we quantize the entire sequences in the mini-batches before computing the distance in (10). qccot-gan の文脈では、距離 (10) を計算する前にミニバッチのシーケンス全体を量子化する。 0.69
For a mini-batch {xi i=1 from the training data and the concatenated sequences {concat(xi 訓練データと連結列 {concat(xi) からのミニバッチ {xi i=1 について 0.78
i=1, we define the adapted empirical measures i=1 適応的経験尺度を定義する 0.71
1:T}m 1:k, ˆxi 1:T}m 1:k, sxi 0.84
k+1:T )}m (cid:98)µA := k+1:T )}m (cid:98)μA := 0.85
m(cid:88) i=1 m(cid:88) i=1 0.71
1 m (cid:98)νc,A 1m (cid:98)νc,A 0.81
θ := 1 m m(cid:88) θ := 1m m(cid:88) 0.83
i=1 δφ(xi i=1 δφ(xi) 0.68
1:T ), δφ(concat(xi 1:T)。 δφ(concat(xi) 0.78
1:k,ˆxi k+1:T )). 1:k,-xi k+1:T)。 0.87
Therefore, the objective function of QCCOT-GAN at the level of minibatches is computed on the したがって、ミニバッチのレベルでのQCCOT-GANの目的関数を計算する。 0.79
adapted empirical measures: (cid:99)WcK ((cid:98)µA). 適応型経験的尺度 (cid:99)wck ((cid:98)μa)。 0.62
scales as O((J + 2d)2LT m2) in each iteration. 各イテレーションでo((j + 2d)2lt m2)にスケールする。 0.76
The distance(cid:99)WcK 距離(cid:99)WcK 0.92
We maximize the objective function over ϕ to search for a worst-case distance between the two adapted empirical measures, and minimize it over θ to learn a conditional distribution that is as close as possible to the real distribution. φ 上の目的関数を最大化し、2つの適応された経験的測度の間の最悪のケース距離を探索し、θ 上で最小化して実分布にできるだけ近い条件分布を学習する。 0.82
The algorithm is summarized in Algorithm 1. アルゴリズムはアルゴリズム1にまとめられている。 0.77
Its time complexity ) is approximated by the means of the Sinkhorn algorithm iteratively with a fixed number of iterations, see Appendix A. その時間複雑性 ) はシンクホーンアルゴリズムによって、一定回数の反復で反復的に近似される(Appendix A を参照)。 0.81
ϕ ,ε((cid:98)µA,(cid:98)νc,A φ ,ε((cid:98)μA,(cid:98)νc,A 0.90
ϕ ,ε((cid:98)µA,(cid:98)νc,A φ ,ε((cid:98)μA,(cid:98)νc,A 0.90
) − λpMϕ2 (16) ) −λpMφ2 (16) 0.76
θ θ Algorithm 1: training QCCOT-GAN by SGD Data: {xi Parameters: θ0, ϕ0 (initialization of parameters), m (batch size), ε (regularization parameter), α θ θ アルゴリズム1:SGDデータによるQCCOT-GANのトレーニング: {xi parameterss: θ0, φ0 (パラメータの初期化), m (バッチサイズ), ε (正規化パラメータ), α 0.86
i=1 (input data), ζ (probability distribution on latent space Z) (learning rate), λ (martingale penalty coefficient) i=1(入力データ)、/(潜在空間z上の確率分布)(学習率)、λ(マーチンゲールペナルティ係数) 0.74
1:T}n Compute(cid:99)WcK 1:T}n Compute(cid:99)WcK 0.87
Result: θ, ϕ Initialize: θ ← θ0, ϕ ← ϕ0 for b = 1, 2, . 結果: θ, φ 初期化: θ , θ0, φ , φ0 は b = 1, 2, である。 0.87
. . do 1:T}m k+1:T}m ϕ ,ε((cid:98)µA,(cid:98)νc,A k+1:T}m ϕ ,ε((cid:98)µA,(cid:98)νc,A . . do 1:T}m k+1:T}m φ ,ε((cid:98)μA,(cid:98)νc,A k+1:T}m φ ,ε((cid:98)μA,(cid:98)νc,A 0.87
Compute(cid:99)WcK Compute(cid:99)WcK 0.88
θ θ i=1 from real data; θ θ i=1 実データから; 0.83
Sample {xi Sample {zi Predict future sequences conditioned on inputs: (ˆxi Quantize the real and concatenated sequences: φ(xi サンプル {xi Sample {zi Predict future sequences conditioned on inputs: (xi Quantize the real and concatenated sequences: φ(xi) 0.87
i=1 from ζ; ) by the Sinkhorn algorithm; i=1 から。 ) シンクホーンアルゴリズムによる。 0.71
Update discriminator parameter: ϕ ← ϕ + α∇ϕ Sample {zi Predict future sequences conditioned on inputs: (ˆxi Quantize the real and concatenated sequences: φ(xi 識別器パラメータの更新: φ > φ + α φ sample {zi predict future sequences on inputs: (xi) (xi quantize the real and concatenated sequences: φ(xi) 0.92
i=1 from ζ; Update generator parameter: θ ← θ − α∇θ i=1 から。 更新生成器パラメータ:θ - θ - α-θ 0.76
) by the Sinkhorn algorithm; ) シンクホーンアルゴリズムによる。 0.68
k+1:T ) ← gθ(xi 1:T ), φ(concat(xi (cid:16)(cid:99)WcK ϕ ,ε((cid:98)µA,(cid:98)νc,A k+1:T ) ← gθ(xi 1:T ), φ(concat(xi (cid:16)(cid:99)WcK (cid:17) ϕ ,ε((cid:98)µA,(cid:98)νc,A k+1:t ), φ(concat(xi)(cid:16)( cid:99)wck φ ,ε((cid:98)μa,(cid:98)νc,a k+1:t ) , gθ(xi 1:t ), φ(concat(xi(cid:16)(c id:99)wck (cid:17) φ ,ε(((cid:98)μa,(cid:98)νc,a 0.94
) ; θ θ 1:k, zi ) ; θ θ 1:k,zi 0.85
k+1:T ); 1:k, ˆxi k+1:t ) 1:k, sxi 0.83
k+1:T )); (cid:17) ((cid:98)µA) k+1:T)。 (cid:17)(cid:98)μA) 0.80
; ) − λpMϕ2 ; ) −λpMφ2 0.76
1:k, zi k+1:T ); 1:k,zi k+1:t ) 0.83
1:k, ˆxi k+1:T )); 1:k, sxi k+1:T)。 0.80
end In the modern deep learning framework, learning by SGD requires all functions involved in the chain of computation to be differentiable, allowing the gradient to flow back via back-propagation. 終わり 現代のディープラーニングフレームワークでは、SGDによる学習は計算の連鎖に関わるすべての関数を微分可能とし、バックプロパゲーションを通じて勾配を逆流させる。 0.74
In the QCCOT-GAN algorithm, however, the argmin function in the quantization step (15) is nondifferentiable. しかし、QCCOT-GANアルゴリズムでは、量子化ステップ(15)におけるアルグミン関数は微分不可能である。 0.67
This means that the propagation of the gradient with respect to θ will not be possible. これは、θ に対する勾配の伝播は不可能であることを意味する。 0.72
6 6 0.85
We get around this issue by approximating the generator gradient using the straight-through estimator, see [51, 10]. ジェネレータの勾配をストレートスルー推定器で近似することでこの問題を回避する。 [51, 10] を参照。 0.67
When implementing QCCOT-GAN, we approximate the gradient with respect to θ by QCCOT-GANを実装する際、θ に関する勾配を近似する。 0.75
(cid:18)(cid:99)WcK ϕ ,ε((cid:98)µA,(cid:98)νc,A (cid:18)(cid:99)WcK φ ,ε((cid:98)μA,(cid:98)νc,A 0.85
θ ) −(cid:99)WcK θ ) −(cid:99)WcK 0.88
ϕ ,ε((cid:98)µ,(cid:98)νc φ ,ε((cid:98)μ,(cid:98)νc 0.92
θ) (cid:19)(cid:19) θ) (cid:19)(cid:19) 0.80
, (17) (cid:0)(cid:99)WcK ϕ ,ε((cid:98)µA,(cid:98)νc,A , (17) (cid:0)(cid:99)WcK φ ,ε((cid:98)μA,(cid:98)νc,A 0.85
θ )(cid:1) ≈ ∇θ θ (cid:1) である。 0.75
∇θ (cid:18)(cid:99)WcK ϕ ,ε((cid:98)µ,(cid:98)νc ∇θ (cid:18)(cid:99)WcK φ ,ε((cid:98)μ,(cid:98)νc 0.82
θ) + sg where sg(.) θ) + sg sg (複数形 sgs) 0.73
is the stop gradient operation, inside which gradient tracking for any computation is disabled. 任意の計算に対する勾配追跡が無効となる停止勾配演算である。 0.65
6 Related Work Video prediction is a very active area of research. 6 関連作業 ビデオ予測は非常に活発な研究分野である。 0.78
Methods relying on variational inference [13], e g SV2P [6], SVP-LP [16] and VTA [29], have shown promising results. 変分推論 [13], eg SV2P [6], SVP-LP [16], VTA [29] に依存する手法は有望な結果を示した。 0.76
The majority of adversarial models applied in this domain were trained on the original GAN objective [22] or the Wasserstein GAN objective [5]. この領域に適用される敵モデルの大部分は、元の gan objective [22] または wasserstein gan objective [5] で訓練された。 0.65
Most efforts have been devoted to designing specific architectures that tackle the spatio-temporal dependencies separately, e g [47, 39, 43, 14, 31, 46], and training schemes that facilitate learning, e g [31, 46, 4]. 多くの取り組みは、時空間依存に個別に対処する特定のアーキテクチャ、eg[47, 39, 43, 14, 31, 46]、eg[31, 46, 4]の学習を容易にするトレーニングスキームの設計に費やされている。 0.77
Whilst some works such as TGAN [39] and VGAN [47] combined a static content generator with a motion generator, others, e g [43, 14], designed two discriminators to evaluate the spatial and temporal components separately. TGAN [39] と VGAN [47] は静的コンテンツ生成器とモーション生成器を組み合わせた作品もあるが、eg [43, 14] は空間成分と時間成分を別々に評価する2つの識別器を設計した。 0.77
[31] explored a loss that measures gradient difference at frame level on top of an adversarial loss trained with a multi-scale architecture. [31]は,マルチスケールアーキテクチャで訓練した対向的損失の上に,フレームレベルでの勾配差を測定する損失を探索した。 0.78
As a result, better performance was achieved in comparison to a simple mean square error loss commonly used in the literature. その結果、文献でよく用いられる単純な平均2乗誤差損失と比較して、より良い性能が得られた。 0.73
MCnet [46] extended [31] by adopting convolutional long short-term memory (ConvLSTM) [41] in the networks. MCnet[46]はネットワークに畳み込み長短メモリ(ConvLSTM)[41]を採用することにより[31]を拡張した。 0.80
Alternatively, 3D CNN with progressively growing training scheme [28] was also shown to be successful by FutureGAN [4]. また, 段階的に成長するトレーニングスキーム[28]を持つ3D CNNもFutureGAN[4]で成功を収めた。 0.77
All above works depended on pixel-wise loss functions which do not take the sequential nature of video sequences into consideration. 上記のすべての作品は、ビデオシーケンスのシーケンシャルな性質を考慮していない画素単位の損失関数に依存している。 0.70
However, it may not be sufficient to rely solely on the network architecture to capture the temporal structure of data. しかし、データの時間構造を捉えるのにネットワークアーキテクチャのみに頼るだけでは十分ではないかもしれない。 0.75
An important development in time series synthesis and prediction is the identification of more suitable loss functions. 時系列合成と予測における重要な発展は、より適切な損失関数の同定である。 0.77
TimeGAN [52] combined the original GAN loss with a step-wise loss that computes the distance between the conditional distributions in a supervised manner. TimeGAN[52]は、元のGAN損失と、条件分布間の距離を教師付きで計算するステップワイズ損失を結合する。 0.71
By matching a conditional model to the real conditional probability p(xt|x1:t−1) at every time step, it explicitly encouraged the model to consider the temporal dependencies in the sequence. 条件モデルと実条件確率 p(xt|x1:t−1) を各時間ステップで一致させることで、列の時間的依存関係を考えるようモデルに強く促した。 0.77
In comparison, COT-GAN [50] explored a more natural formulation for sequential generation which leads to convincing results. 一方, COT-GAN [50] は逐次生成のためのより自然な定式化を探求し, 説得力のある結果を得た。 0.60
In addition, quantization techniques have gained popularity in deep generative models lately. また,近年,深層生成モデルにおいて量子化技術が普及している。 0.67
VQVAE [34] quantized the latent representations learned from an input image in the encoding process, and later reconstructed the image from discrete codes. VQVAE[34]は、符号化プロセスにおいて入力画像から学習した潜在表現を量子化し、後に離散コードから再構成した。 0.68
A subsequent work VQ-VAE-2 [37] moved on to a multi-scale hierarchical structure which allows the mapping of discrete codes from features learned by multiple layers. その後のVQ-VAE-2[37]は、複数の層によって学習された特徴から離散的なコードのマッピングを可能にする、マルチスケール階層構造に移行した。 0.61
In a similar spirit, VQ-GAN [18] converted learned features to discrete codes, but followed a GAN framework and employed a transformer [45] as their generator. 同様に、VQ-GAN [18]は学習した機能を離散コードに変換するが、GANフレームワークに従ってトランスフォーマー[45]をジェネレータとして使用した。 0.75
Both VQ-VAE-2 and VQ-GAN achieved state-of-the-art results for image generation. VQ-VAE-2とVQ-GANはどちらも画像生成のための最先端の結果を得た。 0.43
Although working in a different application area, we emphasize the difference in how we adopt quantization with respect to those two models: first, the quantization was applied to representations in the latent space in both models, whereas we adapt the sequences in the data space. まず、量子化は両方のモデルにおける潜在空間における表現に適用され、一方、データ空間におけるシーケンスは適用されます。
訳抜け防止モード: 異なるアプリケーション領域で作業する一方で、私たちはどのように違うのかを強調します。 この2つのモデルに関して量子化を 第一に、量子化は両方のモデルにおける潜在空間の表現に適用された。 一方、データ空間のシーケンスは順応します。
Second, the codebook in both models was learned during training, whereas it is pre-defined for QCCOT-GAN according to Definition 5.1. 第2に、両方のモデルのコードブックはトレーニング中に学習され、第5.1定義に従ってQCCOT-GAN用に事前定義された。 0.60
At last, the reason why quantization improved the results in VQ-VAE-2 and VQ-GAN is unclear. 最後に、量子化がVQ-VAE-2とVQ-GANの結果を改善した理由は不明である。
訳抜け防止モード: ついに理由は 量子化によるVQ-VAE-2とVQ-GANの結果の改善 不明です。
On the other hand, the improvement in convergence with the adapted empirical measures for QCCOT-GAN is supported by convergence results in causal optimal transport (Theorem 5.1). 一方、QCCOT-GANの適応的実証尺度による収束の改善は、因果的最適輸送の収束によって支持される(Theorem 5.1)。 0.77
7 Experiments We compare QCCOT-GAN to CCOT-GAN without quantization as an ablation study, to VGAN (Vondrick et al [47]), to FutureGAN (Aigner and Körner [4]), and to SVG-LP (Denton and Fergus [16]) as a non-adversarial baseline, on three well-established video prediction datasets. 実験7 我々は,QCCOT-GANとCCOT-GANをアブレーション研究として定量化せずに,VGAN (Vondrick et al [47]),FutureGAN (Aigner and Körner [4]),SVG-LP (Denton and Fergus [16]) と比較した。 0.70
In all our 2. Network architectures for 全員で2位。 ネットワークアーキテクチャ 0.53
experiments, the choice of cost function is c(x, y) = (cid:80) 実験では、コスト関数の選択は c(x, y) = (cid:80) 0.89
t (cid:107)xt − yt(cid:107)2 generator and discriminator and training details are given in Appendix C. t (cid:107)xt − yt(cid:107)2 generator and discriminator and training detailsは付録cで与えられる。 0.85
KTH Human Action Dataset. KTHヒューマンアクションデータセット。 0.67
The KTH Action video prediction dataset [40] contains 600 videos showing six types of human actions (humans walking, jogging, running, boxing, hand-waving, and kth action video prediction dataset [40]には、人間の6種類のアクション(歩行、ジョギング、ランニング、ボクシング、ハンドウォービング)を示す600のビデオが含まれている。 0.78
7 7 0.85
clapping). The length of the raw videos is up to 4 seconds with a frame rate of 25 per second and a resolution of 160 × 120. 拍手)。 生の動画の長さは最大4秒で、フレームレートは毎秒25、解像度は160×120である。 0.54
We discard the first 5 frames which are often blank, and consider the next 48 frames which are further downsampled to a resolution of 64 × 64. 私たちは、しばしば空白となる最初の5フレームを破棄し、64×64の解像度にさらにダウンサンプルされた次の48フレームを考えます。 0.74
Of those, we use the first 24 frames as inputs and the last 24 as the target sequence. これらのうち、最初の24フレームを入力として、最後の24フレームをターゲットシーケンスとして使用します。
訳抜け防止モード: そのうち、最初の24フレームを入力として使用します。 そして 最後の24は ターゲットシーケンス
The dataset is divided into training set (90%) and test set (10%). データセットはトレーニングセット(90%)とテストセット(10%)に分割される。 0.75
Samples quantized with various levels of fineness are illustrated in Figure C.2 in Appendix C, and results from QCCOT-GAN and the chosen baselines are included in Figure 2. Appendix C の図 C.2 では、様々なレベルの微細度で定量化されたサンプルが示され、QCCOT-GAN と選択されたベースラインの結果が図 2 に含まれている。 0.68
Figure 2: Selected samples trained on KTH human actions test set. 図2:KTHヒューマンアクションテストセットでトレーニングされたサンプルの選択。 0.70
Only the last 5 frames from the input sequence are shown, and the predictions are plotted every two frames. 入力シーケンスからの最後の5フレームのみが示され、予測は2フレーム毎にプロットされる。 0.75
The yellow line separates the predictions from their inputs. 黄色の線は、予測を入力から分離する。 0.78
The top line is a real sample from the test set. トップラインはテストセットの本当のサンプルです。 0.62
Results in Figure 2 demonstrate that SVG-LP, CCOT-GAN without quantization, and QCCOT-GAN successfully captured the spatial structure in the frames to detail. 図2では、SVG-LP、CCOT-GANは量子化せずに、QCCOT-GANはフレーム内の空間構造を詳細に捉えた。 0.63
However, predictions produced by SVG-LP lack of the evolution of motions, which is observed in the results from both KTH and Moving MNIST datasets (see results in Appendix C). しかし、SVG-LPによる予測では動きの進化が欠如しており、これはKTHと移動MNISTのデータセットから得られる(Appendix Cの結果を参照)。 0.73
This could be attributed to the fact that SVG-LP is conditioned on a single frame from the previous time step, which makes it impossible for the model to pick up any information about past evolution. これは、SVG-LPが以前のタイムステップから単一のフレームで条件付けられているため、モデルが過去の進化に関する情報を拾うことは不可能であるという事実による可能性がある。 0.76
It seems that any subtle movement of the objects is due to the randomness incorporated in the model, rather than coherent prediction learned from the data. オブジェクトの微妙な動きは、データから得られたコヒーレントな予測よりも、モデルに組み込まれたランダム性によるものと思われる。 0.78
Results for CCOT-GAN and QCCOT-GAN are visually close.We provide numerical evaluations on this dataset in Table 1. CCOT-GANとQCCOT-GANの結果は視覚的に近い。
訳抜け防止モード: CCOT - GANとQCCOT - GANは視覚的に近かった。 本データセットの数値評価は,表1で行う。
GQN Mazes. GQN Mazes所属。 0.75
The GQN Mazes was first introduced by [17] for training agents to learn their surroundings by moving around. gqn mazesは、まず[17]によって、周囲を移動して周囲を学習するための訓練エージェントとして紹介された。
訳抜け防止モード: GQN Mazesは[17 ]で最初に導入された。 周囲を動き回って 周囲を学べるように訓練する
The dataset contains random mazes generated by a game engine. データセットは、ゲームエンジンが生成するランダム迷路を含む。 0.73
A camera traverses one or two rooms with multiple connecting corridors in each maze. カメラは、各迷路に複数の接続廊下がある1つまたは2つの部屋を横切る。 0.63
The dataset comes with a training set that contains 900 sequences and a test set with a size of 120. データセットには900のシーケンスと120のサイズのテストセットを含むトレーニングセットが付属している。 0.84
The original sequences have a length of 300 and resolution of 84 × 84. オリジナルシーケンスの長さは300で、解像度は84×84である。 0.67
We select the first 48 frames and again downsample them to a resolution of 64 × 64. 最初の48フレームを選択し、それを64×64の解像度に分解する。 0.66
We evenly divided the training sequence of length 48 into input and target sequence. 長さ48のトレーニングシーケンスを入力シーケンスとターゲットシーケンスに均等に分割した。 0.67
Samples quantized with various level of fineness are illustrated in Figure C.3 in Appendix C, and results from QCCOT-GAN and the chosen baseline models are provided in Figure 3. Appendix C の図 C.3 に様々な微細度で定量化されたサンプルが示され、QCCOT-GAN と選択されたベースラインモデルの結果が図 3 に示されている。 0.74
Moving MNIST Dataset. MNISTデータセットの移動。 0.71
Moving MINST [42] contains two digits that move with velocities sampled uniformly in the range of 2 to 6 pixels per frame and bounce within the edges of each frame. 移動MINST[42]は、フレーム毎に2〜6ピクセルの範囲で一様にサンプリングされた速度で移動し、各フレームのエッジ内に跳ね返る2つの桁を含む。
訳抜け防止モード: MINST[42 ]を移動させる. 1フレームあたり2から6ピクセルの範囲で一様にサンプリングされた速度で動く2桁 それぞれのフレームの端にバウンスします
The dataset has 10000 sequences, of which we use 8000 for training and the rest for testing. データセットには10000のシーケンスがあり、トレーニングには8000、テストには残りを使用します。 0.75
Each video sequence contains 20 frames with resolution 64 × 64. 各ビデオシーケンスは解像度64×64の20フレームを含む。 0.80
We use the first 10 frames as input and the last 10 frames as target for prediction. 最初の10フレームを入力として、最後の10フレームを予測ターゲットとして使用します。 0.71
Figure C.1 in Appendix C illustrates the original data and the effect of quantization with various level of fineness. Appendix C の図 C.1 は、元のデータと様々なレベルの微細さによる量子化の効果を描いている。 0.66
All results are given in Appendix C. すべての結果は appendix c で示される。 0.82
Evaluation. The evaluation of sample quality in the domain of video prediction remains a challenge. 評価。 ビデオ予測領域におけるサンプル品質の評価は依然として課題である。 0.70
We evaluate the video predictions under six metrics: Structural Similarity index [48] (SSIM, higher is better), Peak Signal-to-Noise Ratio [25] (PSNR, higher is better), the Fréchet Inception Distance [24] (FID, lower is better) and the Fréchet Video Distance [44] (FVD, lower is better) and its kernel counterparts Inception Distance and Kernel Video Distance [12] (KID and KVD, lower is better). 構造的類似度指数[48] (SSIM, higher is Better), Peak Signal-to-Noise Ratio[25] (PSNR, higher is Better), Fréchet Inception Distance [24] (FID, lower is Better), Fréchet Video Distance [44] (FVD, lower is Better) およびカーネルのInception Distance [12] (KID, KVD, lower is Better) の6つの指標で映像予測を評価する。 0.75
8 8 0.85
Figure 3: GQN Mazes results on the test set. 図3: GQN Mazes はテストセットの結果を示します。 0.82
Only the last 5 frames from the input sequence are shown, and the predictions are plotted every two frames. 入力シーケンスからの最後の5フレームのみが示され、予測は2フレーム毎にプロットされる。 0.75
The yellow line separates the predictions from their inputs. 黄色の線は、予測を入力から分離する。 0.78
Table 1: Evaluations for video datasets. 表1:ビデオデータセットの評価。 0.78
Lower values in the metrics indicate better sample quality. メトリクスの低い値は、より優れたサンプル品質を示します。 0.60
FID 97.07 48.16 81.19 36.35. FID 97.07 48.16 81.19 36.35。 0.51
33.18 123.86 87.70 54.44 27.8 21.86 33.18 123.86 87.70 54.44 27.8 21.86 0.51
KID 0.098 0.052 0.062 0.048 0.041 KID 0.098 0.052 0.062 0.048 0.041 0.48
0.123 0.116 0.044 0.039 0.057 0.123 0.116 0.044 0.039 0.057 0.44
FVD 1092.63 411.43 560.80 191.92 188.54 FVD 1092.63 411.43 560.80 191.92 188.54 0.65
KVD SSIM PSNR 15.09 0.506 0.112 23.67 23.87 0.197 0.061 23.94 24.96 0.074 KVD SSIM PSNR 15.09 0.506 0.112 23.67 23.87 0.197 0.061 23.94 24.96 0.074 0.48
0.41 0.55 0.57 0.56 0.56 0.41 0.55 0.57 0.56 0.56 0.44
575.2 488.3 345.5 110.3 77.9 575.2 488.3 345.5 110.3 77.9 0.44
0.239 0.245 0.122 0.033 0.019 0.239 0.245 0.122 0.033 0.019 0.44
0.37 0.41 0.58 0.65 0.75 0.37 0.41 0.58 0.65 0.75 0.44
12.54 12.53 19.94 23.50 26.48 12.54 12.53 19.94 23.50 26.48 0.44
All models are evaluated on the test sets with 5000 generated samples. 全てのモデルは5000個のサンプルでテストセットで評価される。 0.82
The evaluation scores are reported in Table 1. 評価結果は表1に記載されている。 0.74
We can see that the CCOT-GAN and QCCOT-GAN outperform the baseline models on both datasets based on FID, KID, FVD and KVD. CCOT-GANとQCCOT-GANは、FID、KID、FVD、KVDに基づく両方のデータセットのベースラインモデルよりも優れています。 0.61
Moreover, QCCOT-GAN achieved the highest PSNR scores across all three datasets, while SVG-LP outperforms all models in SSIM scores on the Moving MNIST (see Appendix C) and KTH datasets. さらに、QCCOT-GANは3つのデータセットで最高のPSNRスコアを達成し、SVG-LPは移動MNIST(Appendix C参照)とKTHデータセットでSSIMスコアのすべてのモデルより優れている。 0.63
VGAN and FutureGAN failed to recover the underlying distribution, while SVG-LP struggled to produce coherent movements in the prediction. VGANとFutureGANは基盤となる分布を回復できず、SVG-LPは予測においてコヒーレントな動きを生み出すのに苦労した。 0.62
8 Discussion In the present paper we introduce QCCOT-GAN, the first algorithm for sequence prediction that is based on recently developed modifications of optimal transport specifically tailored for path spaces. 8 討論 本稿では,最近開発された経路空間に特化した最適トランスポートの修正に基づく,シーケンス予測のための最初のアルゴリズムであるqccot-ganを提案する。 0.72
For this we build on the results by Xu et al [50], where COT was first applied for sequential learning without prediction. このために、Xu et al [50] による結果に基づいて、COT を予測なしでシーケンシャルな学習に最初に適用した。 0.69
Our experiments show the ability of QCCOT-GAN to not only capture the spatial structure in the frames, but also learn the complex dynamics evolving over time. 実験では,qccot-ganがフレーム内の空間構造を捉えるだけでなく,時間とともに進化する複雑なダイナミクスを学習できることを示した。 0.76
A limitation of the QCCOT-GAN algorithm is the uncertainty brought by the gradient approximation using the straight-through estimator. QCCOT-GANアルゴリズムの制限は、ストレートスルー推定器を用いた勾配近似による不確実性である。 0.72
Differing from VQ-VAEs and VQGAN whose approximation only applies to the gradient with respect to the encoder parameters, QCCOT-GAN has to estimate that with respect to both encoder and decoder parameters. 近似がエンコーダパラメータの勾配にのみ適用されるVQ-VAEとVQGANから、QCCOT-GANはエンコーダパラメータとデコーダパラメータの両方についてそれを推定しなければならない。 0.80
To investigate the impact of gradient approximation, future work could explore alternative methods such as the REINFORCE algorithm [10], approximation using the Gumbel-Softmax distribution [26], and stochastic perturbation [11]. 勾配近似の影響を調べるため、将来の研究はREINFORCEアルゴリズム[10]、Gumbel-Softmax分布[26]、確率摂動[11]などの代替手法を検討することができる。
訳抜け防止モード: 勾配近似の影響を調べる。 今後の研究は、REINFORCEアルゴリズム[10 ]のような代替手法を探求するかもしれない。 Gumbel-Softmax分布による近似 [26 ] 確率的摂動[11]
9 9 0.85
We do not see any potential negative societal impacts of our work, neither coming from the methodology nor from direct potential applications. われわれの仕事の潜在的な負の社会的影響は見られず、方法論や直接的な応用からもたらされない。 0.73
We also do not see any potential ethical concern arising from the use of the proposed approach or applications thereof. また、提案されたアプローチやその適用から生じる潜在的な倫理的懸念も見当たらない。 0.60
Acknowledgments and Disclosure of Funding 資金調達の承認と開示 0.77
This material is based upon work supported by Google Cloud. この資料はGoogle Cloudがサポートする作業に基づいている。 0.78
References [1] B. Acciaio, J. Backhoff-Veraguas, and R. Carmona. 参照: [1] B. Acciaio, J. Backhoff-Veraguas, R. Carmona。 0.77
Extended mean field control problems: stochastic maximum principle and transport perspective. 拡張平均場制御問題:確率的最大原理と輸送の観点。 0.73
SIAM Journal on Control and Optimization, 57(6), 2019. SIAM Journal on Control and Optimization, 57(6), 2019。 0.75
[2] B. Acciaio, J. Backhoff-Veraguas, and A. Zalashko. [2] B. Acciaio, J. Backhoff-Veraguas, A. Zalashko 0.91
Causal optimal transport and its links to enlargement of filtrations and continuous-time stochastic optimization. 因果的最適輸送とその濾過拡大と連続時間確率最適化へのリンク 0.75
Stochastic Processes and their Applications, 2019. 確率的プロセスとその応用 - 2019年。 0.67
[3] B. Acciaio, J. Backhoff-Veraguas, and J. Jia. [3]B. Acciaio, J. Backhoff-Veraguas, J. Jia 0.90
Cournot-nash equilibrium and optimal transport in Cournot-nash平衡と最適輸送 0.84
a dynamic setting. ダイナミックな設定。 0.71
arXiv preprint arXiv:2002.08786, 2020. arXiv preprint arXiv:2002.08786, 2020 0.80
[4] S. Aigner and M. Körner. 4] s. aigner と m. körner。 0.78
Futuregan: Anticipating the future frames of video sequences arXiv preprint futuregan:arxivプレプリントによるビデオシーケンスのフレームの将来予測 0.72
using spatio-temporal 3d convolutions in progressively growing gans. 徐々に成長するガンに時空間の3d畳み込みを用いる。 0.54
arXiv:1810.01325, 2018. arXiv:1810.01325, 2018。 0.62
[5] M. Arjovsky, S. Chintala, and L. Bottou. M. Arjovsky, S. Chintala, L. Bottou. 0.64
Wasserstein generative adversarial networks. wassersteingenerativ e adversarial networks(英語) 0.72
In International conference on machine learning, pages 214–223. 院 機械学習に関する国際会議、214-223頁。 0.58
PMLR, 2017. 2017年、PMLR。 0.66
[6] M. Babaeizadeh, C. Finn, D. Erhan, R. H. Campbell, and S. Levine. M. Babaeizadeh, C. Finn, D. Erhan, R. H. Campbell, S. Levine. 0.82
Stochastic variational video prediction. 確率的変動ビデオ 予測だ 0.69
ICLR, 2017. ICLR、2017年。 0.88
[7] J. Backhoff, M. Beiglbock, Y. Lin, and A. Zalashko. J. Backhoff, M. Beiglbock, Y. Lin, A. Zalashko. 0.71
Causal transport in discrete time and 個別時間における因果輸送 0.73
applications. SIAM Journal on Optimization, 27(4):2528–2562, 2017. アプリケーション。 SIAM Journal on Optimization, 27(4):2528–2562, 2017 0.83
[8] J. Backhoff, D. Bartl, M. Beiglböck, and J. Wiesel. J. Backhoff, D. Bartl, M. Beiglböck, J. Wiesel. 0.73
Estimating processes in adapted Wasserstein 適応型wassersteinにおける推定過程 0.69
distance. arXiv preprint arXiv:2002.07261, 2020. 距離 arXiv preprint arXiv:2002.07261, 2020 0.63
[9] J. Backhoff-Veraguas, D. Bartl, M. Beiglböck, and M. Eder. J. Backhoff-Veraguas, D. Bartl, M. Beiglböck, M. Eder 0.74
Adapted Wasserstein distances and 適応ワッサーシュタイン距離と適応 0.52
stability in mathematical finance. 数学の金融の安定です 0.77
Finance and Stochastics, 24(3):601–632, 2020. 財政統計学、24(3):601-632、2020年。 0.62
[10] Y. Bengio, N. Léonard, and A. Courville. Y. Bengio, N. Léonard, A. Courville. 0.68
Estimating or propagating gradients through stochastic 確率的勾配の推定または伝播 0.73
neurons for conditional computation. 条件計算のためのニューロン。 0.61
arXiv preprint arXiv:1308.3432, 2013. arXiv preprint arXiv:1308.3432, 2013 0.81
[11] Q. Berthet, M. Blondel, O. Teboul, M. Cuturi, J.-P. Vert, and F. Bach. [11] Q. Berthet, M. Blondel, O. Teboul, M. Cuturi, J.-P. Vert, F. Bach. 0.89
Learning with differen- tiable perturbed optimizers. 違いのある学習 適度な摂動オプティマイザ。 0.57
arXiv preprint arXiv:2002.08676, 2020. arXiv preprint arXiv:2002.08676, 2020 0.81
[12] M. Bi´nkowski, D. J. Sutherland, M. Arbel, and A. Gretton. M. Bi ́nkowski, D. J. Sutherland, M. Arbel, A. Gretton. 0.90
Demystifying MMD GANs. MMD GANの略。 0.65
In ICLR, 2018. 院 ICLR、2018年。 0.63
[13] D. M. Blei, A. Kucukelbir, and J. D. McAuliffe. 13] D. M. Blei, A. Kucukelbir, J. D. McAuliffe 0.86
Variational inference: A review for statisticians. 変分推論:統計学者のレビュー。 0.69
Journal of the American statistical Association, 112(518):859–877, 2017. journal of the american statistical association, 112 (518):859–877, 2017年。 0.85
[14] A. Clark, J. Donahue, and K. Simonyan. A. Clark, J. Donahue, K. Simonyan. 0.67
Adversarial video generation on complex datasets. 複雑なデータセット上の逆ビデオ生成 0.74
arXiv preprint arXiv:1907.06571, 2019. arXiv preprint arXiv:1907.06571, 2019 0.81
[15] M. Cuturi. [15]M. Cuturi. 0.95
Sinkhorn distances: Lightspeed computation of optimal transport. シンクホーン距離:最適な輸送の光速計算。 0.85
In NeurIPS, 2013. 2013年、NeurIPSより。 0.80
[16] E. Denton and R. Fergus. 16] e. denton と r. fergus 0.72
Stochastic video generation with a learned prior. 学習済みの確率的ビデオ生成。 0.57
In International Conference on Machine Learning, pages 1174–1183. 海外では 機械学習会議』1174-1183頁。 0.70
PMLR, 2018. 2018年、PMLR。 0.68
[17] S. A. Eslami, D. J. Rezende, F. Besse, F. Viola, A. S. Morcos, M. Garnelo, A. Ruderman, A. S. A. Eslami, D. J. Rezende, F. Besse, F. Viola, A. S. Morcos, M. Garnelo, A. Ruderman, A. 0.91
A. Rusu, I. Danihelka, K. Gregor, et al Neural scene representation and rendering. A. Rusu, I. Danihelka, K. Gregor, et al Neural scene representation and rendering。 0.96
Science, 360 (6394):1204–1210, 2018. Science, 360 (6394):1204-1210, 2018。 0.83
10 10 0.85
[18] P. Esser, R. Rombach, and B. Ommer. 18] P. Esser, R. Rombach, B. Ommer 0.76
Taming transformers for high-resolution image synthesis. 高分解能画像合成のためのタンピングトランス 0.68
CVPR, 2021. CVPR、2021年。 0.80
[19] N. Fournier and A. Guillin. N. Fournier と A. Guillin. 0.68
On the rate of convergence in Wasserstein distance of the empirical 経験者のワッサーシュタイン距離における収束率について 0.67
measure. Probability Theory and Related Fields, 162(3):707–738, 2015. 測定。 確率論と関連分野, 162(3):707-738, 2015 0.75
[20] A. Genevay, G. Peyre, and M. Cuturi. [20]A. Genevay、G. Peyre、M. Cuturi。 0.83
Learning generative models with sinkhorn divergences. シンクホーン発散による生成モデル学習 0.72
In AISTATS, 2018. 2018年、AISTATS。 0.66
[21] A. Gersho and R. M. Gray. [21]A.GershoとR.M.Gray。 0.73
Vector quantization and signal compression, volume 159. ベクトル量子化と信号圧縮、ボリューム159。 0.79
Springer Science & Business Media, 2012. Springer 2012年、Science & Business Mediaに入社。 0.77
[22] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, [22]I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, 0.80
and Y. Bengio. そしてy. ベンジオ 0.66
Generative adversarial networks. 生成的敵ネットワーク。 0.74
NIPS, 2014. 2014年、NIPS。 0.91
[23] R. Gray. Vector quantization. 23]r.グレイ ベクトル量子化。 0.64
IEEE Assp Magazine, 1(2):4–29, 1984. IEEE Assp Magazine, 1(2):4-29, 1984 0.92
[24] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter. M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, S. Hochreiter. 0.80
GANs trained by a two time-scale update rule converge to a local nash equilibrium. 2人で訓練したガン 時間スケール更新規則は局所nash平衡に収束する。 0.63
In NeurIPS, 2017. 2017年、NeurIPS。 0.68
[25] Q. Huynh-Thu and M. Ghanbari. [25]Huynh-ThuとM.Ghanbari。 0.73
Scope of validity of psnr in image/video quality assessment. 画像・映像品質評価におけるpsnrの有効性の検討 0.62
Electronics letters, 44(13):800–801, 2008. 電子文、44(13):800-801, 2008 0.76
[26] E. Jang, S. Gu, and B. Poole. [26] e. jang, s. gu, b. poole。 0.79
Categorical reparameterization with gumbel-softmax. ガムベルソフトマックスによるカテゴリー再パラメータ化 0.57
ICLR, 2017. ICLR 2017. 0.67
[27] N. Kalchbrenner, A. Oord, K. Simonyan, I. Danihelka, O. Vinyals, A. Graves, and K. Kavukcuoglu. N. Kalchbrenner, A. Oord, K. Simonyan, I. Danihelka, O. Vinyals, A. Graves, K. Kavukcuoglu. 0.89
Video pixel networks. ビデオピクセルネットワーク。 0.71
In International Conference on Machine Learning, pages 1771–1779. 機械学習に関する国際会議、1771-1779頁。 0.72
PMLR, 2017. 2017年、PMLR。 0.66
[28] T. Karras, T. Aila, S. Laine, and J. Lehtinen. 28] t. karras, t. aila, s. laine, j. lehtinen. 0.77
Progressive growing of GANs for improved quality, 品質向上のためのGANの進歩的成長 0.81
stability, and variation. ICLR, 2018. 安定性と変動です ICLR、2018年。 0.77
[29] T. Kim, S. Ahn, and Y. Bengio. 29] t. kim、s. ahn、y. bengio。 0.66
Variational temporal abstraction. NeurIPS, 2019. 変分時間的抽象。 neurips、2019年。 0.66
[30] J. Makhoul, S. Roucos, and H. Gish. 30] j. makhoul、s. roucos、h. gish。 0.65
Vector quantization in speech coding. 音声符号化におけるベクトル量子化 0.66
Proceedings of the IEEE, 73(11):1551–1588, 1985. 議事録 IEEE, 73(11):1551–1588, 1985。 0.61
[31] M. Mathieu, C. Couprie, and Y. LeCun. [31]M. Mathieu, C. Couprie, Y. LeCun 0.83
Deep multi-scale video prediction beyond mean square 平均正方形を超えた深部マルチスケールビデオ予測 0.63
error. ICLR, 2016. 間違いだ ICLR、2016年。 0.68
[32] N. M. Nasrabadi and R. A. 32] n. m. nasrabadi と r. a. 0.84
King. Image coding using vector quantization: A review. King ベクトル量子化を用いた画像符号化: レビュー 0.66
IEEE Transactions on communications, 36(8):957–971, 1988. IEEE 通信に関するトランザクション 36(8):957–971, 1988。 0.85
[33] J. Oh, X. Guo, H. Lee, R. Lewis, and S. Singh. J. Oh, X. Guo, H. Lee, R. Lewis, S. Singh 0.73
Action-conditional video prediction using deep deepを用いたアクションコンディショナルビデオ予測 0.59
networks in atari games. アタリゲームのネットワーク。 0.55
NIPS, 2015. NIPS、2015年。 0.76
[34] A. v. d. Oord, O. Vinyals, and K. Kavukcuoglu. [34] A. v. d. Oord, O. Vinyals, K. Kavukcuoglu. 0.89
Neural discrete representation learning. ニューラルネットワークの離散表現学習。 0.55
NeurIPS, 2017. NeurIPS 2017. 0.66
[35] G. C. Pflug and A. Pichler. [35] G. C. Pflug と A. Pichler 0.96
A distance for multistage stochastic optimization models. 多段階確率最適化モデルのための距離 0.79
SIAM Journal on Optimization, 22(1):1–23, 2012. SIAM Journal on Optimization, 22(1):1–23, 2012 0.89
[36] G. C. Pflug and A. Pichler. [36] G. C. Pflug と A. Pichler 0.96
From empirical observations to tree models for stochastic optimiza- 経験的観察から確率的オプティミザのツリーモデルへ- 0.63
tion: convergence properties. tion: 収束特性。 0.70
SIAM Journal on Optimization, 26(3):1715–1740, 2016. SIAM Journal on Optimization, 26(3):1715–1740, 2016 0.93
[37] A. Razavi, A. v. d. Oord, and O. Vinyals. [37] A. Razavi, A. v. d. Oord, O. Vinyals. 0.90
Generating diverse high-fidelity images with VQ- VQを用いた多彩な高忠実度画像の生成- 0.50
VAE-2. NeurIPS, 2019. VAE-2。 neurips、2019年。 0.61
[38] S. Reed, A. Oord, N. Kalchbrenner, S. G. Colmenarejo, Z. Wang, Y. Chen, D. Belov, and N. Freitas. S. Reed, A. Oord, N. Kalchbrenner, S. G. Colmenarejo, Z. Wang, Y. Chen, D. Belov, N. Freitas. 0.93
Parallel multiscale autoregressive density estimation. 並列マルチスケール自己回帰密度推定 0.74
In International Conference on Machine Learning, pages 2912–2921. 国際機械学習会議において、2912-2921頁。 0.76
PMLR, 2017. 2017年、PMLR。 0.66
[39] M. Saito, E. Matsumoto, and S. Saito. M. Saito, E. Matsumoto, S. Saito. 0.67
Temporal generative adversarial nets with singular value 特異値をもつ時間的生成対向ネット 0.77
clipping. In ICCV, 2017. クリップだ 2017年、ICCV。 0.62
11 11 0.85
[40] C. Schuldt, I. Laptev, and B. Caputo. 40] c. schuldt, i. laptev, b. caputo. 0.72
Recognizing human actions: a local svm approach. 人間の行動を認識する:ローカルなsvmアプローチ。 0.68
In Proceedings of the 17th International Conference on Pattern Recognition, 2004. 第17回パターン認識国際会議(2004年)開催。 0.69
ICPR 2004., volume 3, pages 32–36. ICPR 2004, volume 3, 32–36。 0.79
IEEE, 2004. 2004年、IEEE。 0.71
[41] X. Shi, Z. Chen, H. Wang, D.-Y. [41]X. Shi, Z. Chen, H. Wang, D.-Y. 0.88
Yeung, W.-K. Wong, and W.-c. Yeung, W.K.Wong, W.C. 0.65
Woo. Convolutional LSTM network: A machine learning approach for precipitation nowcasting. ウー。 convolutional lstm network: 降水ノキャスティングのための機械学習アプローチ。 0.67
arXiv preprint arXiv:1506.04214, 2015. arXiv preprint arXiv:1506.04214, 2015 0.80
[42] N. Srivastava, E. Mansimov, and R. Salakhudinov. N. Srivastava, E. Mansimov, R. Salakhudinov 0.61
Unsupervised learning of video representations using LSTMs. LSTMを用いた映像表現の教師なし学習 0.72
In International conference on machine learning, pages 843–852. 機械学習に関する国際会議』853-852頁。 0.80
PMLR, 2015. 2015年、PMLR。 0.70
[43] S. Tulyakov, M.-Y. 43] S. Tulyakov, M.-Y。 0.87
Liu, X. Yang, and J. Kautz. Liu, X. Yang, J. Kautz。 0.85
Mocogan: Decomposing motion and content for Mocogan: 動作とコンテンツを分解する 0.77
video generation. In CVPR, 2018. ビデオ制作。 2018年、CVPR。 0.60
[44] T. Unterthiner, S. van Steenkiste, K. Kurach, R. Marinier, M. Michalski, and S. Gelly. 44]T. Unterthiner, S. van Steenkiste, K. Kurach, R. Marinier, M. Michalski, S. Gelly。 0.93
Towards accurate generative models of video: A new metric & challenges. ビデオの正確な生成モデルに向けて:新しいメトリクスと課題。 0.77
arXiv preprint arXiv:1812.01717, 2018. arXiv preprint arXiv:1812.01717, 2018 0.79
[45] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser 0.87
I. Polosukhin. I. Polosukhin 0.77
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
NeurIPS, 2017. neurips、2017年。 0.62
[46] R. Villegas, J. Yang, S. Hong, X. Lin, and H. Lee. [46] R. Villegas, J. Yang, S. Hong, X. Lin, H. Lee 0.93
Decomposing motion and content for natural 自然の運動と内容の分解 0.81
video sequence prediction. ビデオシーケンス予測。 0.71
ICLR, 2017. ICLR、2017年。 0.88
[47] C. Vondrick, H. Pirsiavash, and A. Torralba. 47] C. Vondrick, H. Pirsiavash, A. Torralba 0.77
Generating videos with scene dynamics. シーンダイナミクスでビデオを生成する。 0.74
In NeurIPS, 2016. 院 neurips、2016年。 0.54
[48] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli. [48] Z. Wang, A. C. Bovik, H. R. Sheikh, E. P. Simoncelli 0.90
Image quality assessment: from error visibility to structural similarity. 画像品質評価: エラー可視性から構造的類似性まで。 0.79
IEEE transactions on image processing, 13(4):600–612, 2004. IEEEによる画像処理のトランザクション 13(4):600–612, 2004。 0.81
[49] D. Weissenborn, O. Täckström, and J. Uszkoreit. 49] D. Weissenborn, O. Täckström, J. Uszkoreit 0.75
Scaling autoregressive video models. 自動回帰ビデオモデルのスケーリング。 0.67
ICLR, 2020. ICLR 2020. 0.67
[50] T. Xu, L. K. Wenliang, M. Munn, and B. Acciaio. [50]T.Xu,L.K.Wenliang,M. Mnn,B.Acciaio。 0.67
COT-GAN: Generating Sequential Data via COT-GAN:シーケンスデータの生成 0.78
Causal Optimal Transport. In NeurIPS, 2020. 因果的最適輸送 2020年、NeurIPS。 0.64
[51] P. Yin, J. Lyu, S. Zhang, S. Osher, Y. Qi, and J. Xin. [51]P.Yin、J.Lyu、S.Zhang、S.Osher、Y.Qi、J.Xin。 0.78
Understanding straight-through estimator ストレートスルー推定器の理解 0.53
in training activation quantized neural nets. 量子化ニューラルネットのトレーニングで 0.60
ICLR, 2019. ICLR、2019年。 0.81
[52] J. Yoon, D. Jarrett, and M. van der Schaar. J. Yoon, D. Jarrett, M. van der Schaar. 0.63
Time-series generative adversarial networks. 時系列生成敵ネットワーク。 0.77
In NeurIPS. 2019. 院 NeurIPS 2019. 0.60
12 12 0.85
Quantized Conditional COT-GAN for Video Prediction: 映像予測のための量子条件COT-GAN 0.58
Supplementary material A Details on regularized Causal Optimal Transport 補足材料 正規化因果最適輸送の詳細 0.70
A.1 Sinkhorn algorithm A.1 Sinkhornアルゴリズム 0.74
πij = π(xi, yj), the Shannon entropy of π is given by H(π) := −(cid:80) πij = π(xi, yj) π のシャノンエントロピーは h(π) := −(cid:80) によって与えられる。 0.90
The entropy-regularized transport problems (4) is obtained by considering an entropic constraint. エントロピー正規化輸送問題(4)は、エントロピー制約を考慮して得られる。 0.66
For transport plans with marginals µ supported on a finite set {xi}i and ν on a finite set {yj}j, any π ∈ Π(µ, ν) is also discrete with support on the set of all possible pairs {(xi, yj)}i,j. 有限集合 {xi}i と ν を有限集合 {yj}j 上に有界な輸送計画に対して、任意の π ∈ π(μ, ν) もまた、すべての可能な対 {(xi, yj)}i,j の組の支持を持つ離散的である。 0.76
Denoting i,j πij log(πij). i,j πij log(πij)。 0.75
A transport plan in the discrete case can be considered as a table identified with a joint distribution. 離散の場合の輸送計画は、共同分布で識別されたテーブルとみなすことができる。 0.82
The intuition of imposing such a regularization is to restrict the search of couplings to tables with sufficient smoothness in order to improve efficiency. このような正規化を課す直感は、効率を向上させるために十分滑らかなテーブルへのカップリングの探索を制限することである。 0.69
When the measures are discrete, such a regularized optimal transport problem becomes easily solvable by using the Sinkhorn algorithm for a given number of iterations, say L, in order to approximate a solution to the Sinkhorn divergence (5), see [20] for detail. 測度が離散であれば、与えられた反復数、例えば L に対してシンクホーンアルゴリズムを用いて、シンクホーン発散 (5) の解を近似するために、そのような正規化された最適輸送問題は容易に解けるようになる。 0.70
Generally speaking, the stronger the regularization is (that is, the bigger the parameter ε is), the fewer number of iterations L is needed in order to yield a good approximation. 一般に、正則化が強ければ強いほど(すなわちパラメータ ε が大きければ大きいほど)、良い近似を得るためには反復数 L の数が少なくなる。 0.68
(cid:99)Wmix c, ((cid:98)µ,(cid:98)µ(cid:48),(cid:98)νθ,(cid:98)ν(cid:48) (cid:99)wmix (cid:98)μ,(cid:98)μ(cid:48),(cid:98)νθ,(cid:98)ν(cid:48) 0.98
A.2 Sinkhorn divergence at the level of mini-batches To correct the fact that Wc,ε(α, α) (cid:54)= 0, the Sinkhorn divergence proposed by Genevay et al [20] at the mini-batch level is written as A.2 Sinkhorn divergence at the level of mini-batches to correct the fact that Wc,ε(α, α) (cid:54)= 0, the Sinkhorn divergence proposed by Genevay et al [20] at the mini-batch level. 0.91
(cid:99)Wc,((cid:98)µ,(cid:98)νθ) := Wc,ε((cid:98)µ,(cid:98)νθ) − Wc,ε((cid:98)µ,(cid:98)µ) − Wc,ε((cid:98)νθ,(cid:98)νθ), (cid:99)wc(cid:98)μ,(cid:98)νθ) := wc,ε((cid:98)μ,(cid:98)νθ) − wc,ε((cid:98)μ,(cid:98)μ) − wc,ε((cid:98)νθ,(cid:98)νθ) 0.97
where the empirical measures(cid:98)µ and(cid:98)νθ correspond to mini-batch sampled from the dataset and that 実験測度(cid:98)μと(cid:98)νθはデータセットからサンプリングされたミニバッチに対応する。 0.71
produced by the model, respectively. それぞれモデルで作られています 0.67
This is an attempt to correct the bias introduced by the entropic regularization via eliminating the differences brought by the variations in both mini-batches of the real and generated samples. これは、エントロピー正則化によってもたらされたバイアスを、実および生成されたサンプルのミニバッチのばらつきによってもたらされる差をなくすことによって補正する試みである。
訳抜け防止モード: これはエントロピー正則化によるバイアスの補正の試みである。 mini - 実および生成されたサンプルのバッチのバリエーションによって生じる違いを排除する。
However, an experiment in [50] shows that the above formulation (18) failed to reduce the bias and recover the optimizer set up as a known quantity. しかし, [50] の実験では, 上記の定式化 (18) ではバイアスを低減できず, 既知量として設定されたオプティマイザを回収できなかった。 0.71
Therefore, the authors propose the mixed Sinkhorn divergence, そこで著者らは混合シンクホーン発散を提案する。 0.56
(18) θ) := Wc,ε((cid:98)µ,(cid:98)νθ) + Wc,ε((cid:98)µ(cid:48),(cid:98)ν(cid:48) (18) θ) := Wc,ε((cid:98)μ,(cid:98)νθ) + Wc,ε((cid:98)μ(cid:48),(cid:98)ν(cid:48) 0.89
θ) − Wc,ε((cid:98)µ,(cid:98)µ(cid:48)) − Wc,ε((cid:98)νθ,(cid:98)ν(cid:48) θ) − Wc,ε((cid:98)μ,(cid:98)μ(cid:48)) − Wc,ε((cid:98)νθ,(cid:98)ν(cid:48) 0.93
(cid:99)W 6 c,((cid:98)µ, ,(cid:98)µ(cid:48),(cid:98)νθ,(cid:98)ν(cid:48) (cid:99)W 6 c,\((cid:98)μ, ,(cid:98)μ(cid:48),(cid:98)νθ,(cid:98)ν(cid:48) 0.98
where(cid:98)µ and(cid:98)µ(cid:48) correspond to different mini-batches from the dataset, and(cid:98)ν and(cid:98)ν(cid:48) from generated ここで(cid:98)μと(cid:98)μ(cid:48)はデータセットから異なるミニバッチに対応し、(cid:98)νと(cid:98)ν(cid:48)は生成される。 0.73
samples. Instead of considering the variations within a batch, the mixed Sinkhorn divergence reduces the bias by excluding the variations in different mini-batches from the same underlying distribution. サンプル バッチ内での変動を考慮する代わりに、混合シンクホーン発散は、同じ基底分布から異なるミニバッチの変動を除外することでバイアスを低減する。 0.60
Alternative mini-batch Sinkhorn divergences are also investigated in [50], for example, 例えば[50]では、代替のミニバッチシンクホーンダイバージェンスも研究されている。 0.69
θ), θ) = Wc,ε((cid:98)µ,(cid:98)νθ) + Wc,ε((cid:98)µ(cid:48),(cid:98)νθ) + Wc,ε((cid:98)µ,(cid:98)ν(cid:48) θ), θ) = Wc,ε((cid:98)μ,(cid:98)νθ) + Wc,ε((cid:98)μ(cid:48),(cid:98)νθ) + Wc,ε((cid:98)μ,(cid:98)ν(cid:48) 0.89
c, outperform all other formulations of mini-batch Sinkhorn divergence in both the low-dimensional c, is c, ... は、低次元 c, ... の両方において、ミニバッチ・シンクホーンの発散の他の全ての定式化よりも優れる。 0.36
+ Wc,ε((cid:98)µ(cid:48),(cid:98)ν(cid:48) c, and (cid:99)W 6 In sequential generation (without conditioning), the results in [50] suggest that (cid:99)Wmix c, produce equally good results,(cid:99)W 6 experiments and video generation. + Wc,ε((cid:98)μ(cid:48),(cid:98)ν(cid:48) c, および (cid:99)W 6 逐次生成(条件なし)では、[50]の結果は(cid:99)Wmix c, が等しく良い結果、(cid:99)W 6実験とビデオ生成をもたらすことを示唆している。 0.86
Although(cid:99)Wmix In the case of sequential prediction,(cid:99)W c,((cid:98)µ,(cid:98)νθ) is employed in the QCCCOT-GAN algorithm. しかし、(cid:99)Wmix 逐次予測の場合、QCCCOT-GAN アルゴリズムでは、(cid:99)Wc,\((cid:98 )μ,(cid:98)νθ) が用いられる。 0.76
Recall that(cid:98)νθ denotes the empirical measure of the concatenated sequences which share the input sequences two batches from the same distribution that do not coincide before time step k as(cid:98)µ and(cid:98)νθ do. ここで、(cid:98)νθ は、(cid:98)μ と(cid:98)νθ の時間ステップ k の前に一致しない同じ分布の2つのバッチの入力列を共有する連結列の経験的測度である。 0.74
Hence, we consider (cid:99)Wc,((cid:98)µ,(cid:98)νθ) a more appropriate objective function for prediction under the setting of したがって、(cid:99)Wc,\((cid:98 )μ,(cid:98)νθ) を設定の下で予測するより適切な目的関数と考える。 0.86
θ) − 2Wc,ε((cid:98)µ(cid:48),(cid:98)µ(cid:48)) − 2Wc,ε((cid:98)ν,(cid:98)ν(cid:48) c, and(cid:99)W 6 θ) − 2Wc,ε((cid:98)μ(cid:48),(cid:98)μ(cid:48)) − 2Wc,ε((cid:98)ν,(cid:98)ν(cid:48) c, および(cid:99)W 6 0.92
with the real sequences up to time step k. As a result, it is not sensible to account for the variations in 実数列は時間ステップ k までであり、その結果、変動を考慮に入れることは理にかなったものではない。 0.67
computationally more expensive because it requires two more terms in the computation. 計算にさらに2つの項が必要になるため、計算コストが高くなる。 0.59
θ) θ). QCCOT-GAN. θ) θ). QCCOT-GAN 0.83
13 13 0.85
A.3 An equivalent characterization of causality A.3 因果関係の等価な特徴付け 0.58
The expression (7) obtained in Section 4 relies on the following characterization of causality, proved in [7]: a transport plan π ∈ Π(µ, ν) is causal if and only if 第4節で得られた表現 (7) は、[7] で証明された因果性の次の特徴づけに依存している: 輸送計画 π ∈ π(μ, ν) が因果であることと同値であることは同値である。
訳抜け防止モード: 第4節で得られた表現(7)は、以下の因果性の特徴に依存している。 7]で証明される: 輸送計画 π ∈ >(μ, ν ) が因果であるとは、 そして もし
Eπ(cid:104)(cid:80)T−1 Eπ(cid:104)(cid:80)T−1 0.66
(cid:105) t=1 ht(y)∆t+1M (x) (cid:105) t=1 ht(y)-t+1m(x) 0.76
= 0 for all (h, M ) ∈ H(µ). すべての (h, M ) ∈ H(μ) に対して 0 である。 0.86
(19) With an abuse of notation we write ht(y), Mt(x), ∆t+1M (x) rather than ht(y1:t), Mt(x1:t), ∆t+1M (x1:t+1). (19) 表記の悪用により、ht(y)、Mt(x)、tt+1M(x)をht(y1:t)、Mt(x1:t)、tt+1M(x1:t+1)と書く。 0.80
A.4 Details about COT-GAN A.4 COT-GANの詳細 0.59
Adopting the mixed Sinkhorn divergence, COT-GAN is trained on the following objective function 混合シンクホーンの発散を応用したCOT-GANは次の目的関数に基づいて訓練される 0.49
(cid:99)Wmix,L (cid:99)Wmix,L 0.92
c, ((cid:98)µ,(cid:98)µ(cid:48),(cid:98)νθ,(cid:98)ν(cid:48) c,... (cid:98)μ,(cid:98)μ(cid:48),(cid:98)νθ,(cid:98)ν(cid:48) 0.68
θ) − λpMϕ2 θ) − λpMφ2 0.74
((cid:98)µ), ((cid:98)μ) 0.88
(20) J(cid:88) (20) j(cid:88) 0.81
T−1(cid:88) t−1(cid:88) 0.63
where L indicates the number of iterations required for approaching a solution to the mixed Sinkhorn divergence. ここで L は混合シンクホーン発散に対する解に近づくのに必要な反復数を表す。 0.74
To formulate an adversarial training algorithm for implicit generative models, COT-GAN approximates the set of functions (8) by truncating the sums at a fixed J, and parameterizes hϕ1 := (hj )J ϕ1 j=1 and Mϕ2 := (M j j=1 as two separate neural networks, and let ϕ := (ϕ1, ϕ2). 暗黙的生成モデルに対する敵対的トレーニングアルゴリズムを定式化するために、COT-GAN は、固定された J における和を割り引いて関数の集合 (8) を近似し、hφ1 := (hj )J φ1 j=1 と Mφ2 := (M j j=1 を2つの別々のニューラルネットワークとしてパラメータ化し、φ := (φ1, φ2) とする。 0.69
To capture the char)J ϕ2 acteristics of those processes, the choices of network architecture are restricted to those with causal connections only. これらのプロセスのJ φ2 の作用を捉えるために、ネットワークアーキテクチャの選択は因果接続のみを持つものに限定される。 0.75
The mixed Sinkhorn divergence is then calculated with respect to a parameterized cost function 混合シンクホーン発散はパラメータ化コスト関数に対して計算される 0.71
cK ϕ (x, y) := c(x, y) + cK φ (x, y) := c(x, y) + 0.85
hj ϕ1,t(y)∆t+1M j ϕ2 hj φ1,t(y),t+1m j φ2 0.75
(x), (21) where the cost function is chosen to be c(x, y) = (cid:107)x − y(cid:107)2 (x) (21) コスト関数が c(x, y) = (cid:107)x − y(cid:107)2 に選択される場合 0.79
While the generator gθ : Z → X is incorporated in(cid:98)νθ, the discriminator role in COT-GAN is played 生成元 gθ : Z → X が(cid:98)νθ に組み込まれている間、COT-GAN における判別役が演じられる
訳抜け防止モード: 生成元 gθ : Z → X は(cid:98)νθ に組み込まれる。 COT-GANにおける差別的役割が演じられる
by hϕ1 and Mϕ2. COT-GAN learns a robust (worst-case) distance between the real data distribution and the generated distribution by maximizing the objective (20) over ϕ, and a strong generator to fool the discriminator by minimizing the mixed divergence over θ. hφ1, Mφ2。 COT−GANは、φ上の目的(20)を最大化することにより、実データ分布と生成された分布との間のロバスト(ウォルストケース)距離を学習し、θ上の混合分散を最小化して判別器を騙す。 0.65
2 in COT-GAN. 2, COT-GAN。 0.72
j=1 t=1 B Specifics on QCCOT-GAN j=1 t=1。 QCCOT-GANのB種別 0.57
B.1 Adapted empirical measure B.1 適応経験尺度 0.68
The adapted empirical measure adopted for QCOT-GAN has been introduced by Backhoff et al [8] as a strongly consistent estimator with respect to a specific AW-distance. QCOT-GANに応用された経験的尺度は、Backhoffらにより、特定のAW距離に対する強い一貫した推定指標として導入された。 0.61
We recall here their main results. 主な結果はここにあります。 0.64
For a probability measure µ on Rd×T and 1 ≤ t ≤ T − 1, we denote by µ1 the first marginal of µ and by µx1,...,xt the disintegration of µ, that is Rd×T 上の確率測度 μ と 1 ≤ t ≤ T − 1 に対して、μ1 は μ の第一辺辺、μx1,...,xt は μ の分解を表す。
訳抜け防止モード: Rd×T 上の確率測度 μ と 1 ≤ t ≤ T − 1 に対して μ1 は μ の最初の限界であり、μx1, ..., xt によって示されます μ の分解、つまり
µ1(·) = Prob(X1 ∈ ·), µx1,...,xt(·) = Prob(Xt+1 ∈ ·|X1 = x1, ..., Xt = xt), μ1(·) = Prob(X1 ∈ ·), μx1,...,xt(·) = Prob(Xt+1 ∈ ·|X1 = x1, ..., Xt = xt) 0.94
for all (x1, ..., xt) ∈ Rd×t, where X is a process with law µ. すべての (x1, ..., xt) ∈ Rd×t に対して、X は法 μ の過程である。 0.86
Let us denote by AW1 the adapted Wasserstein distance relative to the cost function c1 : Rd×T × AW1 でコスト関数 c1 : Rd×T × に対する適応ワッサーシュタイン距離を示す。 0.66
Rd×T given by c1(x, y) :=(cid:80)T t=1 (cid:107)xt − yt(cid:107)1. c1(x, y) :=(cid:80)T t=1 (cid:107)xt − yt(cid:107)1で与えられるRd×T。 0.82
Then Theorems 1.3 and 1.5 in [8] read as Theorem B.1. 次に Theorems 1.3 と 1.5 in [8] を Theorem B.1 と読む。 0.72
The adapted empirical measure(cid:98)µA N→∞AW1(µ,(cid:98)µA 適応的経験尺度(cid:98)μA N→∞AW1(μ,(cid:98)μA 0.71
almost surely. N satisfies ほぼ確実に nが満足する 0.58
N ) = 0 lim Moreover, if µ has Lipschitz kernels in the sense that for every 1 ≤ t ≤ T − 1 the mapping N) = 0 リム さらに、μ が 1 ≤ t ≤ T − 1 に対して写像という意味でリプシッツ核を持つなら、 0.67
(x1, ..., xt) (cid:55)→ µx1,...,xt (x1, ..., xt) (cid:55)→μx1,...,xt) 0.98
is Lipschitz continuous リプシッツは連続的です 0.48
14 (22) (23) 14 (22) (23) 0.85
w.r.t. the classical Wasserstein distance, then there is a constant C > 0 (only dependent on d, T , and on the Lipschitz-constant) such that w.r.t. 古典的なワッサーシュタイン距離、そして定数 C > 0 が存在し(d, T およびリプシッツ=コンスタントにのみ依存する)、そのようなもの
訳抜け防止モード: w.r.t. 古典ワッサーシュタイン距離は、定数 c > 0 が存在する(d にのみ依存する)。 t , and on the lipschitz - constant ) that that
E[AW1(µ,(cid:98)µA E[AW1(μ,(cid:98)μA 0.92
N )] ≤ C N− 1 N )] ≤ C 1号機 0.53
N− 1 N− 1 dT N−1 N−1 dT 0.72
T +1 2T log(N + 1) T+1 2T log(N + 1) 0.85
for d = 1 for d = 2 for d ≥ 3 d = 1 for d = 2 for d ≥ 3 の場合 0.86
(24) for all N ≥ 1. (24) すべての N ≥ 1 に対して。 0.79
In order to deduce the results on WK WKの結果を推定するために 0.75
(25) for any probability measures µ, ν and any cost function c, given that the set of transports over which minimization is done for causal optimal transport is bigger than that for AW-distance, cf. (25)任意の確率測度 μ, ν および任意のコスト関数 c に対して、因果的最適移動のために最小化が行われる輸送の集合が aw 距離 cf よりも大きいことを仮定する。 0.86
(3) and (11). c stated in Section 5, notice that WK (3)及び(11) 第5節で述べたcは、WKが 0.62
c (µ, ν) ≤ AWc(µ, ν) c (μ, ν) ≤ AWc(μ, ν) 0.85
Proof of Theorem 5.1. Theorem 5.1 の証明。 0.77
With cost function c1, it immediately follows from Theorem B.1 and (25). コスト関数 c1 では、直ちに Theorem B.1 と (25) から従う。 0.89
The proof of Theorem B.1 relies on a dynamic programming representation for the value of the bicausal optimal transport problem, see [7]. Theorem B.1 の証明は、双極子最適輸送問題の値に対する動的プログラミング表現に依存している。
訳抜け防止モード: Theorem B.1の証明は、双極子最適輸送問題の値に対する動的プログラミング表現に依存している。 7]を見てください。
This can be generalized from c1 to cost functions c that are separable in the sense that they can be written as これは c1 からコスト関数 c へ一般化でき、それが書けるという意味で分離可能である。 0.76
T(cid:88) t=1 t(cid:88) t=1。 0.63
c(x, y) = ct(xt, yt), c(x, y) = ct(xt, yt) 0.77
for some functions ct on Rd×Rd. Rd×Rd 上のいくつかの関数 ct に対して。 0.57
For example, under the following modulus of continuity assumption on µ w.r.t. 例えば、次の μ w.r.t 上の連続性仮定のモジュラリティの下では、 0.60
c (generalizing the Liptchitz assumption above) Wct+1(µx1,...,xt, µy1,...,yt) ≤ L c(上述のリプチッツ仮定を一般化する) Wct+1(μx1,...,xt,μy1,...,yt) ≤ L 0.88
t(cid:88) cs(xs, ys), t(cid:88) cs(xs, ys) 0.77
AWc(µ, ν) = AWc(μ, ν) = 0.85
c1(x1, y1) + Wc2(µx1 , νy1 )γ(dx1, dy1) c1(x1, y1) + Wc2(μx1, νy1 )γ(dx1, dy1) 0.78
(cid:90) s=1 (cid:90) s=1 0.69
we have that for T = 2 there is C > 0 such that t = 2 に対して c > 0 となるようなものが存在する。 0.77
and for any T ∈ N there is C > 0 such that そして任意の T ∈ N に対して C > 0 が存在して 0.86
AWc(µ, ν) ≤ CWc1 (µ1, ν1) + C AWc(μ, ν) ≤ CWc1 (μ1, ν1) + C 0.99
inf γ∈Π(µ1,ν1) inf γ∈Π(µ1,ν1) 0.80
(cid:90) ≤ CWc1(µ1, ν1) + C (cid:90) T−1(cid:88) (cid:90) ≤ CWc1(μ1, ν1) + C (cid:90) T−1(cid:88) 0.76
Wc2(µy1 , νy1 )ν(dy), Wc2(μy1 , νy1 )ν(dy) 0.84
Wct+1(µy1,...,yt, νy1,...,yt)ν(dy). Wct+1(μy1,...,yt,νy1,...,yt)ν(dy)。 0.89
Based on these estimates, and following the lines of the proofs of Theorems 1.3 and 1.5 in [8], one これらの推定に基づいて、[8] における定理の証明 1.3 と 1.5 の行に従って、 0.78
arrives at different rates of convergence for E[AWc(µ,(cid:98)µA E[AWc(μ,(cid:98)μA の収束率が異なる値に到達する 0.81
t=1 N )] that depend on the cost function c. t=1。 コスト関数 c に依存します。 0.48
B.2 Codebook and quantization B.2 コードブックと量子化 0.67
In this section, we detail the computation of the codebook used in QCCOT-GAN, see Definition 5.1. 本稿では、QCCOT-GANで使用されるコードブックの計算について詳述する。
訳抜け防止モード: 本稿では、QCCOT - GANで使用されるコードブックの計算について詳述する。 定義 5.1 を参照。
Given N sequences with dimension d and length T , the number of sub-cubes is N rd, which is not necessarily an integer for r = (T + 1)−1 when d = 1 and r = (dT )−1 when d ≥ 2. 次元 d と長さ T の N 列が与えられたとき、部分キューブの数は N rd であり、d = 1 のとき r = (T + 1)−1 で d ≥ 2 のとき r = (dT )−1 であるとは限らない。 0.86
In the implementation, we first compute the number of partitions along one dimension by taking the ceiling function of the length of the entire cube (length of 1 in this case) divided by the length of the sub-cubes N−r, that is, 本実装では,まず,立方体全体の天井関数(この場合の1の長さ)をサブキューブN−rの長さで割ることで,一次元に沿った分割数を計算する。 0.74
where (cid:100). は (cid:100)。 0.73
(cid:101) indicates the ceiling function. (cid:101)は天井機能を表す。 0.74
Next, we find the end points of N p partitions, and then the mid-points of them which we store in the codebook as discrete codes. 次に、n pパーティションの終点を見つけ、その中間点をコードブックに離散符号として格納する。
訳抜け防止モード: 次に N p 分割の終点を求める。 そして、コードブックに格納するその中間のポイントを、個別のコードとして扱います。
Every dimension should have the same codes as the length of the すべての次元は長さと同じ符号を持つべきである 0.82
(26) (27) (28) (26) (27) (28) 0.85
N p = (cid:100) 1 N p = (cid:100) 1 0.94
N−r (cid:101), N−r (cid:101) 0.67
15 15 0.85
Table 2: Encoder and decoder architecture. 表2:エンコーダとデコーダアーキテクチャ。 0.71
Encoder Configuration input with shape with T × 4 × 4 × 256 エンコーダの構成 t×4×4×256の形状で入力する 0.73
convLSTM2D(N32, K5, S2, P=SAME), BN convLSTM2D(N64, K5, S2, P=SAME), BN convLSTM2D(N128, K5, S2, P=SAME), BN convLSTM2D(N256, K5, S2, P=SAME), BN output features f enc with shape T × 4 × 4 × 256 convLSTM2D(N32, K5, S2, P=SAME), BN convLSTM2D(N64, K5, S2, P=SAME), BN convLSTM2D(N128, K5, S2, P=SAME), BN convLSTM2D(N256, K5, S2, P=SAME), BN output features f enc with shape T × 4 × 4 × 256 0.85
Decoder Configuration z ∼ N (0, I), f enc デコーダの構成 z, n (0, i), f enc 0.73
convLSTM2D(N256, K5, S1, P=SAME), BN convLSTM2D(N256, K5, S1, P=SAME)BN 0.79
DCONV(N256, K2, S2, P=SAME), BN DCONV(N256,K2,S2,P=SAME)BN 0.85
convLSTM2D(N128, K9, S1, P=SAME), BN convLSTM2D(N128, K9, S1, P=SAME)BN 0.79
DCONV(N128, K4, S2, P=SAME), BN DCONV(N128, K4, S2, P=SAME)BN 0.88
convLSTM2D(N64, K9, S1, P=SAME), BN convLSTM2D(N64, K9, S1, P=SAME)BN 0.79
DCONV(N64, K6, S2, P=SAME), BN DCONV(N64,K6,S2,P=SAME)BN 0.85
convLSTM2D(N32, K9, S1, P=SAME), BN convLSTM2D(N32, K9, S1, P=SAME)BN 0.79
DCONV(N3, K6, S2, P=SAME) DCONV(N3,K6,S2,P=SAME) 0.78
Input 1 2 3 4 5 入力 1 2 3 4 5 0.79
Input 0 1 2 3 4 5 6 7 入力 0 1 2 3 4 5 6 7 0.79
sub-cubes remains the same along every dimension. サブキューブはあらゆる次元で同じです。 0.68
This largely simplifies the computation of the codebook used in QCCOT-GAN. これはqccot-ganで使われるコードブックの計算を単純化する。 0.67
Once the codebook is computed, we can quantize the data by mapping each value to the nearest discrete code, as suggested in (15). コードブックが計算されると、(15) で提案されているように、各値を最寄りの離散コードにマッピングすることで、データを量子化することができる。
訳抜け防止モード: コードブックが計算されると、各値を最も近い離散コードにマッピングすることで、データを定量化できます。 は (15 ) で示される。
Parallel lookups available in the modern deep learning frameworks stream the quantization step very well on GPU architectures, and therefore lower the computational cost. 現代のディープラーニングフレームワークで利用可能な並列ルックアップは、GPUアーキテクチャ上で量子化ステップを非常によくストリーミングし、計算コストを下げる。 0.67
For data with extremely high dimensionality and long length, we would recommend to quantize the real dataset and store the discrete codes prior to training. 非常に高次元で長いデータに対しては、トレーニング前に実際のデータセットを定量化し、個別のコードを格納することを推奨します。 0.68
However, in our experiments, the computation cost of quantization did not cause concerns. しかし,本実験では,量子化の計算コストが問題にならなかった。 0.81
We therefore applied quantization to both real and generated batches in real-time computing. そこで我々は,実時間計算と実時間計算の両方に量子化を適用した。 0.60
Finally we point out a situation where quantization may cause issues. 最後に、量子化が問題を引き起こす可能性のある状況を指摘する。 0.62
When a given dataset has a wide spread of values, quantization according to Definition 5.1 may emphasize the key messages and ignore details in the data, see examples in Figures 5 and 6. 与えられたデータセットに広範な値の拡散がある場合、定義5.1による量子化はキーメッセージを強調し、データの詳細を無視して、図5と6の例を参照してください。 0.71
On the other hand, if the data is binary or the spread of values is extremely narrow, such quantization may weaken, or even destroy, the pattern exhibited in the data, see an example in Figure 4. 一方、データがバイナリである場合や値のスプレッドが極めて狭い場合、量子化が弱めたり、破壊したりする可能性がある場合、そのデータに示されるパターンは図4の例を参照してください。 0.73
C Experiment details C.1 Network architectures and training details C 実験の詳細 C.1 ネットワークアーキテクチャとトレーニングの詳細 0.82
All three databases in the experiments share the same GAN architectures. 実験中の3つのデータベースはすべて、同じGANアーキテクチャを共有しています。 0.63
The generator is split into an encoder and a decoder, supported by convolutional LSTM (convLSTM). ジェネレータはエンコーダとデコーダに分割され、畳み込みLSTM(convLSTM)で支えられる。 0.64
The encoder learns both the spatial and temporal features of the input sequences, whereas the decoder predicts the future evolution conditioned on the learned features and a latent variable. エンコーダは入力シーケンスの空間的特徴と時間的特徴の両方を学習し、デコーダは学習した特徴と潜伏変数に基づいて将来の進化を予測する。 0.82
The features from the last encoding layer has a shape of 4 × 4 (height × width) per time step. 最後の符号化層の特徴は、時間ステップ毎に4×4(高さ×幅)の形状である。 0.83
A latent variable z is sampled from a multivariate standard normal distribution with the same shape as the features (same number of channels too depending on the model size). 潜在変数zを特徴量と同じ形状の多変量標準正規分布(モデルサイズにもよるチャネル数と同じ)からサンプリングする。 0.69
We then concatenate the features and latent variables over the channel dimension as input for the decoder. 次に,デコーダの入力としてチャネル次元上の特徴変数と潜時変数を結合する。 0.75
The encoder and decoder structures are detailed in Table 2. エンコーダ構造とデコーダ構造はテーブル2に詳述されている。 0.75
As the discriminator, the process h and M are parameterized with two separate networks that share the same structure, shown in Table 3. 判別器として、プロセスhとMは、表3に示すように、同じ構造を共有する2つの別々のネットワークでパラメータ化される。 0.72
In all tables, we use DCONV to represent a de-convolutional (convolutional transpose) layer. すべてのテーブルでは、dconvを使ってデコンボリューション(コンボリューション変換)層を表します。 0.69
The layers may have N filter size, K kernel size, S strides and P padding option. これらの層は、nフィルタサイズ、kカーネルサイズ、sストライド、pパディングオプションを持つことができる。 0.63
We adopt batch-normalization layers and the LeakyReLU activation function. バッチ正規化層とLeakyReLUアクティベーション関数を採用する。 0.68
All hyperparameter setting are the same for all three datasets except that the filter size is halved for the Moving MNIST dataset. すべてのハイパーパラメータ設定は、3つのデータセットで同じだが、フィルタサイズは移動MNISTデータセットで半分になる。 0.80
The KTH, GQN Mazes and moving MNIST datasets have a fixed length of 48, 48, and 20, respectively. KTH、GQN Mazes、移動MNISTデータセットはそれぞれ48、48、20である。 0.54
The maximum filter size in the convLSTM layer in the generator is 256 for KTH and GQN Mazes datasets and 128 for moving MNIST. ジェネレータ内のconvLSTM層の最大フィルタサイズは、KTHおよびGQN Mazesデータセットの256、MNISTを移動するための128である。 0.83
Although convLSTM is computationally costly, our model size is much smaller than the baseline models which often scale up to a filter size of 1024. convlstmは計算コストが高いが,フィルタサイズ1024までスケールアップすることが多いベースラインモデルに比べて,モデルサイズははるかに小さい。 0.80
For this reason, the computation time for the QCCOT-GAN experiments is similar to that for the baseline models. このため、QCCOT-GAN実験の計算時間はベースラインモデルと類似している。 0.64
16 16 0.85
Discriminator Configuration Table 3: Discriminator architecture. 判別器 構成 表3: 差別化アーキテクチャ。 0.67
64x64x3 Input 64x64x3 入力 0.56
0 1 2 3 4 5 6 0 1 2 3 4 5 6 0.85
CONV(N32, K5, S2, P=SAME), BN, LeakyReLU CONV(N64, K5, S2, P=SAME), BN, LeakyReLU CONV(N128, K5, S2, P=SAME), BN, LeakyReLU CONV(N32, K5, S2, P=SAME), BN, LeakyReLU CONV(N64, K5, S2, P=SAME), BN, LeakyReLU CONV(N128, K5, S2, P=SAME), BN, LeakyReLU 0.92
reshape to 3D array of shape (m, T, -1) as input for LSTM LSTMの入力として3次元形状(m, T, -1)に変換する 0.85
LSTM(state size = 128), BN LSTM (state size = 128), BN 0.76
LSTM(state size = 64) LSTM(state size = 32) LSTM (state size = 64) LSTM (state size = 32) 0.84
To guarantee convergence, we choose the lowest possible number of partitions N p for quantization without losing too much information. 収束を保証するため、量子化のための最小の分割数 n p を、情報が多すぎることなく選択する。 0.70
We set N p = 3 for the Moving MNIST and KTH datasets and N p = 2 for the GQN mazes. 我々は移動MNIST と KTH のデータセットに対して N p = 3 を、GQN の迷路に対して N p = 2 を定める。 0.79
During training, we apply exponential decay to the learning rate by ηt = η0rs/c where η0 is the initial learning rate, r is decay rate, s is the current number of training steps and c is the decaying frequency. トレーニング中, η0 が初期学習率, r が崩壊率, s が現在のトレーニングステップ数, c が減衰周波数である ηt = η0rs/c による学習率に指数的減衰を適用した。 0.86
In our experiments, the initial learning rate is 0.0005, decay rate 0.985, decaying frequency 10000, and batch size m = 8 for all datasets. 実験では,初期学習率は0.0005,減衰率0.985,減衰周波数10000,バッチサイズm=8であった。 0.73
We have λ = 1.0, ε = 0.8 and the Sinkhorn iterations L = 100 in all experiments. λ = 1.0, ε = 0.8 であり、すべての実験においてシンクホーン反復 L = 100 である。 0.72
We train QCCOT-GAN on a single NVIDIA Tesla V100 GPU on Google Cloud Platform. google cloud platform上のnvidia tesla v100 gpu上でqccot-ganをトレーニングします。 0.69
Each iteration takes roughly 0.4 second for the moving MNIST dataset, and 1.3 seconds for the KTH and GQN Mazes datasets. 各イテレーションは、移動中のMNISTデータセットで約0.4秒、KTHとGQN Mazesデータセットで1.3秒かかる。 0.68
Each experiment is run for around 100000 iterations. 各実験は約10万回実施されている。 0.66
For the Moving MNIST dataset, we use an autoregressive structure, which predicts one future step conditioned on the most recent past 10 steps, to boost performance, whilst multi-step prediction (predicts 24 frames conditioned on previous 24 frames) is done for KTH and GQN Mazes. 移動mnistデータセットでは,直近の10ステップで条件づけされた1つの将来のステップを予測する自己回帰構造を用いて,kthとgqn mazesに対してマルチステップ予測(前24フレームで条件付けされた24フレーム予測)を行う。 0.82
This is because we observe that the model tends to forget the static features in later steps of prediction on the test set of Moving MNIST. これは、モデルが移動mnistのテストセットで後の予測ステップで静的な特徴を忘れてしまう傾向があることを観察しているためである。 0.68
A possible explanation for this is that the quantization step in QCCOT-GAN weakens the features for this type of data. これは、QCCOT-GANの量子化ステップがこの種のデータの特徴を弱める可能性がある。 0.72
At last, we also adopt early stopping in order to avoid overfitting-caused poor results on the test sets in all experiments. 最終的に、すべての実験でテストセットが過度に悪い結果になるのを避けるために、早期停止も採用しました。 0.62
C.2 Quantization with multiple level of fineness c.2多レベル微細度量子化 0.70
We provide examples to illustrate the effect of quantization on the original Moving MNIST, KTH and GQN Mazes data for different levels of fineness depending on the number of sub-cubes N p. 我々は, サブキューブ n p の個数に応じて, 元の移動 mnist, kth, gqn mazes データに対する量子化の効果を示す例を示す。 0.66
Figure 4: Moving MNIST. 図4:MNISTの移動。 0.81
From top to bottom: original, quantized sequences for N p = 5, 3, and 2. 上から下へ: N p = 5, 3, 2 のオリジナル、量子化された列。 0.81
C.3 Results on Moving MNIST C.3 移動MNISTの結果 0.81
Unfortunately, the same evaluation metrics (FID, FVD, KID, and KVD) used for KTH human action and the GQN Mazes results become inappropriate when evaluating the Moving MNIST results. 残念なことに、KTHの人的行動とGQN Mazesの結果に使用される同じ評価指標(FID、FVD、KID、KVD)は、移動MNISTの結果を評価する際に不適切である。 0.64
This is because those metrics involve extracting features from the real and generated samples using 2D or 3D convolutional layers which are pre-trained on benchmark datasets that consist of colorful images これは、これらのメトリクスが、カラフルな画像からなるベンチマークデータセットで事前トレーニングされた2Dまたは3D畳み込み層を使用して、実および生成されたサンプルから特徴を抽出するからである。 0.56
17 17 0.85
Figure 5: KTH. From top to bottom: original, quantized sequences for N p = 5, 3, and 2. 図5:KTH。 上から下へ: N p = 5, 3, 2 のオリジナル、量子化された列。 0.78
Figure 6: GQN mazes. 図6: GQN 迷路。 0.66
From top to bottom: original, quantized sequences for N p = 5, 3, and 2. 上から下へ: N p = 5, 3, 2 のオリジナル、量子化された列。 0.81
Figure 7: Moving MNIST results on test set. 図7: テストセットでMNISTを移動します。 0.81
or videos with RGB channels. またはrgbチャンネルの動画です 0.76
However, the Moving MNIST dataset contains black and white (or gray) video sequences with a single channel. しかし、Moving MNISTデータセットには、白黒(またはグレー)のビデオシーケンスと単一のチャンネルが含まれている。 0.76
As a result, the features extracted from the pre-trained layers may not lead to a meaningful evaluation. その結果、事前学習した層から抽出された特徴は有意義な評価に至らない可能性がある。 0.58
Instead, we measure the quality of the Moving MNIST predictions using two alternative metrics: Structural Similarity index [48] (SSIM, higher is その代わり、構造類似度指数[48](SSIM, higher is)という2つの代替指標を用いて移動MNIST予測の品質を測定する。 0.78
18 18 0.85
Table 4: Evaluations for Moving MNIST datasets. 表4:MNISTデータセットの移動の評価。 0.83
Higher values in SSIM and PSNR indicate better sample quality. SSIMとPSNRのより高い値は、より優れたサンプル品質を示す。 0.61
Moving MNIST SSIM PSNR 0.40 12.18 14.59 0.49 0.75 16.10 12.17 0.40 16.14 0.70 移動MNIST SSIM PSNR 0.40 12.18 14.59 0.49 0.75 16.10 12.17 0.40 16.14 0.70 0.48
better) and Peak Signal-to-Noise Ratio [25] (PSNR, higher is better). とPeak Signal-to-Noise Ratio [25] (PSNR, higher is better)。 0.83
Results on the Moving MNIST dataset are presented in Figure 7 and Table 4. 移動MNISTデータセットの結果は図7と表4に示されています。 0.82
19 19 0.85

翻訳にはFugu-Machine Translatorを利用しています。