論文の概要、ライセンス

# (参考訳) 単一のビデオからの多様なビデオ生成 [全文訳有]

Diverse Video Generation from a Single Video ( http://arxiv.org/abs/2205.05725v1 )

ライセンス: CC BY 4.0
Niv Haim, Ben Feinstein, Niv Granot, Assaf Shocher, Shai Bagon, Tali Dekel, Michal Irani(参考訳) GANは、単一のビデオでトレーニングされた生成および操作タスクを実行することができる。 しかし、これらの単一のビデオGANは、単一のビデオでトレーニングするのに不合理な時間を必要とし、ほとんど実用的ではない。 本稿では,単一のビデオから生成するためのGANの必要性を問うとともに,様々な生成および操作タスクのための非パラメトリックベースラインを導入する。 我々は、古典的な時空パッチ・アレスト近傍アプローチを復活させ、学習することなくスケーラブルな無条件生成モデルに適用する。 この単純なベースラインは、視覚的品質と現実主義(量的および質的評価によって確認される)におけるシングルビデオganを驚くほど上回っており、不釣り合いに高速である(ランタイムは数日から数秒に短縮される)。 われわれのアプローチは簡単にフルHDビデオにスケールできる。 また、ビデオの類似や時空間再ターゲティングのデモにも、同じフレームワークを使用します。 これらの観察から、古典的なアプローチはこれらのタスクにおいて、重い深層学習機械を著しく上回っていることが分かる。 これにより、シングルビデオ生成と操作タスクの新たなベースラインが設定され、重要ではない – 単一のビデオからさまざまな生成が、初めて現実的に可能になった。

GANs are able to perform generation and manipulation tasks, trained on a single video. However, these single video GANs require unreasonable amount of time to train on a single video, rendering them almost impractical. In this paper we question the necessity of a GAN for generation from a single video, and introduce a non-parametric baseline for a variety of generation and manipulation tasks. We revive classical space-time patches-nearest-neig hbors approaches and adapt them to a scalable unconditional generative model, without any learning. This simple baseline surprisingly outperforms single-video GANs in visual quality and realism (confirmed by quantitative and qualitative evaluations), and is disproportionately faster (runtime reduced from several days to seconds). Our approach is easily scaled to Full-HD videos. We also use the same framework to demonstrate video analogies and spatio-temporal retargeting. These observations show that classical approaches significantly outperform heavy deep learning machinery for these tasks. This sets a new baseline for single-video generation and manipulation tasks, and no less important -- makes diverse generation from a single video practically possible for the first time.
公開日: Wed, 11 May 2022 18:36:48 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Diverse Video Generation from a Single Video 単一のビデオからの多様なビデオ生成 0.80
Niv Haim*, Ben Feinstein*, Niv Granot, Assaf Shocher, Shai Bagon, Tali Dekel and Michal Irani Niv Haim*, Ben Feinstein*, Niv Granot, Assaf Shocher, Shai Bagon, Tali Dekel, Michal Irani
訳抜け防止モード: Niv Haim *, Ben Feinstein *, Niv Granot, Assaf Shocher シャイ・バゴン、タリ・デケル、ミハル・イラン
0.70
Weizmann Institute of Science, Rehovot, Israel イスラエル・レホヴォットのワイツマン科学研究所 0.64
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] V C . s c [ ] 略称はC。 sc [ 0.39
1 v 5 2 7 5 0 1 v 5 2 7 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Figure 1. Given an input video (red), we generate similarly looking videos (black) capturing both appearance of objects as well as their dynamics. 図1に示す。 入力ビデオ(赤)が与えられた場合、オブジェクトの外観とダイナミクスの両方をキャプチャする類似したビデオ(黒)を生成する。 0.68
The diversity of the outputs is both spatially (e g , number of dancers and their positions are different from the input video) and temporally (generated dancers are not synced). 出力の多様性は空間的(例えば、ダンサーの数とその位置が入力ビデオと異なる)と時間的(生成したダンサーは同期しない)の両方である。 0.78
As we present video results, the reader is encouraged to check our supplementary material ビデオ結果を表示すると、読者は補足資料を確認することを勧められます 0.69
GANs are able to perform generation and manipulation tasks, trained on a single video. GANは、単一のビデオでトレーニングされた生成および操作タスクを実行することができる。 0.65
However, these single video GANs require unreasonable amount of time to train on a single video, rendering them almost impractical. しかし、これらの単一のビデオGANは、単一のビデオでトレーニングするのに不合理な時間を必要とし、ほとんど実用的ではない。 0.53
In this paper we question the necessity of a GAN for generation from a single video, and introduce a non-parametric baseline for a variety of generation and manipulation tasks. 本稿では,単一のビデオから生成するためのGANの必要性を問うとともに,様々な生成および操作タスクのための非パラメトリックベースラインを導入する。 0.80
We revive classical space-time patches-nearest-neig hbors approaches and adapt them to a scalable unconditional generative model, without any learning. 我々は、古典的な時空パッチ・アレスト近傍アプローチを復活させ、学習することなくスケーラブルな無条件生成モデルに適用する。 0.55
This simple baseline surprisingly outperforms single-video GANs in visual quality and realism (confirmed by quantitative and qualitative evaluations), and is disproportionately faster (runtime reduced from several days to seconds). この単純なベースラインは、視覚的品質と現実主義(量的および質的評価によって確認される)におけるシングルビデオganを驚くほど上回っており、不釣り合いに高速である(ランタイムは数日から数秒に短縮される)。 0.55
Our approach is easily 私たちのアプローチは 0.74
*Equal contribution 1 scaled to Full-HD videos. ※寄付等 1 フルhdビデオに拡大。 0.53
We also use the same framework to demonstrate video analogies and spatio-temporal retargeting. また、ビデオの類似や時空間再ターゲティングのデモにも、同じフレームワークを使用します。 0.49
These observations show that classical approaches significantly outperform heavy deep learning machinery for these tasks. これらの観察から、古典的なアプローチはこれらのタスクにおいて、重い深層学習機械を著しく上回っていることが分かる。
訳抜け防止モード: これらの観察は 古典的なアプローチは、これらのタスクのために、重大深層学習機械を著しく上回ります。
0.51
This sets a new baseline for single-video generation and manipulation tasks, and no less important – makes diverse generation from a single video practically possible for the first time. これにより、シングルビデオ生成と操作タスクのための新しいベースラインが設定され、重要ではない。
訳抜け防止モード: これは単一のビデオ生成と操作タスクのための新しいベースラインを設定する。 しかも重要なのは、単一のビデオからの多様な生成を、初めて実現可能にすることだ。
0.63
1. Introduction Generation and editing of natural videos remain challenging, mainly due to their large dimensionality and the enormous space of motion they span. 1. はじめに 自然ビデオの生成と編集は、主にその大きな次元と巨大な動き空間のために、依然として困難である。 0.57
Most modern frameworks train generative models on a large collection of videos, producing high quality results for only a limited class of videos. ほとんどの現代的なフレームワークは、ビデオの膨大なコレクションで生成モデルを訓練し、限られた種類のビデオに対して高品質な結果を生成する。 0.62
These include extensions of GANs [15] to video data [2, 25, 33, 39, 43, 47] and video-to-video translation [7, 11, 29, 44–46, 50], autoregressive sequence prediction [3, 5, 6, 12, 14, 40–42] and more. ビデオデータ [2, 25, 33, 39, 43, 47] への GAN [15] の拡張やビデオ間翻訳 (7, 11, 11, 29, 44–46, 50] 、自動回帰シーケンス予測 (3, 5, 6, 12, 14, 40–42) などである。 0.81
While externallytrained generative models produce impressive results, they are restricted to the types of video dynamics in their training set. 外部訓練された生成モデルは印象的な結果をもたらすが、トレーニングセット内のビデオダイナミクスの種類に制限される。 0.73
On the other side of the spectrum are single-video GANs. スペクトルの反対側はシングルビデオGANである。 0.64
These video generative models train on a single input video, learn its distribution of space-time patches, and are then able to generate a diversity of new videos with the same patch distribution [4, 17]. これらのビデオ生成モデルは、単一の入力ビデオでトレーニングし、その空間的パッチの分布を学習し、同じパッチ分布[4, 17]で新しいビデオの多様性を生成する。 0.75
However, these take very long time to train for each input video, making them applicable to only small spatial resolutions and to very short videos (typically, very few small frames). しかし、これらは入力ビデオごとにトレーニングするのに非常に時間がかかるため、小さな空間解像度と非常に短いビデオ(典型的にはごくわずかなフレーム)に適用できる。 0.81
Furthermore, their output oftentimes shows poor visual quality and noticeable visual artifacts. さらに、その出力はしばしば視覚的品質が悪く、目立った視覚的アーティファクトを示す。 0.65
These shortcomings render existing single-video GANs impractical and unscalable. これらの欠点は、既存のシングルビデオGANを非現実的でスケール不能にする。 0.37
Video synthesis and manipulation of a single video sequence based on its distribution of space-time patches dates back to classical pre-deep learning methods. 時空パッチの分布に基づく単一のビデオシーケンスの合成と操作は、古典的なプレディープ学習法に遡る。 0.66
These classical methods demonstrated impressive results for various applications, such as video retargeting [21, 32, 36, 49], video completion [19, 28, 48], video texture synthesis [10, 13, 20, 22–24] and more. これらの古典的手法は,ビデオ再ターゲティング [21, 32, 36, 49],ビデオ補完 [19, 28, 48],ビデオテクスチャ合成 [10, 13, 20, 22–24] など,様々な応用において印象的な結果を示した。 0.88
With the rise of deep-learning, these methods gradually, perhaps unjustifiably, became less popular. 深層学習の台頭とともに、これらの手法は、おそらく不公平に、徐々に普及しなくなった。 0.55
Recently, Granot et al [16] revived classical patchbased approaches for image synthesis, and was shown to significantly outperform single-image GANs in both runtime and visual quality. 最近,Granot et al [16] は画像合成のための古典的パッチベースのアプローチを復活させ,実行時と視覚的品質の両方において単一画像 GAN を大幅に上回った。 0.68
In light of the above-mentioned deficiencies of singlevideo GANs, and inspired by [16], we propose a fast and practical method for video generation from a single video 上述したシングルビデオGANの欠陥に着目し, [16] にインスパイアされた, 単一ビデオからの高速かつ実用的な映像生成法を提案する。 0.81
Generated #2Generated #1Input VideoGenerated #2Generated #1Input Video 生成#2 生成#1 入力ビデオ生成#2 生成#1 入力ビデオ 0.55
英語(論文から抽出)日本語訳スコア
that we term VGPNN (Video Generative Patch Nearest Neighbors). VGPNN (Video Generative Patch Nearest Neighbors) の略。 0.67
In order to handle the huge amounts of spacetime patches in a single video sequence, we use the classical fast approximate nearest neighbor search method PatchMatch by Barnes et al [8]. 1つのビデオシーケンスで膨大な時空パッチを処理するために、barnes et al [8] による古典的高速近似近傍探索法 patchmatch を用いる。 0.62
By adding stochastic noise to the process, our approach can generate a large diversity of random different video outputs from a single input video in an unconditional manner. このプロセスに確率的ノイズを加えることで、本手法は単一の入力ビデオから無作為な多様なビデオ出力を無条件で生成することができる。 0.75
Like single-video GANs, our approach enables the diverse and random generation of videos. シングルビデオGANと同様に、我々のアプローチは多様なランダムなビデオ生成を可能にする。 0.60
However, in contrast to existing single-video GANs, we can generate high resolution videos, while reducing runtime by many orders of magnitude, thus making diverse unconditional video generation from a single video realistically possible for the first time. しかし、既存のシングルビデオganとは対照的に、ランタイムを数桁削減しながら高解像度のビデオを生成することができ、単一のビデオから多種多様な無条件ビデオを生成することができる。 0.72
In addition to diverse generation from a single video, by employing robust optical-flow based descriptors we use our framework to transfer the dynamics and motions between two videos with different appearance (which we call “video analogies”). 単一のビデオからの多様な生成に加えて、ロバストな光フローベースのディスクリプタを使用することで、異なる外観を持つ2つのビデオ間でのダイナミックスとモーションを転送する(“ビデオアナログ”と呼ぶ)。 0.73
We also show the applicability of our framework to spatio-temporal video retargeting and to conditional video inpainting. また,時空間的ビデオ再ターゲティングや条件付きビデオインパインティングへのフレームワークの適用性を示す。 0.72
To summarize, our contributions are as follows: • We show that our space-time patch nearest-neighbors approach, despite its simplicity, outperforms single-video GANs by a large margin, both in runtime and in quality. 要約すると、我々のコントリビューションは以下のとおりである。 • 時間的パッチ 最寄りのアプローチは、その単純さにもかかわらず、実行時と品質の両方において、シングルビデオのganを大きなマージンで上回っている。 0.53
• Our approach is the first to generate diverse high resolu- •我々のアプローチは、多種多様な高分解能を生成する最初の方法である。 0.53
tion videos (spatial or temporal) from a single video. 単一のビデオから(空間的または時間的な)オプションビデオ。 0.70
• We demonstrate the applicability of our framework to other applications: video analogies, sketch-to-video, spatio-temporal video retargeting and conditional video inpainting. • フレームワークが他のアプリケーションに適用可能であることを示す: ビデオアナログ, スケッチ・トゥ・ビデオ, 時空間ビデオ再ターゲティング, 条件付きビデオインパインティング。 0.73
Our code and data will be released. コードとデータは公開されます。 0.75
2. Method Our main task is to generate diverse video samples based on a single natural input video, such that the generated outputs have similar appearance and motions as the original input video, but are also visually different from one another. 2.方法 私たちの主な仕事は、単一の自然な入力ビデオに基づいて多様なビデオサンプルを生成し、生成された出力は元の入力ビデオと類似した外観と動きを持つが、視覚的に異なる。 0.82
In order to capture both spatial and temporal information of a single video, we start by building a spatio-temporal pyramid and operate coarse-to-fine to capture the internal statistics of the input video at multiple scales. 単一ビデオの空間的・時間的情報の両方をキャプチャするために、時空間ピラミッドを構築し、粗大な操作を行い、複数のスケールで入力ビデオの内部統計をキャプチャする。 0.73
At each scale we employ a Video-Patch-Nearest- Neighbor module (VPNN); VGPNN is in fact a sequence of VPNN layers. それぞれのスケールで、VGPNNは実際にはVPNN層のシーケンスであるVideo-Patch-Nearest- Neighborモジュール(VPNN)を使用します。 0.66
The inputs to each layer depend on the application, where we first focus on our main application of diverse video generation. 各レイヤへの入力はアプリケーションに依存しており、まずはさまざまなビデオ生成のメインアプリケーションに焦点を当てています。 0.73
Given an input video x, we construct a spatio-temporal pyramid {x0 . . . , xN}, where x0 = x, and xn = xn−1↓r is a bicubically downscaled version of xn−1 by factor r (r = (rH , rW , rT ), where rH = rW are the spatial factors and rT is the temporal factor, which can be different). 入力されたビデオ x が与えられると、x0 = x であり、xn = xn−1\r は因子 r による xn−1 のbicublydownscaledバージョン(r = (rh , rw , rt )である時空ピラミッド {x0 . . . . , xn} を構成する(r = rw , rt )。
訳抜け防止モード: 入力ビデオ x が与えられた場合、時空間ピラミッド { x0 . x0 = x で xn = xn−1 は xn−1 の因子 r = ( rH, rW, rT ) で双対的にダウンスケールされたバージョンである。 rH = rW が空間因子であり rTは時間的因子である。 異なる場合がある)。
0.79
2 Figure 2. VGPNN Architecture: Given a single input video x0, a spatio-temporal pyramid is constructed and an output video y0 is generated coarse-to-fine. 2 図2。 VGPNNアーキテクチャ:単一の入力ビデオx0が与えられたとき、時空間ピラミッドを構築し、出力ビデオy0を粗大に生成する。 0.62
At each scale, VPNN module (Fig. 3) is applied to transfer an initial guess Qn to the output yn which shares the same space-time patch distribution as the input xn. 各スケールにおいて、初期推定Qnを入力xnと同じ時空間パッチ分布を共有する出力ynに転送するためにVPNNモジュール(図3)を適用する。 0.81
At the coarsest scale, noise is injected to induce randomness. 粗いスケールでは、ノイズはランダム性を引き起こすために注入される。 0.65
Multi-scale approach (Fig. 2): At the coarsest level, the input to the first VPNN layer is an initial coarse guess of the output video. マルチスケールアプローチ(図2):最も粗いレベルでは、第1vpnn層への入力は、出力されたビデオの最初の粗い推測である。 0.79
This is created by adding random Gaussian noise zN to xN . これは xN にランダムなガウスノイズ zN を加えることで生成される。 0.73
The noise zN promotes high diversity in the generated output samples from the single input. ノイズzNは、単一入力から生成された出力サンプルの多様性を高める。 0.80
The global structure (e g , a head is above the body) and global motion (e g , humans walk forward), is prompted by xN , where such structure and motion can be captured by small space-time patches. グローバルな構造(例えば頭は体の上にある)とグローバルな動き(例えば人間が前を歩く)はxNによって引き起こされ、そのような構造と動きは小さな時空パッチによって捉えられる。 0.77
Each space-time patch of the initial coarse guess (xN + zN ) is then replaced with its nearest neighbor patch from the corresponding coarse input xN . 初期粗推定(xN + zN )の各時空間パッチは、対応する粗入力 xN から最も近い隣接パッチに置き換えられる。 0.73
The coarsest-level output yN is generated by choosing at each space-time position the median of all suggestions from neighboring patches (known as “voting” or “folding”). 粗いレベルの出力 yN は、各時空位置において、近隣のパッチ("voting" または "folding" として知られる)からの全ての提案の中央値を選択して生成される。 0.65
At each subsequent level, the input to the VPNN layer is the upscaled output of the previous layer (yn+1 ↑r). その後のレベルでは、VPNN層への入力は前層のアップスケールされた出力である(yn+1 sr)。 0.68
Each space-time patch is replaced with its nearest neighbor patch from the corresponding input xn (using the same patch-size as before, now capturing finer details). 各時空のパッチは、対応する入力xnから最も近い隣のパッチに置き換えられる(以前と同じパッチサイズで、より詳細な情報を取得する)。 0.73
This way, the output yn in each level is similar in structure and in motion to the initial guess, but contains the same space-time patch statistics of the corresponding input xn. このようにして、各レベルにおける出力 yn は構造的にも動きも初期推測と似ているが、対応する入力 xn の時空パッチ統計は同じである。 0.84
The output yn is generated by median voting as described above. 出力ynは、上述の中央投票により生成される。 0.67
To further improve the quality and sharpness of the generated output at each pyramid level (yn), we iterate several times through the current level, each time using the current output yn as input to the current VPNN layer (similar to the EM-like approach employed in many patch-based works [e g , 8, 16, 36, 48]). 各ピラミッドレベルで発生した出力の品質とシャープさをさらに向上するため(yn)、現在のVPNN層への入力として現在の出力ynを使用するたびに、電流レベルを数回反復する(パッチベースの多くの作品(例:8,16,36,48)で使用されるEMライクなアプローチと似ている)。 0.79
Qn = yn+1↑ryNQ0 = y1↑rVn = xnynV0 = x0y0Input VideoPyramidGenerate d VideoPyramidQN = xN + zNVN = xNzN+xN = xN-1↓rxn = xn-1↓rVPNNVPNNVPNN Qn = yn+1-ryNQ0 = y1-rVn = xnynV0 = x0y0Input VideoPyramidGenerate d VideoPyramidQN = xN + zNVN = xNzN+xN = xN-1-rxn = xn-1-rVPNNVPNNVPNN 0.28
英語(論文から抽出)日本語訳スコア
Figure 3. VPNN module gets as input RGB videos query, key and value (QKV respectively). 図3。 VPNNモジュールは入力されたRGBビデオクエリ、キーと値(QKV)を取得する。 0.78
Q and K can be concatenated to additional auxiliary channels. QとKは追加の補助チャネルに結合することができる。 0.72
It outputs an RGB video. RGB動画を出力する。 0.73
(a) Inputs are unfolded to patches (each position now holds a concatenation of neighboring positions); (a)入力はパッチに展開される(各位置は現在、隣り合う位置を連結している)。 0.70
(b) Each patch in Q finds its nearest neighbor patch in K. This is achieved by solving the NNF using PatchMatch [8]; b) q の各パッチは,k に最も近い隣接パッチを見つけます。patchmatch [8] を使って nnf を解決することで達成されます。 0.66
(c) Each patch in Q is replaced with a patch from V, according to the correspondences found in stage (c)Qの各パッチは、ステージにある対応に従って、Vからのパッチに置き換えられる 0.80
(b); (d) Resulting patches are folded back to an RGB video output. (b) (d)結果のパッチはrgbビデオ出力に折り返される。 0.67
QKV scheme: In several cases it is necessary to compare patches in another search space than the original RGB input space. QKVスキーム: 幾つかのケースでは、元のRGB入力空間よりも別の検索空間のパッチを比較する必要がある。 0.72
To this end we adopt a QKV scheme (query, key and value, respectively) as used by [16]. この目的のために、[16]で使用されるQKVスキーム(クエリ、キー、値)を採用します。 0.68
For example, when comparing the upscaled output of previous layer to the corresponding level from the pyramid of the original video, the patches of the latter are sharper than the former. 例えば、元のビデオのピラミッドから前のレイヤのアップスケール出力を対応するレベルと比較すると、後者のパッチは前よりもシャープである。 0.61
This is mitigated by setting V = xn and K = xn+1↑r which has a similar degree of blur as Q = yn+1 ↑ where. これは、V = xn と K = xn+1 {\displaystyle K=xn+1}r を設定することで緩和される。 0.74
Each patch Qi with nearest neighbour Kj is replaced with Vj (i, j are spatio-temporal positions). 近傍のKj を持つ各パッチ Qi は Vj に置き換えられる(i, j は時空間位置)。 0.76
The QKV scheme is especially important in our video analogies application where it is used to include additional temporal information in the queries and the keys. QKVスキームは、クエリとキーに追加の時間情報を含めるのに使用されるビデオアナログアプリケーションにおいて特に重要である。 0.75
Finding Correspondences: We use PatchMatch (Barnes et al [8]) to find the nearest neighbors between Q and K (Fig. 3b). 対応を見つける:patchmatch(barnes et al [8])を使用して、q と k の間の最寄りの近傍を見つける(図 3b)。 0.80
The algorithm is implemented on GPU using PyTorch [30], with time complexity O(n × d) and O(n) additional memory (where n is the video size and d is the patch size). このアルゴリズムは PyTorch [30] を用いてGPU上で実装され、時間複雑性 O(n × d) と O(n) の追加メモリ(n はビデオサイズ、d はパッチサイズ)を持つ。 0.84
This dramatically reduces both run time and memory footprint used for video generation, making it possible to generate high-resolution videos (see Fig 6). これにより、ビデオ生成に使用される実行時間とメモリフットプリントが劇的に削減され、高解像度ビデオを生成することができる(図6参照)。 0.68
An overview of VPNN module is shown in Fig 3. VPNNモジュールの概要を図3に示す。 0.69
Temporal Diversity and Consistency: To enhance the temporal diversity of our samples we set the temporal dimension of the output to be slightly smaller than that of the input video. 時間的多様性と一貫性: サンプルの時間的多様性を高めるため、出力の時間的次元を入力ビデオの時間的次元よりわずかに小さく設定した。 0.84
Thus, motions in different spatial positions in the generated output are taken from different temporal po- したがって、生成された出力における異なる空間位置の運動は、異なる時間的poから取られる。 0.60
Figure 4. Comparing Visual Quality between our generated frames and those of HP-VAE-GAN [17] and SinGAN-GIF [4] (please zoom in on the frames). 図4。 生成したフレームとHP-VAE-GAN [17] と SinGAN-GIF [4] のビジュアル品質を比較する。 0.72
Note that our generated frames are sharper and also exhibit more coherent and plausible arrangements of the scene. 生成されたフレームはシャープで、シーンの一貫性と可視性も向上しています。 0.52
sitions in the input video, increasing the overall temporal diversity (see for example the generated dancers in Fig 1 that are not synced). 入力ビデオのシオン、全体的な時間的多様性の増大(例えば、同期しない図1で生成されたダンサーを参照)。 0.76
We also found that the temporal consistency is best preserved in the generated output when the initial noise zN is randomized for each spatial position, but is the same (replicated) in the temporal dimension. また, 初期雑音znが空間位置毎にランダム化されるとき, 生成した出力では時間的一貫性が保たれるが, 時間的次元では同一(複製)であることがわかった。 0.81
3. Experimental Results We compare our results to those of HP-VAE-GAN [17] and SinGAN-GIF [4], both are methods for diverse video generation from single video. 3. 実験結果 我々は,HP-VAE-GAN [17] と SinGAN-GIF [4] を比較した。
訳抜け防止モード: 3. 実験結果 我々はその結果をHP - VAE - GAN [17] の結果と比較する。 そして、SinGAN - GIF [ 4 ] はどちらも、シングルビデオから多様なビデオを生成する方法です。
0.61
Our results are both qualitatively (Fig. 4) and quantitatively (Table 1) superior while reducing the runtime by a factor of 3×104 (from 8 days training on one video to 18 seconds for new generated video). その結果は定性的(図4)と量的(表1)の両方が優れているが、ランタイムは3×104(ビデオの8日間のトレーニングから新しいビデオの18秒まで)削減されている。 0.78
While [4, 17] are limited to generated outputs of small resolution (144×256), the use of efficient PatchMatch algorithm for nearest neighbors search dramatically reduces both run time and memory footprint used for video generation, making it possible to generate outputs in the same resolution of the input video (full-HD 1280×1920) 4. 4, 17]は小さな解像度(144×256)の出力に制限されているが、最寄りの探索に効率的なパッチマッチングアルゴリズムを使用することで、ビデオ生成に使用する実行時間とメモリフットプリントを劇的に削減し、入力ビデオと同じ解像度で出力を生成することができる(full-hd 1280×1920)。 0.78
Video analogies Video to video translation methods typically train on large datasets and are either conditioned on human poses or keypoint detection [e g 29, 44–46], or require knowledge of a human/animal model [e g 1, 11, 26, 31, 34, 35, 50]. ビデオの類推 ビデオからビデオへの翻訳手法は通常、大きなデータセットでトレーニングされ、人間のポーズやキーポイント検出(例 29 44-46)、あるいは人間/動物モデル(例 1, 11, 11, 26, 31, 34, 35, 50)の知識を必要とする。 0.70
We show that when videos’ dynamics are similar in both their motion and semantic context within their video, one can use our framework to transfer the motion and appearance between the two (see Fig 5). ビデオのダイナミックスがビデオ内の動きと意味的文脈の両方で似ている場合、我々のフレームワークを使って2つの間の動きと外観を転送できることを示します(図5参照)。 0.86
We term this task “video analogies” (inspired by image analogies [9, 18, 27]). このタスクを“ビデオアナログ”(画像アナログ [9, 18, 27] にインスパイアされた)と呼ぶ。 0.81
More formally, we generate a new video whose spatio-temporal layout is taken from a content video C, and overall appearance and dynamics from a style video S. より正式には、コンテンツビデオCから時空間的レイアウトを取り、スタイルビデオSから全体の外観とダイナミクスを取り出す新しいビデオを生成する。 0.70
We first extract the “dynamic structure” of both videos – まず、両方のビデオの“動的構造”を抽出します。 0.74
3 QueryAuxiliaryRGB 3 QueryAuxiliaryRGB 0.43
(a) UnfoldKeyAuxiliaryRG BValueRGBOutputRGB12 3M12N12N12N2 (a)UnfoldKeyAuxiliar yRGBValueRGBOutputRG B123M12N12N2 0.12
(b) Find Correspondences (b)対応を見つける 0.85
(c) Replace (d) Fold…………Input VideoOurs (VGPNN)HPVAEGANOurs (VGPNN)SinGAN-GIFInp ut Video (c)置き換える (d)Fold............. ..Input VideoOurs (VGPNN)HPVAEGANOurs (VGPNN)SinGAN-GIFInp ut Video 0.53
英語(論文から抽出)日本語訳スコア
Figure 5. Video Analogies: Left: an example of video analogies between all pairs of three input videos (red). 図5。 Video Analogies: left: 3つの入力ビデオ(赤)のすべてのペア間のビデオアナログの例。 0.80
Each generated video (black) takes the spatio-temporal layout from the input video in its row, and the appearance and dynamics of the input video from its column. 生成されたビデオ(ブラック)は、その行内の入力ビデオから時空間的レイアウトと、その列からの入力ビデオの外観とダイナミックスを取ります。 0.75
Right: an example of sketch-to-video – the generated video (bottom) takes its spatio-temporal layout from the sketch video of morphed MNIST digits (middle) and its appearance and dynamics from the input video of parading soldiers (top). 右:sketch-to-videoの例 — 生成されたビデオ(bottom)は、その時空間的レイアウトを、変形したmnist桁(中間)のスケッチビデオと、パラディング兵士(トップ)の入力ビデオからの外観とダイナミクスから取る。 0.74
Method HP-VAE-GAN [17] VGPNN (Ours) SinGAN-GIF [4] VGPNN (Ours) 方法 HP-VAE-GAN [17] VGPNN (Ours) SinGAN-GIF [4] VGPNN (Ours) 0.41
SVFID Head-on comparison [17] ↓ (User study) [%]↑ 0.0081 0.0072 0.0119 0.0058 svfid ヘッドオン比較 [17] ] (ユーザスタディ) [%]~ 0.0081 0.0072 0.0119 0.0058 0.75
50.57± 3.27 50.57± 3.27 0.22
67.84±1.77 67.84±1.77 0.15
Runtime ↓ 7.625 days ランタイム ↓ 7.625日 0.55
18 secs Unpublished 10 secs 18秒 未発表。 10秒 0.49
Table 1. Quantitative Evaluation: SVFID [17] measures the patch statistics similarity between the input video and a generated video. 表1。 定量的評価:SVFID[17]は、入力ビデオと生成されたビデオとの間のパッチ統計の類似性を測定する。 0.71
It computes the Fr´echet distance between the statistics of the input video and the generated video using pre-computed C3D [38] features (lower is better). 予め計算したC3D[38]機能を用いて、入力ビデオの統計と生成されたビデオとの間のFr ́echet距離を算出する(より低い方がよい)。 0.65
Note that our generated samples bear more substantial similarity to the input videos. われわれの生成したサンプルは、入力ビデオとかなりよく似ていることに注意されたい。 0.52
In a user study, each of 100 AMT participants were asked to judge which of two generated samples was better in terms of sharpness, natural look and coherence. ユーザ調査では、100人のamt参加者それぞれに、生成した2つのサンプルのうちどちらがシャープさ、自然の外観、コヒーレンスで優れているかを判断するよう求められた。
訳抜け防止モード: AMT参加者100名にそれぞれ質問を行った。 2つの生成されたサンプルのどれが シャープさ、自然な外観、コヒーレンスで良いかを 判断するためです
0.68
We report the percentage of users who favored our samples over the other. サンプルを好んだユーザーの比率を報告します。 0.49
the magnitude of the optical flow (extracted via RAFT [37]), quantized into few bins (using k-means). 光の流れの大きさ(RAFT[37]を介して抽出)は、数個のビン(k平均)に量子化される。 0.67
We compute the spatio-temporal pyramids of the 我々は時空間ピラミッドを計算する 0.76
(i) style video S (i)スタイルビデオS 0.79
(ii) dynamic structure of the content video (dyn(C)) (ii)コンテンツビデオの動的構造(dyn(c)) 0.72
(iii) the dynamic structure the style video (dyn(S)). (iii)スタイルビデオの動的構造(dyn(s))。 0.66
The output video is generated by setting Q, K, V at each level as follows: V 出力ビデオは、各レベルにQ,K,Vを設定して生成される。 0.70
Q dyn(C)N dyn(C)n(cid:107)Qn+1 ↑ q dyn(c)n dyn(c)n(cid:107)qn+1 である。 0.73
Level K dyn(S)N N (coarsest) SN dyn(S)n(cid:107)Sn Sn n (any other) where (cid:107) denotes concatenation along the channels axis, and n denote the current level in the pyramid. レベル K dyn(S)N N (粗い) SN dyn(S)n(cid:107)Sn Sn n (any other) ここでは (cid:107) はチャネル軸に沿った連結を表し、n はピラミッドの電流レベルを表す。 0.85
Note that in the coarsest level, the two videos are only compared by their dynamic structure. 最も粗いレベルでは、2つのビデオは動的構造によってのみ比較される。 0.76
In finer levels, the dynamic structure of より微細なレベルでは、動的構造 0.79
Figure 6. Comparing Generation Runtime between our approach (VGPNN), a na¨ıve extension of GPNN [16] from 2D to 3D and HP-VAE-GAN [17] on 13-frames videos with different spatial resolutions (X-axis, all have 16:9 aspect ratio). 図6。 空間解像度の異なる13フレームビデオ(X軸,全アスペクト比16:9)でGPNN [16]を2次元から3次元に拡張したVGPNNとHP-VAE-GAN [17]を比較した。 0.77
C (the content video) is used to “guide” the output to the desired spatio-temporal layout. c(コンテンツビデオ)は、出力を所望の時空間レイアウトに“導く”ために使用される。 0.76
In Fig 5left we show snapshots of the analogies of all possible pairs between three videos. fig 5leftでは、3つのビデオ間で考えられる全てのペアの類似のスナップショットを示します。 0.59
In Fig 5right we show an example for “sketch-tovideo” transfer, where the dynamic structure is given by a sketch video instead of an actual video. fig 5rightでは、”sketch-to video” 転送の例を示し、動的な構造は実際のビデオではなくスケッチビデオによって与えられる。 0.76
5. More Applications 5. さらなる応用 0.54
In the supplementary material we include examples for spatio-temporal retargeting and conditional video inpainting, as well as further technical details and ablations. 補足資料には,空間的時間的再ターゲティングや条件付きビデオインペインティング,さらに技術的な詳細やアブレーションの例を含める。 0.69
4 InputSketchGenerated LayoutAppearance Spatio-& DynamicsTemporalInpu t 1Input 3Input 2144p240p360p480p720 p1080pVideoResolutio n0204060Run Time [minutes]Ours (VGPNN)GPNNHP-VAE-GA N7 days8 days 4 InputSketch GeneratedLayoutAppea rance Spatio-& DynamicsTemporalInpu t 1Input 3Input 3Input 2144p240p360p480p720 p1080pVideoResolutio n0204060Run Time [minutes]Ours (VGPNN)GPNNHP-VAE-GA N7 days8 days8日 0.33
英語(論文から抽出)日本語訳スコア
References [1] K. Aberman, Y. Weng, D. Lischinski, D. Cohen-Or, and B. Chen. 参照: [1] K. Aberman, Y. Weng, D. Lischinski, D. Cohen-Or, B. Chen。 0.40
Unpaired motion style transfer from video to animation. ビデオからアニメーションへの非ペアのモーションスタイル転送。 0.76
ACM Transactions on Graphics (TOG), 39(4):64–1, 2020. ACM Transactions on Graphics (TOG), 39(4):64–1, 2020 0.42
3 [2] S. Aigner and M. K¨orner. 3 [2] s. aigner と m. k sorner である。 0.50
Futuregan: Anticipating the future frames of video sequences using spatio-temporal 3d convolutions in progressively growing gans. Futuregan: 徐々に成長するガンの時空間3d畳み込みによるビデオシーケンスの将来フレームの予測。 0.78
arXiv preprint arXiv:1810.01325, 2018. arXiv preprint arXiv:1810.01325, 2018 0.40
1 [3] E. Aksan and O. Hilliges. 1 [3] e. aksan と o. hilliges。 0.40
Stcn: Stochastic temporal convolutional networks. Stcn: 確率的時間的畳み込みネットワーク。 0.66
arXiv preprint arXiv:1902.06568, 2019. arXiv preprint arXiv:1902.06568, 2019 0.40
1 [4] R. Arora and Y. J. Lee. 1 [4]R・アララとY・J・リー。 0.53
Singan-gif: Learning a generaIn Proceedings of the tive video model from a single gif. Singan-gif: 属を学習する 単一のGIFから tive ビデオモデルの証明。 0.79
IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1310–1319, 2021. IEEE/CVF Winter Conference on Applications of Computer Vision, page 1310–1319, 2021 0.47
1, 3, 4 [5] M. Babaeizadeh, C. Finn, D. Erhan, R. H. Campbell, and S. Levine. 1, 3, 4 M. Babaeizadeh, C. Finn, D. Erhan, R. H. Campbell, S. Levine. 0.42
Stochastic variational video prediction. 確率的変分ビデオ予測。 0.64
arXiv preprint arXiv:1710.11252, 2017. arxiv プレプリント arxiv:1710.11252, 2017 0.43
1 [6] N. Ballas, L. Yao, C. Pal, and A. Courville. 1 6] N. Ballas, L. Yao, C. Pal, A. Courville. 0.43
Delving deeper into convolutional networks for learning video representations. ビデオ表現を学ぶための畳み込みネットワークに深く入り込む。 0.76
arXiv preprint arXiv:1511.06432, 2015. arxiv プレプリント arxiv:1511.06432, 2015 0.43
1 [7] A. Bansal, S. Ma, D. Ramanan, and Y. Sheikh. 1 7] a. bansal, s. ma, d. ramanan, y. sheikh。 0.39
Recycle-gan: Unsupervised video retargeting. Recycle-gan: 教師なしのビデオリターゲティング。 0.59
In Proceedings of the European conference on computer vision (ECCV), pages 119– 135, 2018. Proceedings of the European Conference on Computer Vision (ECCV) において、119–135, 2018。 0.84
1 [8] C. Barnes, E. Shechtman, A. Finkelstein, and D. B. Goldman. 1 C. Barnes, E. Shechtman, A. Finkelstein, D. B. Goldman. 0.42
Patchmatch: A randomized correspondence algorithm for structural image editing. Patchmatch: 構造画像編集のためのランダム化対応アルゴリズム。 0.87
ACM Trans. Graph. ACMトランス。 グラフ。 0.73
, 28(3):24, 2009. , 28(3):24, 2009. 0.47
2, 3 [9] S. Benaim, R. Mokady, A. Bermano, and L. Wolf. 2, 3 9]S. Benaim、R. Mokady、A. Bermano、L. Wolf。 0.84
Structural In Computer Graphics analogy from a single image pair. 単一の画像ペアからのコンピュータグラフィックスのアナロジーの構造。 0.75
Forum, volume 40, pages 249–265. 第40巻、第249-265頁。 0.52
Wiley Online Library, 2021. ウィリー・オンライン・ライブラリー、2021年。 0.47
3 [10] K. S. Bhat, S. M. Seitz, J. K. Hodgins, and P. K. Khosla. 3 [10]K.S.Bhat、S.M.Seitz、J.K.Hodgins、P.K.Khosla。 0.37
Flow-based video synthesis and editing. フローベースのビデオ合成と編集。 0.74
In ACM SIGGRAPH 2004 Papers, pages 360–363. ACM SIGGRAPH 2004 Papers, pages 360–363. 0.45
2004. 1 [11] C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. 2004. 1 [11]C. Chan, S. Ginosar, T. Zhou, A. A. Efros. 0.44
Everybody dance now. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5933–5942, 2019. 誰もが今踊ります。 ieee/cvf国際コンピュータビジョン会議の議事録、2019年5933-5942頁。 0.62
1, 3 [12] E. Denton and R. Fergus. 1, 3 12]E・デントンとR・ファーガス。 0.54
Stochastic video generation with In International Conference on Machine In International Conference on Machine による確率的ビデオ生成 0.84
a learned prior. Learning, pages 1174–1183. 前もって学んだ 1174-1183頁。 0.51
PMLR, 2018. 2018年、PMLR。 0.68
1 [13] J. Fiˇser, O. Jamriˇska, M. Luk´aˇc, E. Shechtman, P. Asente, J. Lu, and D. S`ykora. 1 [13]J・ファイザー、O・J・ジャムリシュカ、M・ルク、E・シェヒトマン、P・アセンテ、J・ルー、D・スィコラ。
訳抜け防止モード: 1 訳語 [13 ] J. ファイザー、O. ジャムリシュカ、M. ルク、 E. Shechtman, P. Asente, J. Lu, D. S`ykora。
0.61
Stylit: illumination-guided examplebased stylization of 3d renderings. stylit: 3dレンダリングの照明誘導例に基づくスタイライゼーション。 0.68
ACM Transactions on Graphics (TOG), 35(4):1–11, 2016. acm transactions on graphics (tog), 35(4):1–11, 2016を参照。 0.77
1 [14] J. -Y. 1 [14] J。 -y。 0.39
Franceschi, E. Delasalles, M. Chen, S. Lamprier, and P. Gallinari. フランチェスキ、e. delasalles、m. chen、s. lamprier、p. gallinari。 0.61
Stochastic latent residual video prediction. 確率的潜在残余映像予測 0.57
In International Conference on Machine Learning, pages 3233– 3246. 国際機械学習会議において、3233-3246頁。 0.79
PMLR, 2020. PMLR、2020年。 0.88
1 [15] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. BenarXiv preprint gio. 1 I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. BenarXiv preprint gio
訳抜け防止モード: 1 [15 ]I. J. Goodfellow, J. Pouget - Abadie, M. Mirza, B. Xu, D. Warde - Farley, S. Ozair A.Courville と Y. BenarXiv preprint gio である。
0.60
Generative adversarial networks. 生成的敵ネットワーク。 0.74
arXiv:1406.2661, 2014. 2014年、arxiv:1406.2661。 0.37
1 [16] N. Granot, B. Feinstein, A. Shocher, S. Bagon, and M. Irani. 1 16] N. Granot, B. Feinstein, A. Shocher, S. Bagon, M. Irani 0.43
Drop the gan: In defense of patches nearest neighbors as single image generative models. ガンを落とせ:近傍のパッチを単一の画像生成モデルとして防御する。 0.75
arXiv preprint arXiv:2103.15545, 2021. arXiv preprint arXiv:2103.15545, 2021 0.40
1, 2, 3, 4 1, 2, 3, 4 0.43
[17] S. Gur, S. Benaim, and L. Wolf. 17]s. gur、s. benaim、l. wolf。 0.47
Hierarchical patch vaegan: Generating diverse videos from a single sample. Hierarchical patch vaegan: 単一のサンプルからさまざまなビデオを生成する。 0.84
arXiv preprint arXiv:2006.12226, 2020. arxiv プレプリント arxiv:2006.12226, 2020 0.43
1, 3, 4 [18] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. In Proceedings of the 28th anSalesin. 1, 3, 4 A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, D. H. In Proceedings of the 28th anSalesin. 0.45
nual conference on Computer graphics and interactive techniques, pages 327–340, 2001. nual conference on computer graphics and interactive techniques、2001年327-340頁。 0.85
3 Image analogies. [19] J. 3 画像の類似。 [19]J。 0.48
-B. Huang, S. B. Kang, N. Ahuja, and J. Kopf. -B。 Huang, S. B. Kang, N. Ahuja, J. Kopf 0.43
Temporally coherent completion of dynamic video. 動的ビデオの時間的コヒーレントな完了。 0.79
ACM Transactions on Graphics (TOG), 35(6):1–11, 2016. acm transactions on graphics (tog), 35(6):1–11, 2016を参照。 0.77
1 [20] O. Jamriˇska, J. Fiˇser, P. Asente, J. Lu, E. Shechtman, and D. S`ykora. 1 [20]O・ジャムリシュカ、J・ファイザー、P. Asente、J. Lu、E. Shechtman、D. S`ykora。 0.60
Lazyfluids: appearance transfer for fluid animations. lazyfluids: 流体アニメーションの外観転送。 0.75
ACM Transactions on Graphics (TOG), 34(4):1–10, 2015. acm transactions on graphics (tog), 34(4):1–10, 2015年。 0.85
1 [21] P. Kr¨ahenb¨uhl, M. Lang, A. Hornung, and M. Gross. 1 [21]P.Kr 'ahenb 'uhl, M. Lang, A. Hornung, M. Gross 0.41
A system for retargeting of streaming video. ストリーミングビデオの再ターゲティングシステム 0.49
In ACM SIGGRAPH Asia 2009 papers, 2009. 2009年、ACM SIGGRAPH Asia 2009に掲載。 0.77
1 [22] V. Kwatra, A. Sch¨odl, I. Essa, G. Turk, and A. Bobick. 1 V. Kwatra, A. Sch sodl, I. Essa, G. Turk, A. Bobick. 0.40
Graphcut textures: Image and video synthesis using graph cuts. グラフカットテクスチャ: グラフカットを用いた画像とビデオ合成。 0.79
Acm transactions on graphics (tog), 22(3):277–286, 2003. Acmトランザクションはグラフィックス(tog), 22(3):277–286, 2003。 0.81
1 [23] V. Kwatra, I. Essa, A. Bobick, and N. Kwatra. 1 V. Kwatra, I. Essa, A. Bobick, N. Kwatra. 0.39
Texture optimization for example-based synthesis. サンプルベース合成のためのテクスチャ最適化 0.69
In ACM SIGGRAPH 2005 Papers, pages 795–802. acm siggraph 2005, pp. 795-802。 0.60
2005. [24] V. Kwatra, D. Adalsteinsson, T. Kim, N. Kwatra, M. CarlIEEE transactions on son, and M. Lin. 2005. V. Kwatra、D. Adalsteinsson、T. Kim、N. Kwatra、M. CarlIEEE、M. Lin。 0.53
Texturing fluids. visualization and computer graphics, 13(5):939–952, 2007. テキスト化流動体。 ビジュアライゼーションとコンピュータグラフィックス, 13(5):939–952, 2007 0.64
1 [25] A. X. Lee, R. Zhang, F. Ebert, P. Abbeel, C. Finn, and S. Levine. 1 A. X. Lee, R. Zhang, F. Ebert, P. Abbeel, C. Finn, S. Levine.
訳抜け防止モード: 1 A. X. Lee, R. Zhang, F. Ebert, P. Abbeel、C. Finn、S. Levine。
0.64
Stochastic adversarial video prediction. 確率的敵対的ビデオ予測。 0.60
arXiv preprint arXiv:1804.01523, 2018. arXiv preprint arXiv:1804.01523, 2018 0.40
1 [26] J. Lee, D. Ramanan, and R. Girdhar. 1 26]j・リー、d・ラマナン、r・ガーダール 0.51
Metapix: Few-shot video retargeting. Metapix: ビデオの再ターゲティング。 0.73
arXiv preprint arXiv:1910.04742, 2019. arXiv preprint arXiv:1910.04742, 2019 0.40
3 [27] J. Liao, Y. Yao, L. Yuan, G. Hua, and S. B. Kang. 3 [27]J. Liao、Y. Yao、L. Yuan、G. Hua、S. B. Kang。 0.42
Visual attribute transfer through deep image analogy. ディープイメージアナロジーによる視覚的属性転送。 0.66
arXiv preprint arXiv:1705.01088, 2017. arxiv プレプリント arxiv:1705.01088, 2017 0.42
3 5 3 5 0.42
英語(論文から抽出)日本語訳スコア
[28] M. Liu, S. Chen, J. Liu, and X. Tang. [28]M.Lu、S.Chen、J.Lu、X.Tang。 0.62
Video completion via motion guided spatial-temporal global optimization. 運動誘導型空間時空間大域最適化による映像補完 0.58
In Proceedings of the 17th ACM international conference on Multimedia, pages 537–540, 2009. 第17回acm国際マルチメディア会議の議事録(2009年537-540頁)。 0.77
1 [39] S. Tulyakov, M. 1 39] S. Tulyakov, M。 0.40
-Y. Liu, X. Yang, and J. Kautz. -y。 Liu, X. Yang, J. Kautz。 0.40
Mocogan: Decomposing motion and content for video generation. mocogan: 動画生成のための動作とコンテンツの分解。 0.73
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1526–1535, 2018. ieee conference on computer vision and pattern recognition (ieee conference on computer vision and pattern recognition) では、2018年の第1526-1535ページが掲載されている。 0.45
1 [29] A. Mallya, T. 1 [29]a.malya,t。 0.36
-C. Wang, K. Sapra, -C。 王、k.サプラ。 0.51
and M. -Y. Liu. とM。 -y。 Liu 0.45
World-consistent video-to-video synthesis. World-Consistent Video-to- Video synthesis の略。 0.39
arXiv preprint arXiv:2007.08509, 2020. arxiv プレプリント arxiv:2007.08509, 2020 0.45
1, 3 [40] R. Villegas, J. Yang, S. Hong, X. Lin, and H. Lee. 1, 3 [40]R. Villegas、J. Yang、S. Hong、X. Lin、H. Lee。 0.43
Decomposing motion and content for natural video sequence prediction. 自然な映像シーケンス予測のための動きと内容の分解 0.79
arXiv preprint arXiv:1706.08033, 2017. arxiv プレプリント arxiv:1706.08033, 2017 0.43
1 [30] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin, N. Gimelshein, L. Antiga, A. Desmaison, A. Kopf, E. Yang, Z. DeVito, M. Raison, A. Tejani, S. Chilamkurthy, B. Steiner, L. Fang, Pytorch: An imperative style, J. Bai, and S. Chintala. 1 A. Paszke氏、S. Gross氏、F. Massa氏、A. Lerer氏、J. Bradbury氏、G. Chanan氏、T. Killeen氏、Z. Lin氏、N. Gimelshein氏、L. Antiga氏、A. Desmaison氏、A. Kopf氏、E. Yang氏、Z. DeVito氏、M. Raison氏、A. Tejani氏、S. Chilamkurthy氏、B. Steiner氏、L. Fang氏、Pytorch氏、S. Chintala氏。 0.52
high-performance deep learning library. 高性能なディープラーニングライブラリ。 0.65
In H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alch´e-Buc, E. Fox, and R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 8024–8035. H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alch ́e-Buc, E. Fox, R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 8024–8035。 0.42
Curran Associates, Inc., 2019. curran associates, inc.、2019年。 0.53
URL http://papers.neurip s.cc/paper/ 9015- pytorch- an- imperative- style- highperformance-deep -learning-library.pd f. URL http://papers.neurip s.cc/paper/9015- pytorch - an- imperative- style- high performance-deep-lea rning-library.pdf 0.19
3 [31] J. Ren, M. Chai, S. Tulyakov, C. Fang, X. Shen, and J. Yang. 3 [31]J. Ren、M. Chai、S. Tulyakov、C. Fang、X. Shen、J. Yang。 0.42
Human motion transfer from poses in the wild. 野生のポーズからの人間の動きの移動。 0.80
In European Conference on Computer Vision, pages 262–279. 欧州コンピュータビジョン会議』262-279頁。 0.67
Springer, 2020. スプリンガー、2020年。 0.59
3 [32] M. Rubinstein, A. Shamir, and S. Avidan. 3 M. Rubinstein, A. Shamir, S. Avidan. 0.38
Improved seam carving for video retargeting. ビデオ再ターゲティングのためのシーム彫刻の改善。 0.59
ACM transactions on graphics (TOG), 27(3):1–9, 2008. acm transactions on graphics (tog), 27(3):1–9, 2008 0.41
1 [33] M. Saito, E. Matsumoto, and S. Saito. 1 【33】斎藤m、松本e、斎藤s。 0.40
Temporal generative In Proceedadversarial nets with singular value clipping. 特異値クリッピングを有する進行性対向性ネットにおける時間的生成 0.56
ings of the IEEE international conference on computer vision, pages 2830–2839, 2017. IEEE International Conference on computer vision, page 2830–2839, 2017 に参加。 0.42
1 [34] A. Siarohin, S. Lathuili`ere, S. Tulyakov, E. Ricci, and N. Sebe. 1 A. Siarohin, S. Lathuili`ere, S. Tulyakov, E. Ricci, N. Sebe. 0.41
Animating arbitrary objects via deep motion transfer. ディープモーション転送による任意のオブジェクトのアニメーション。 0.71
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2377–2386, 2019. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2377–2386, 2019。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 2377-2386頁、2019年。
0.81
3 [35] A. Siarohin, S. Lathuili`ere, S. Tulyakov, E. Ricci, and N. Sebe. 3 A. Siarohin, S. Lathuili`ere, S. Tulyakov, E. Ricci, N. Sebe. 0.41
First order motion model for image animation. 画像アニメーションのための第1次モーションモデル 0.81
Advances in Neural Information Processing Systems, 32:7137– 7147, 2019. 神経情報処理システムにおける進歩32:7137-7147, 2019 0.74
3 [36] D. Simakov, Y. Caspi, E. Shechtman, and M. Irani. 3 [36]D.シマコフ、Y. Caspi、E. Shechtman、M. Irani。 0.40
Summarizing visual data using bidirectional similarity. 双方向類似性を用いた視覚データの要約 0.64
In 2008 IEEE Conference on Computer Vision and Pattern Recognition, pages 1–8. 2008年、IEEE Conference on Computer Vision and Pattern Recognition, page 1-8。 0.80
IEEE, 2008. 2008年、IEEE。 0.66
1, 2 [37] Z. Teed and J. Deng. 1, 2 [37] Z. Teed と J. Deng 0.66
Raft: Recurrent all-pairs field transforms for optical flow. ラフト:光流用全対電場変換器。 0.51
In European conference on computer vision, pages 402–419. 欧州のコンピュータビジョン会議において、402-419頁。 0.71
Springer, 2020. スプリンガー、2020年。 0.59
4 [38] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri. 4 D. Tran, L. Bourdev, R. Fergus, L. Torresani, M. Paluri. 0.41
Learning spatiotemporal features with 3d convolutional networks. 3次元畳み込みネットワークを用いた時空間特徴の学習 0.64
In Proceedings of the IEEE international conference on computer vision, pages 4489–4497, 2015. IEEEのコンピュータビジョン国際会議Proceedings of the IEEE International Conference on computer vision, page 4489–4497, 2015 0.78
4 6 [41] R. Villegas, D. Erhan, H. Lee, et al Hierarchical longterm video prediction without supervision. 4 6 R. Villegas, D. Erhan, H. Lee, et al Hierarchical longterm video prediction without supervision。
訳抜け防止モード: 4 6 [41 ] R. Villegas, D. Erhan, H. Lee 監視なしの階層的長期ビデオ予測。
0.54
In International Conference on Machine Learning, pages 6038–6046. 機械学習に関する国際会議、6038-6046頁。 0.73
PMLR, 2018. 2018年、PMLR。 0.68
[42] R. Villegas, A. Pathak, H. Kannan, D. Erhan, Q. V. Le, and H. Lee. [42] R. Villegas, A. Pathak, H. Kannan, D. Erhan, Q. V. Le, H. Lee。 0.45
High fidelity video prediction with large stochastic recurrent neural networks. 大規模確率的リカレントニューラルネットワークを用いた高忠実度映像予測 0.69
arXiv preprint arXiv:1911.01655, 2019. arXiv preprint arXiv:1911.01655, 2019 0.41
1 [43] C. Vondrick, H. Pirsiavash, and A. Torralba. 1 43] C. Vondrick, H. Pirsiavash, A. Torralba 0.40
erating videos with scene dynamics. シーンダイナミクスによる ビデオの消去 0.73
arXiv:1609.02612, 2016. arxiv:1609.02612、2016年。 0.40
1 GenarXiv preprint 1 GenarXiv プレプリント 0.59
[44] T. -C. [44]t。 -C。 0.37
Wang, M. -Y. Wang, M。 -y。 0.39
Liu, J. -Y. Zhu, G. Liu, A. Tao, J. Kautz, and B. Catanzaro. ルー、j。 -y。 Zhu, G. Liu, A. Tao, J. Kautz, B. Catanzaro 0.42
Video-to-video synthesis. arXiv preprint arXiv:1808.06601, 2018. ビデオ合成。 arXiv preprint arXiv:1808.06601, 2018 0.55
1, 3 [45] T. 1, 3 [45]T。 0.38
-C. Wang, M. -C。 Wang, M。 0.41
-Y. Liu, A. Tao, G. Liu, J. Kautz, and B. Catanzaro. -y。 Liu, A. Tao, G. Liu, J. Kautz, B. Catanzaro 0.42
Few-shot video-to-video synthesis. ビデオ合成は少ない。 0.67
arXiv preprint arXiv:1910.12713, 2019. arXiv preprint arXiv:1910.12713, 2019 0.40
[46] Y. Wang, P. Bilinski, F. Bremond, and A. Dantcheva. 46] Y. Wang, P. Bilinski, F. Bremond, A. Dantcheva 0.42
Imaginator: Conditional spatio-temporal gan for video generation. imaginator:ビデオ生成のための条件付き時空間gan。 0.66
In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1160–1169, 2020. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, page 1160–1169, 2020。
訳抜け防止モード: IEEE / CVF Winter Conference on Applications of Computer Vision に参加して 1160-1169頁、2020年。
0.85
1, 3 [47] Y. Wang, F. Bremond, and A. Dantcheva. 1, 3 47] Y. Wang, F. Bremond, A. Dantcheva 0.41
Inmodegan: Interpretable motion decomposition generative adversarial network for video generation. Inmodegan:ビデオ生成のための解釈可能な動き分解生成対向ネットワーク 0.85
arXiv preprint arXiv:2101.03049, 2021. arxiv プレプリント arxiv:2101.03049, 2021。 0.42
1 [48] Y. Wexler, E. Shechtman, and M. Irani. 1 [48]y. wexler、e. shechtman、m. irani。 0.51
Space-time video completion. In Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004. 時空ビデオの完成。 2004年IEEE Computer Society Conference on Computer Vision and Pattern Recognition に参加。 0.65
CVPR 2004., volume 1, pages I–I. CVPR 2004、第1巻I-I頁。 0.74
IEEE, 2004. 2004年、IEEE。 0.71
1, 2 [49] L. Wolf, M. Guttmann, and D. Cohen-Or. 1, 2 49] L. Wolf, M. Guttmann, D. Cohen-Or 0.43
Non-homogeneous In Proceedings of the content-driven video-retargeting. コンテンツ駆動型ビデオリターゲティングの非均一化 0.64
Eleventh IEEE International Conference on Computer Vision (ICCV), 2007. 第11回IEEE International Conference on Computer Vision (ICCV) 2007に参加。 0.83
1 [50] Z. Yang, W. Zhu, W. Wu, C. Qian, Q. Zhou, B. Zhou, and C. C. Loy. 1 [50]Z. Yang、W. Zhu、W. Wu、C. Qian、Q. Zhou、B. Zhou、C. C. Loy。
訳抜け防止モード: 1 [50 ]Z. Yang, W. Zhu, W. Wu, C. Qian, Q. Zhou, B. Zhou, C. C. Loy
0.44
Transmomo: Invariance-driven unsupervised video motion retargeting. Transmomo: 分散駆動型教師なしビデオモーションリターゲティング。 0.64
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5306–5315, 2020. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 5306–5315, 2020。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 5306-5315、2020年。
0.83
1, 3 1, 3 0.42
             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。