論文の概要: Diverse Video Generation from a Single Video
- arxiv url: http://arxiv.org/abs/2205.05725v1
- Date: Wed, 11 May 2022 18:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 05:04:52.691145
- Title: Diverse Video Generation from a Single Video
- Title(参考訳): 単一のビデオからの多様なビデオ生成
- Authors: Niv Haim, Ben Feinstein, Niv Granot, Assaf Shocher, Shai Bagon, Tali
Dekel, Michal Irani
- Abstract要約: GANは、単一のビデオでトレーニングされた生成および操作タスクを実行することができる。
本稿では,単一のビデオから生成するGANの必要性を疑問視する。
様々な生成タスクと操作タスクのための非パラメトリックベースラインを導入する。
- 参考スコア(独自算出の注目度): 19.973264262422273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GANs are able to perform generation and manipulation tasks, trained on a
single video. However, these single video GANs require unreasonable amount of
time to train on a single video, rendering them almost impractical. In this
paper we question the necessity of a GAN for generation from a single video,
and introduce a non-parametric baseline for a variety of generation and
manipulation tasks. We revive classical space-time patches-nearest-neighbors
approaches and adapt them to a scalable unconditional generative model, without
any learning. This simple baseline surprisingly outperforms single-video GANs
in visual quality and realism (confirmed by quantitative and qualitative
evaluations), and is disproportionately faster (runtime reduced from several
days to seconds). Our approach is easily scaled to Full-HD videos. We also use
the same framework to demonstrate video analogies and spatio-temporal
retargeting. These observations show that classical approaches significantly
outperform heavy deep learning machinery for these tasks. This sets a new
baseline for single-video generation and manipulation tasks, and no less
important -- makes diverse generation from a single video practically possible
for the first time.
- Abstract(参考訳): GANは、単一のビデオでトレーニングされた生成および操作タスクを実行することができる。
しかし、これらの単一のビデオGANは、単一のビデオでトレーニングするのに不合理な時間を必要とし、ほとんど実用的ではない。
本稿では,単一のビデオから生成するためのGANの必要性を問うとともに,様々な生成および操作タスクのための非パラメトリックベースラインを導入する。
我々は、古典的な時空パッチ・アレスト近傍アプローチを復活させ、学習することなくスケーラブルな無条件生成モデルに適用する。
この単純なベースラインは、視覚的品質と現実主義(量的および質的評価によって確認される)におけるシングルビデオganを驚くほど上回っており、不釣り合いに高速である(ランタイムは数日から数秒に短縮される)。
われわれのアプローチは簡単にフルHDビデオにスケールできる。
また、ビデオの類似や時空間再ターゲティングのデモにも、同じフレームワークを使用します。
これらの観察から、古典的なアプローチはこれらのタスクにおいて、重い深層学習機械を著しく上回っていることが分かる。
これにより、シングルビデオ生成と操作タスクの新たなベースラインが設定され、重要ではない – 単一のビデオからさまざまな生成が、初めて現実的に可能になった。
関連論文リスト
- Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Diverse Generation from a Single Video Made Possible [24.39972895902724]
本稿では,1つの自然なビデオから映像を生成し,操作するための高速で実用的な方法を提案する。
本手法は,シングルビデオGANよりもリアルで高品質な結果を生成する。
論文 参考訳(メタデータ) (2021-09-17T15:12:17Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。