論文の概要: Diverse Generation from a Single Video Made Possible
- arxiv url: http://arxiv.org/abs/2109.08591v1
- Date: Fri, 17 Sep 2021 15:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 17:36:13.779183
- Title: Diverse Generation from a Single Video Made Possible
- Title(参考訳): シングルビデオから生成可能なディバース生成
- Authors: Niv Haim, Ben Feinstein, Niv Granot, Assaf Shocher, Shai Bagon, Tali
Dekel, Michal Irani
- Abstract要約: 本稿では,1つの自然なビデオから映像を生成し,操作するための高速で実用的な方法を提案する。
本手法は,シングルビデオGANよりもリアルで高品質な結果を生成する。
- 参考スコア(独自算出の注目度): 24.39972895902724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most advanced video generation and manipulation methods train on a large
collection of videos. As such, they are restricted to the types of video
dynamics they train on. To overcome this limitation, GANs trained on a single
video were recently proposed. While these provide more flexibility to a wide
variety of video dynamics, they require days to train on a single tiny input
video, rendering them impractical. In this paper we present a fast and
practical method for video generation and manipulation from a single natural
video, which generates diverse high-quality video outputs within seconds (for
benchmark videos). Our method can be further applied to Full-HD video clips
within minutes. Our approach is inspired by a recent advanced
patch-nearest-neighbor based approach [Granot et al. 2021], which was shown to
significantly outperform single-image GANs, both in run-time and in visual
quality. Here we generalize this approach from images to videos, by casting
classical space-time patch-based methods as a new generative video model. We
adapt the generative image patch nearest neighbor approach to efficiently cope
with the huge number of space-time patches in a single video. Our method
generates more realistic and higher quality results than single-video GANs
(confirmed by quantitative and qualitative evaluations). Moreover, it is
disproportionally faster (runtime reduced from several days to seconds). Other
than diverse video generation, we demonstrate several other challenging video
applications, including spatio-temporal video retargeting, video structural
analogies and conditional video-inpainting.
- Abstract(参考訳): 最も高度なビデオ生成および操作方法は、大量のビデオのコレクションで訓練される。
そのため、トレーニング中のビデオダイナミクスの種類に制限される。
この制限を克服するために、単一のビデオでトレーニングされたGANが最近提案された。
これらは、多様なビデオダイナミックスに柔軟性を提供するが、単一の小さなインプットビデオのトレーニングには数日を要するため、現実的ではない。
本稿では,1つの自然なビデオから高速かつ実用的なビデオ生成と操作を行う手法を提案する。
本手法はフルhdビデオクリップにも数分以内に適用できる。
我々のアプローチは、最近の高度なパッチアレスト近傍アプローチ [Granot et al. 2021] にインスパイアされ、実行時と視覚的品質の両方において、シングルイメージのGANを著しく上回りました。
ここでは,このアプローチを画像からビデオに一般化し,従来の時空パッチベース手法を新たな生成的ビデオモデルとして採用する。
生成した画像パッチを近接するアプローチに適応し、一本の動画で大量の時空パッチに効率よく対処する。
本手法は, 単一ビデオGANよりもリアルで高品質な結果を生成する(定量的, 質的評価による確認)。
さらに、不均等に高速である(実行時間は数日から秒に短縮される)。
多様なビデオ生成以外にも,時空間ビデオの再ターゲティング,映像構造アナロジー,条件付きビデオインペインティングなど,いくつかの難解なビデオ応用例を示す。
関連論文リスト
- ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning [36.378348127629195]
ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案する。
このアプローチは、現在のビデオ合成モデルの能力を向上し、時間的長期にわたってコンテンツを制作できるように設計されている。
当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5倍の価格で生成可能なモデル容量を拡大しています。
論文 参考訳(メタデータ) (2024-06-20T09:18:54Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Diverse Video Generation from a Single Video [19.973264262422273]
GANは、単一のビデオでトレーニングされた生成および操作タスクを実行することができる。
本稿では,単一のビデオから生成するGANの必要性を疑問視する。
様々な生成タスクと操作タスクのための非パラメトリックベースラインを導入する。
論文 参考訳(メタデータ) (2022-05-11T18:36:48Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。