論文の概要: Video Generation Beyond a Single Clip
- arxiv url: http://arxiv.org/abs/2304.07483v1
- Date: Sat, 15 Apr 2023 06:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 18:53:21.778707
- Title: Video Generation Beyond a Single Clip
- Title(参考訳): 一つのビデオクリップを超えたビデオ生成
- Authors: Hsin-Ping Huang, Yu-Chuan Su, Ming-Hsuan Yang
- Abstract要約: ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
- 参考スコア(独自算出の注目度): 76.5306434379088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the long video generation problem, i.e.~generating videos beyond
the output length of video generation models. Due to the computation resource
constraints, video generation models can only generate video clips that are
relatively short compared with the length of real videos. Existing works apply
a sliding window approach to generate long videos at inference time, which is
often limited to generating recurrent events or homogeneous content. To
generate long videos covering diverse content and multiple events, we propose
to use additional guidance to control the video generation process. We further
present a two-stage approach to the problem, which allows us to utilize
existing video generation models to generate high-quality videos within a small
time window while modeling the video holistically based on the input guidance.
The proposed approach is complementary to existing efforts on video generation,
which focus on generating realistic video within a fixed time window. Extensive
experiments on challenging real-world videos validate the benefit of the
proposed method, which improves over state-of-the-art by up to 9.5% in
objective metrics and is preferred by users more than 80% of time.
- Abstract(参考訳): 我々は、ビデオ生成モデルの出力長を超えるビデオの生成という長大な問題に取り組む。
計算資源の制約により、ビデオ生成モデルは実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
既存の作業では、リカレントイベントや同種コンテンツの生成に制限される長いビデオを推論時に生成するためのスライディングウィンドウアプローチを採用している。
多様なコンテンツやイベントをカバーする長編ビデオを生成するために,動画生成プロセスを制御するための追加ガイダンスを提案する。
さらに,この問題に対する2段階のアプローチを提案することで,既存の映像生成モデルを用いて,入力指導に基づいて映像をモデル化しながら,短時間で高品質な映像を生成できる。
提案手法は,固定時間内にリアルな映像を生成することに焦点を当てた映像生成への既存の取り組みを補完するものである。
実世界のビデオに挑戦する大規模な実験により、提案手法の利点が検証され、客観的な指標の最大9.5%の改善が達成され、80%以上のユーザが好んでいる。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Diverse Generation from a Single Video Made Possible [24.39972895902724]
本稿では,1つの自然なビデオから映像を生成し,操作するための高速で実用的な方法を提案する。
本手法は,シングルビデオGANよりもリアルで高品質な結果を生成する。
論文 参考訳(メタデータ) (2021-09-17T15:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。