論文の概要: Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis
- arxiv url: http://arxiv.org/abs/2402.14797v1
- Date: Thu, 22 Feb 2024 18:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:06:55.294903
- Title: Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis
- Title(参考訳): Snap Video: テキスト対ビデオ合成のための時空間スケール変換器
- Authors: Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina
Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci,
Jian Ren, Sergey Tulyakov
- Abstract要約: 映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
- 参考スコア(独自算出の注目度): 69.83405335645305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary models for generating images show remarkable quality and
versatility. Swayed by these advantages, the research community repurposes them
to generate videos. Since video content is highly redundant, we argue that
naively bringing advances of image models to the video generation domain
reduces motion fidelity, visual quality and impairs scalability. In this work,
we build Snap Video, a video-first model that systematically addresses these
challenges. To do that, we first extend the EDM framework to take into account
spatially and temporally redundant pixels and naturally support video
generation. Second, we show that a U-Net - a workhorse behind image generation
- scales poorly when generating videos, requiring significant computational
overhead. Hence, we propose a new transformer-based architecture that trains
3.31 times faster than U-Nets (and is ~4.5 faster at inference). This allows us
to efficiently train a text-to-video model with billions of parameters for the
first time, reach state-of-the-art results on a number of benchmarks, and
generate videos with substantially higher quality, temporal consistency, and
motion complexity. The user studies showed that our model was favored by a
large margin over the most recent methods. See our website at
https://snap-research.github.io/snapvideo/.
- Abstract(参考訳): 画像生成の現代モデルは、顕著な品質と汎用性を示している。
これらの利点に目を向けると、研究コミュニティはビデオを制作するためにそれらを再利用する。
映像コンテンツは非常に冗長であるため、映像生成領域における画像モデルの進化は、動きの忠実度、視覚的品質、スケーラビリティを損なうと論じる。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
そのために、まずEDMフレームワークを拡張して、空間的かつ時間的に冗長なピクセルを考慮し、ビデオ生成を自然にサポートする。
第2に,画像生成の背後にあるワークホースであるu-netは,ビデオ生成時のスケールが悪く,計算のオーバーヘッドが大きいことを示します。
そこで本研究では,U-Netよりも3.31倍高速で,推論時に4.5倍高速なトランスフォーマーベースアーキテクチャを提案する。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
ユーザスタディでは、我々のモデルは最新の手法よりも大きなマージンで好まれていた。
サイトはhttps://snap-research.github.io/snapvideo/。
関連論文リスト
- AtomoVideo: High Fidelity Image-to-Video Generation [25.01443995920118]
AtomoVideo という画像合成のための高忠実度フレームワークを提案する。
多粒度画像インジェクションに基づいて、生成した映像の忠実度を所定の画像に高める。
我々のアーキテクチャは、ビデオフレーム予測タスクに柔軟に拡張し、反復生成による長いシーケンス予測を可能にする。
論文 参考訳(メタデータ) (2024-03-04T07:41:50Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z) - StyleGAN-V: A Continuous Video Generator with the Price, Image Quality
and Perks of StyleGAN2 [39.835681276854025]
我々は、それらが何であるべきか、すなわち、時間連続的な信号を考え、神経表現のパラダイムを拡張して、連続的なビデオジェネレータを構築する。
StyleGAN2の上にモデルを構築し、同じ解像度でトレーニングし、ほぼ同じ画質を実現するのに、わずか5%のコストしかかからないのです。
提案モデルでは,最新の256$2$ビデオ合成ベンチマークと1024$2$解像度ベンチマークの4つの結果を得た。
論文 参考訳(メタデータ) (2021-12-29T17:58:29Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。