論文の概要: StyleGAN-V: A Continuous Video Generator with the Price, Image Quality
and Perks of StyleGAN2
- arxiv url: http://arxiv.org/abs/2112.14683v1
- Date: Wed, 29 Dec 2021 17:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 15:20:53.618276
- Title: StyleGAN-V: A Continuous Video Generator with the Price, Image Quality
and Perks of StyleGAN2
- Title(参考訳): StyleGAN-V:StyleGAN2の価格、画質、パークを備えた連続ビデオジェネレータ
- Authors: Ivan Skorokhodov, Sergey Tulyakov, Mohamed Elhoseiny
- Abstract要約: 我々は、それらが何であるべきか、すなわち、時間連続的な信号を考え、神経表現のパラダイムを拡張して、連続的なビデオジェネレータを構築する。
StyleGAN2の上にモデルを構築し、同じ解像度でトレーニングし、ほぼ同じ画質を実現するのに、わずか5%のコストしかかからないのです。
提案モデルでは,最新の256$2$ビデオ合成ベンチマークと1024$2$解像度ベンチマークの4つの結果を得た。
- 参考スコア(独自算出の注目度): 39.835681276854025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Videos show continuous events, yet most - if not all - video synthesis
frameworks treat them discretely in time. In this work, we think of videos of
what they should be - time-continuous signals, and extend the paradigm of
neural representations to build a continuous-time video generator. For this, we
first design continuous motion representations through the lens of positional
embeddings. Then, we explore the question of training on very sparse videos and
demonstrate that a good generator can be learned by using as few as 2 frames
per clip. After that, we rethink the traditional image and video discriminators
pair and propose to use a single hypernetwork-based one. This decreases the
training cost and provides richer learning signal to the generator, making it
possible to train directly on 1024$^2$ videos for the first time. We build our
model on top of StyleGAN2 and it is just 5% more expensive to train at the same
resolution while achieving almost the same image quality. Moreover, our latent
space features similar properties, enabling spatial manipulations that our
method can propagate in time. We can generate arbitrarily long videos at
arbitrary high frame rate, while prior work struggles to generate even 64
frames at a fixed rate. Our model achieves state-of-the-art results on four
modern 256$^2$ video synthesis benchmarks and one 1024$^2$ resolution one.
Videos and the source code are available at the project website:
https://universome.github.io/stylegan-v.
- Abstract(参考訳): ビデオは連続的なイベントを表示するが、ビデオ合成フレームワークのほとんどは、時間内にそれらを個別に扱う。
この研究では、それらが何であるべきか、すなわち、時間連続的な信号を考え、神経表現のパラダイムを拡張して、連続的なビデオジェネレータを構築する。
このために,まず位置埋め込みのレンズを通して連続運動表現を設計する。
次に,非常にスパースなビデオのトレーニングについて検討し,良質なジェネレータを1クリップあたり2フレームのフレーム数で学習できることを実証する。
その後、従来の画像とビデオの識別器のペアを再考し、単一のハイパーネットワークベースのものを提案する。
これにより、トレーニングコストが削減され、ジェネレータによりリッチな学習信号を提供し、初めて1024$^2$ビデオを直接トレーニングすることができる。
stylegan2上にモデルを構築していますが、同じ解像度でトレーニングするコストはわずか5%高く、ほぼ同じ画質を実現しています。
さらに, 潜在空間にも同様の特性があり, 時間内に伝搬できる空間操作が可能となる。
任意のフレームレートで任意に長い動画を生成できるが、以前の作業では64フレームを一定レートで生成するのに苦労している。
提案モデルでは,最新の256$^2$ビデオ合成ベンチマークと1024$^2$解像度ベンチマークの4つの結果を得た。
ビデオとソースコードはプロジェクトのwebサイト(https://universome.github.io/stylegan-v.com/)で入手できる。
関連論文リスト
- SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device [61.42406720183769]
本稿では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。
我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2024-12-13T18:59:56Z) - REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - Is a Video worth $n\times n$ Images? A Highly Efficient Approach to
Transformer-based Video Question Answering [14.659023742381777]
従来のトランスフォーマーベースのビデオ質問応答 (Video QA) は、1つ以上の画像エンコーダを通してフレームを独立に符号化し、その後フレームとクエスチョンの間のインタラクションを行う。
既存の視覚言語による事前学習モデルに基づいて,ビデオQAに高効率なアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-16T02:12:57Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Talking Head from Speech Audio using a Pre-trained Image Generator [5.659018934205065]
音声音声と1つの「同一性」画像から音声の高精細度映像を生成する手法を提案する。
我々は、各フレームをStyleGANの潜在空間の点としてモデル化し、ビデオが潜在空間の軌跡に対応するようにした。
我々は、音声発話から画像生成装置の潜時空間の変位へマッピングするために、繰り返しニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-09T11:20:37Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - Diverse Generation from a Single Video Made Possible [24.39972895902724]
本稿では,1つの自然なビデオから映像を生成し,操作するための高速で実用的な方法を提案する。
本手法は,シングルビデオGANよりもリアルで高品質な結果を生成する。
論文 参考訳(メタデータ) (2021-09-17T15:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。