論文の概要: StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation
- arxiv url: http://arxiv.org/abs/2308.16909v1
- Date: Thu, 31 Aug 2023 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 13:23:58.810694
- Title: StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation
- Title(参考訳): StyleInV:無条件ビデオ生成のためのテンポラルスタイル変調インバージョンネットワーク
- Authors: Yuhan Wang, Liming Jiang, Chen Change Loy
- Abstract要約: 本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
- 参考スコア(独自算出の注目度): 73.54398908446906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unconditional video generation is a challenging task that involves
synthesizing high-quality videos that are both coherent and of extended
duration. To address this challenge, researchers have used pretrained StyleGAN
image generators for high-quality frame synthesis and focused on motion
generator design. The motion generator is trained in an autoregressive manner
using heavy 3D convolutional discriminators to ensure motion coherence during
video generation. In this paper, we introduce a novel motion generator design
that uses a learning-based inversion network for GAN. The encoder in our method
captures rich and smooth priors from encoding images to latents, and given the
latent of an initially generated frame as guidance, our method can generate
smooth future latent by modulating the inversion encoder temporally. Our method
enjoys the advantage of sparse training and naturally constrains the generation
space of our motion generator with the inversion network guided by the initial
frame, eliminating the need for heavy discriminators. Moreover, our method
supports style transfer with simple fine-tuning when the encoder is paired with
a pretrained StyleGAN generator. Extensive experiments conducted on various
benchmarks demonstrate the superiority of our method in generating long and
high-resolution videos with decent single-frame quality and temporal
consistency.
- Abstract(参考訳): 非条件のビデオ生成は、コヒーレントで長寿命の高品質なビデオを合成する難題である。
この課題に対処するために、研究者は高品質なフレーム合成のために事前訓練されたStyleGANイメージジェネレータを使用し、モーションジェネレータの設計に焦点を当てた。
動画生成時の動作コヒーレンスを確保するために、重い3D畳み込みディスクリミネータを用いて自己回帰的にトレーニングする。
本稿では,GANのための学習型インバージョンネットワークを用いた新しいモーションジェネレータの設計を提案する。
提案手法のエンコーダは,画像からレイトントへの符号化から,リッチでスムーズな先行情報をキャプチャし,初期生成フレームの潜時をガイダンスとして与えることで,インバージョンエンコーダを時間的に調整することで,スムーズな未来潜時を生成することができる。
本手法はスパーストレーニングの利点を享受し,初期フレームに誘導された逆ネットワークにより運動発生器の生成空間を自然に制約し,重い判別器を不要にする。
さらに,エンコーダを事前学習したStyleGANジェネレータと組み合わせた場合,簡単な微調整でスタイル転送をサポートする。
様々なベンチマークで実施した大規模な実験は, 良好な単フレーム品質と時間的整合性を有する長大・高精細ビデオの生成において, 提案手法の優位性を示すものである。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - Feature-Style Encoder for Style-Based GAN Inversion [1.9116784879310027]
本稿では,特徴型エンコーダ(Feature-Style encoder)と呼ばれる,GANインバージョンのための新しいアーキテクチャを提案する。
本モデルは,事前学習したスタイルベースGANモデルの潜在空間から,実画像の正確な逆変換を実現する。
エンコーダ構造のおかげで、モデルは高速で正確な画像編集を可能にする。
論文 参考訳(メタデータ) (2022-02-04T15:19:34Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - AE-StyleGAN: Improved Training of Style-Based Auto-Encoders [21.51697087024866]
StyleGANは、近年、データ生成と操作に関して印象的な成果を上げている。
本稿では, 画像から潜伏空間への逆転過程を容易にし, 実際のデータ再構成を強制することは, より不整合な潜伏空間へと導かれるか?
本稿では,エンコーダとジェネレータをエンドツーエンドに最適化したスタイルベースのオートエンコーダをトレーニングする手法について述べる。
論文 参考訳(メタデータ) (2021-10-17T04:25:51Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。