論文の概要: StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation
- arxiv url: http://arxiv.org/abs/2308.16909v1
- Date: Thu, 31 Aug 2023 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 13:23:58.810694
- Title: StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation
- Title(参考訳): StyleInV:無条件ビデオ生成のためのテンポラルスタイル変調インバージョンネットワーク
- Authors: Yuhan Wang, Liming Jiang, Chen Change Loy
- Abstract要約: 本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
- 参考スコア(独自算出の注目度): 73.54398908446906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unconditional video generation is a challenging task that involves
synthesizing high-quality videos that are both coherent and of extended
duration. To address this challenge, researchers have used pretrained StyleGAN
image generators for high-quality frame synthesis and focused on motion
generator design. The motion generator is trained in an autoregressive manner
using heavy 3D convolutional discriminators to ensure motion coherence during
video generation. In this paper, we introduce a novel motion generator design
that uses a learning-based inversion network for GAN. The encoder in our method
captures rich and smooth priors from encoding images to latents, and given the
latent of an initially generated frame as guidance, our method can generate
smooth future latent by modulating the inversion encoder temporally. Our method
enjoys the advantage of sparse training and naturally constrains the generation
space of our motion generator with the inversion network guided by the initial
frame, eliminating the need for heavy discriminators. Moreover, our method
supports style transfer with simple fine-tuning when the encoder is paired with
a pretrained StyleGAN generator. Extensive experiments conducted on various
benchmarks demonstrate the superiority of our method in generating long and
high-resolution videos with decent single-frame quality and temporal
consistency.
- Abstract(参考訳): 非条件のビデオ生成は、コヒーレントで長寿命の高品質なビデオを合成する難題である。
この課題に対処するために、研究者は高品質なフレーム合成のために事前訓練されたStyleGANイメージジェネレータを使用し、モーションジェネレータの設計に焦点を当てた。
動画生成時の動作コヒーレンスを確保するために、重い3D畳み込みディスクリミネータを用いて自己回帰的にトレーニングする。
本稿では,GANのための学習型インバージョンネットワークを用いた新しいモーションジェネレータの設計を提案する。
提案手法のエンコーダは,画像からレイトントへの符号化から,リッチでスムーズな先行情報をキャプチャし,初期生成フレームの潜時をガイダンスとして与えることで,インバージョンエンコーダを時間的に調整することで,スムーズな未来潜時を生成することができる。
本手法はスパーストレーニングの利点を享受し,初期フレームに誘導された逆ネットワークにより運動発生器の生成空間を自然に制約し,重い判別器を不要にする。
さらに,エンコーダを事前学習したStyleGANジェネレータと組み合わせた場合,簡単な微調整でスタイル転送をサポートする。
様々なベンチマークで実施した大規模な実験は, 良好な単フレーム品質と時間的整合性を有する長大・高精細ビデオの生成において, 提案手法の優位性を示すものである。
関連論文リスト
- Boosting Neural Representations for Videos with a Conditional Decoder [29.282744018755558]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane
Networks [63.84589410872608]
本研究では,長期的空間的および時間的依存に対処する新しい非条件ビデオ生成モデルを提案する。
提案手法は計算複雑性をFLOPの測定値として2ドル程度削減する。
我々のモデルは高精細度ビデオクリップを256時間256ドルピクセルの解像度で合成でき、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion
Models [95.47438940934413]
UNetエンコーダの最初の包括的な研究を行う。
エンコーダの特徴は緩やかに変化するが,デコーダの特徴は時間経過によって大きく変化する。
伝搬方式の利点を生かして,特定の時間ステップでデコーダを並列に実行することが可能となる。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - Feature-Style Encoder for Style-Based GAN Inversion [1.9116784879310027]
本稿では,特徴型エンコーダ(Feature-Style encoder)と呼ばれる,GANインバージョンのための新しいアーキテクチャを提案する。
本モデルは,事前学習したスタイルベースGANモデルの潜在空間から,実画像の正確な逆変換を実現する。
エンコーダ構造のおかげで、モデルは高速で正確な画像編集を可能にする。
論文 参考訳(メタデータ) (2022-02-04T15:19:34Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - AE-StyleGAN: Improved Training of Style-Based Auto-Encoders [21.51697087024866]
StyleGANは、近年、データ生成と操作に関して印象的な成果を上げている。
本稿では, 画像から潜伏空間への逆転過程を容易にし, 実際のデータ再構成を強制することは, より不整合な潜伏空間へと導かれるか?
本稿では,エンコーダとジェネレータをエンドツーエンドに最適化したスタイルベースのオートエンコーダをトレーニングする手法について述べる。
論文 参考訳(メタデータ) (2021-10-17T04:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。