Fugu-MT 論文翻訳(概要): StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation

論文の概要: StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation

arxiv url: http://arxiv.org/abs/2308.16909v1
Date: Thu, 31 Aug 2023 17:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 13:23:58.810694
Title: StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation
Title（参考訳）: StyleInV:無条件ビデオ生成のためのテンポラルスタイル変調インバージョンネットワーク
Authors: Yuhan Wang, Liming Jiang, Chen Change Loy
Abstract要約: 本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
参考スコア（独自算出の注目度）: 73.54398908446906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unconditional video generation is a challenging task that involves synthesizing high-quality videos that are both coherent and of extended duration. To address this challenge, researchers have used pretrained StyleGAN image generators for high-quality frame synthesis and focused on motion generator design. The motion generator is trained in an autoregressive manner using heavy 3D convolutional discriminators to ensure motion coherence during video generation. In this paper, we introduce a novel motion generator design that uses a learning-based inversion network for GAN. The encoder in our method captures rich and smooth priors from encoding images to latents, and given the latent of an initially generated frame as guidance, our method can generate smooth future latent by modulating the inversion encoder temporally. Our method enjoys the advantage of sparse training and naturally constrains the generation space of our motion generator with the inversion network guided by the initial frame, eliminating the need for heavy discriminators. Moreover, our method supports style transfer with simple fine-tuning when the encoder is paired with a pretrained StyleGAN generator. Extensive experiments conducted on various benchmarks demonstrate the superiority of our method in generating long and high-resolution videos with decent single-frame quality and temporal consistency.
Abstract（参考訳）: 非条件のビデオ生成は、コヒーレントで長寿命の高品質なビデオを合成する難題である。この課題に対処するために、研究者は高品質なフレーム合成のために事前訓練されたStyleGANイメージジェネレータを使用し、モーションジェネレータの設計に焦点を当てた。動画生成時の動作コヒーレンスを確保するために、重い3D畳み込みディスクリミネータを用いて自己回帰的にトレーニングする。本稿では,GANのための学習型インバージョンネットワークを用いた新しいモーションジェネレータの設計を提案する。提案手法のエンコーダは,画像からレイトントへの符号化から,リッチでスムーズな先行情報をキャプチャし,初期生成フレームの潜時をガイダンスとして与えることで,インバージョンエンコーダを時間的に調整することで,スムーズな未来潜時を生成することができる。本手法はスパーストレーニングの利点を享受し,初期フレームに誘導された逆ネットワークにより運動発生器の生成空間を自然に制約し,重い判別器を不要にする。さらに,エンコーダを事前学習したStyleGANジェネレータと組み合わせた場合,簡単な微調整でスタイル転送をサポートする。様々なベンチマークで実施した大規模な実験は, 良好な単フレーム品質と時間的整合性を有する長大・高精細ビデオの生成において, 提案手法の優位性を示すものである。

関連論文リスト

READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-05T13:57:03Z)
Generative Pre-trained Autoregressive Diffusion Transformer [54.476056835275415]
GPDiT(GPDiT)は、自動回帰拡散変換器である。長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文参考訳（メタデータ） (2025-05-12T08:32:39Z)
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文参考訳（メタデータ） (2024-10-10T07:07:56Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。 Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文参考訳（メタデータ） (2023-04-17T17:57:06Z)
Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文参考訳（メタデータ） (2022-12-14T18:54:13Z)
Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文参考訳（メタデータ） (2022-02-21T23:24:01Z)
Feature-Style Encoder for Style-Based GAN Inversion [1.9116784879310027]
本稿では,特徴型エンコーダ(Feature-Style encoder)と呼ばれる,GANインバージョンのための新しいアーキテクチャを提案する。本モデルは,事前学習したスタイルベースGANモデルの潜在空間から,実画像の正確な逆変換を実現する。エンコーダ構造のおかげで、モデルは高速で正確な画像編集を可能にする。
論文参考訳（メタデータ） (2022-02-04T15:19:34Z)
Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文参考訳（メタデータ） (2022-01-18T11:42:14Z)
AE-StyleGAN: Improved Training of Style-Based Auto-Encoders [21.51697087024866]
StyleGANは、近年、データ生成と操作に関して印象的な成果を上げている。本稿では, 画像から潜伏空間への逆転過程を容易にし, 実際のデータ再構成を強制することは, より不整合な潜伏空間へと導かれるか? 本稿では,エンコーダとジェネレータをエンドツーエンドに最適化したスタイルベースのオートエンコーダをトレーニングする手法について述べる。
論文参考訳（メタデータ） (2021-10-17T04:25:51Z)
A Good Image Generator Is What You Need for High-Resolution Video Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文参考訳（メタデータ） (2021-04-30T15:38:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。