論文の概要: StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN
- arxiv url: http://arxiv.org/abs/2107.07224v1
- Date: Thu, 15 Jul 2021 09:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:00:53.399508
- Title: StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN
- Title(参考訳): StyleVideoGAN: 事前学習型StyleGANを用いた時間生成モデル
- Authors: Gereon Fox and Ayush Tewari and Mohamed Elgharib and Christian
Theobalt
- Abstract要約: 本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
- 参考スコア(独自算出の注目度): 70.31913835035206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative adversarial models (GANs) continue to produce advances in terms of
the visual quality of still images, as well as the learning of temporal
correlations. However, few works manage to combine these two interesting
capabilities for the synthesis of video content: Most methods require an
extensive training dataset in order to learn temporal correlations, while being
rather limited in the resolution and visual quality of their output frames. In
this paper, we present a novel approach to the video synthesis problem that
helps to greatly improve visual quality and drastically reduce the amount of
training data and resources necessary for generating video content. Our
formulation separates the spatial domain, in which individual frames are
synthesized, from the temporal domain, in which motion is generated. For the
spatial domain we make use of a pre-trained StyleGAN network, the latent space
of which allows control over the appearance of the objects it was trained for.
The expressive power of this model allows us to embed our training videos in
the StyleGAN latent space. Our temporal architecture is then trained not on
sequences of RGB frames, but on sequences of StyleGAN latent codes. The
advantageous properties of the StyleGAN space simplify the discovery of
temporal correlations. We demonstrate that it suffices to train our temporal
architecture on only 10 minutes of footage of 1 subject for about 6 hours.
After training, our model can not only generate new portrait videos for the
training subject, but also for any random subject which can be embedded in the
StyleGAN space.
- Abstract(参考訳): generative adversarial models (gans) は、静止画像の視覚品質や時間相関の学習という観点で進歩を続けている。
大部分の手法では、時間的相関を学習するために、広範囲なトレーニングデータセットが必要ですが、出力フレームの解像度と視覚的品質には制限があります。
本稿では,映像コンテンツ生成に必要なトレーニングデータやリソースの量を大幅に削減し,映像品質の大幅な向上に寄与する映像合成問題に対する新しいアプローチを提案する。
我々の定式化は、個々のフレームが合成される空間領域と、動きが生成される時間領域とを分離する。
空間領域に対しては、トレーニング済みのオブジェクトの外観を制御できる潜在空間である、事前トレーニング済みのStyleGANネットワークを使用します。
このモデルの表現力により、トレーニングビデオをStyleGANの潜在空間に埋め込むことができます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
StyleGAN空間の有利な性質は時間相関の発見を単純化する。
1人の被験者の10分間の映像を6時間程度で、時間的アーキテクチャをトレーニングできることを実証した。
トレーニング後,本モデルでは,トレーニング対象者だけでなく,StyleGAN空間に埋め込まれる任意のランダムな被写体に対して,新たなポートレートビデオを生成することができる。
関連論文リスト
- Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Spatial-Temporal Transformer for Dynamic Scene Graph Generation [34.190733855032065]
本研究では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダと,(2)空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークを提案する。
我々の方法はベンチマークデータセットAction Genome(AG)で検証されている。
論文 参考訳(メタデータ) (2021-07-26T16:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。