論文の概要: Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks
- arxiv url: http://arxiv.org/abs/2202.10571v1
- Date: Mon, 21 Feb 2022 23:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 14:55:02.847599
- Title: Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks
- Title(参考訳): ダイナミック・アウェア・インプシブ・ジェネリック・ジェネラル・ネットワークによる映像生成
- Authors: Sihyun Yu, Jihoon Tack, Sangwoo Mo, Hyunsu Kim, Junho Kim, Jung-Woo
Ha, Jinwoo Shin
- Abstract要約: ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
- 参考スコア(独自算出の注目度): 68.93429034530077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the deep learning era, long video generation of high-quality still remains
challenging due to the spatio-temporal complexity and continuity of videos.
Existing prior works have attempted to model video distribution by representing
videos as 3D grids of RGB values, which impedes the scale of generated videos
and neglects continuous dynamics. In this paper, we found that the recent
emerging paradigm of implicit neural representations (INRs) that encodes a
continuous signal into a parameterized neural network effectively mitigates the
issue. By utilizing INRs of video, we propose dynamics-aware implicit
generative adversarial network (DIGAN), a novel generative adversarial network
for video generation. Specifically, we introduce (a) an INR-based video
generator that improves the motion dynamics by manipulating the space and time
coordinates differently and (b) a motion discriminator that efficiently
identifies the unnatural motions without observing the entire long frame
sequences. We demonstrate the superiority of DIGAN under various datasets,
along with multiple intriguing properties, e.g., long video synthesis, video
extrapolation, and non-autoregressive video generation. For example, DIGAN
improves the previous state-of-the-art FVD score on UCF-101 by 30.7% and can be
trained on 128 frame videos of 128x128 resolution, 80 frames longer than the 48
frames of the previous state-of-the-art method.
- Abstract(参考訳): ディープラーニングの時代においては、ビデオの時空間的複雑さと連続性のために、高品質の長いビデオ生成は依然として困難である。
既存の先行研究では、動画をrgb値の3dグリッドとして表現することで、ビデオ配信のモデル化を試みた。
本稿では,連続信号をパラメータ化されたニューラルネットワークにエンコードする最近登場した暗黙的ニューラルネットワーク(inrs)のパラダイムが,この問題を効果的に緩和することを示す。
ビデオのINRを利用して、ビデオ生成のための新しい生成逆ネットワークDIGAN(Dynamics-aware implicit generative adversarial Network)を提案する。
具体的には
(a)空間と時間座標を別々に操作して運動ダイナミクスを向上させるinrベースのビデオジェネレータ
b) 長いフレーム列全体を観察することなく、不自然な動きを効率的に識別する動き判別器。
各種データセットにおけるDIGANの優位性を示すとともに、長大なビデオ合成、ビデオ外挿、非自己回帰ビデオ生成など、複数の興味深い特性を示す。
例えば、DIGANは以前のUCF-101のFVDスコアを30.7%改善し、128x128解像度の128フレームのビデオでトレーニングすることができる。
関連論文リスト
- Unfolding Videos Dynamics via Taylor Expansion [5.723852805622308]
ビデオの自己教師型動的学習戦略について紹介する: インスタンス識別のためのビデオ時間差分法(ViDiDi)
ViDiDiは、フレームシーケンスの時間的デリバティブのさまざまな順序を通して、ビデオの異なる側面を観察する。
ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを学習する。
論文 参考訳(メタデータ) (2024-09-04T01:41:09Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - Vid-ODE: Continuous-Time Video Generation with Neural Ordinary
Differential Equation [42.85126020237214]
本稿では,ニューラルODE(Vid-ODE)と画素レベルの画像処理技術を組み合わせた連続時間ビデオ生成を提案する。
Vid-ODEは、現実世界のビデオを使った連続的なビデオ生成を成功させた最初の作品である。
論文 参考訳(メタデータ) (2020-10-16T06:50:47Z) - Recurrent Deconvolutional Generative Adversarial Networks with
Application to Text Guided Video Generation [11.15855312510806]
本稿では,3次元畳み込みニューラルネットワーク(3D-CNN)を識別器とする,再帰的非畳み込み生成対向ネットワーク(RD-GAN)を提案する。
提案したモデルはRDNを押してリアルな映像を生成することで協調的に訓練できるので、3D-CNNは実際の映像と区別できない。
論文 参考訳(メタデータ) (2020-08-13T12:22:27Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。