論文の概要: Recurrent Deconvolutional Generative Adversarial Networks with
Application to Text Guided Video Generation
- arxiv url: http://arxiv.org/abs/2008.05856v1
- Date: Thu, 13 Aug 2020 12:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:32:27.114195
- Title: Recurrent Deconvolutional Generative Adversarial Networks with
Application to Text Guided Video Generation
- Title(参考訳): recurrent deconvolutional generative adversarial networksとテキスト誘導ビデオ生成への応用
- Authors: Hongyuan Yu, Yan Huang, Lihong Pi, Liang Wang
- Abstract要約: 本稿では,3次元畳み込みニューラルネットワーク(3D-CNN)を識別器とする,再帰的非畳み込み生成対向ネットワーク(RD-GAN)を提案する。
提案したモデルはRDNを押してリアルな映像を生成することで協調的に訓練できるので、3D-CNNは実際の映像と区別できない。
- 参考スコア(独自算出の注目度): 11.15855312510806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel model for video generation and especially makes
the attempt to deal with the problem of video generation from text
descriptions, i.e., synthesizing realistic videos conditioned on given texts.
Existing video generation methods cannot be easily adapted to handle this task
well, due to the frame discontinuity issue and their text-free generation
schemes. To address these problems, we propose a recurrent deconvolutional
generative adversarial network (RD-GAN), which includes a recurrent
deconvolutional network (RDN) as the generator and a 3D convolutional neural
network (3D-CNN) as the discriminator. The RDN is a deconvolutional version of
conventional recurrent neural network, which can well model the long-range
temporal dependency of generated video frames and make good use of conditional
information. The proposed model can be jointly trained by pushing the RDN to
generate realistic videos so that the 3D-CNN cannot distinguish them from real
ones. We apply the proposed RD-GAN to a series of tasks including conventional
video generation, conditional video generation, video prediction and video
classification, and demonstrate its effectiveness by achieving well
performance.
- Abstract(参考訳): 本稿では,ビデオ生成の新しいモデルを提案し,特にテキスト記述からのビデオ生成の問題,すなわち与えられたテキストに条件付き現実的な映像を合成しようとする試みについて述べる。
フレームの不連続性問題とそのテキストフリー生成方式のため、既存のビデオ生成手法は、このタスクをうまく扱うために容易に適応できない。
そこで,本研究では,生成器として再帰的脱畳み込みネットワーク(rdn),識別器として3次元畳み込みニューラルネットワーク(3d-cnn)を含む再帰的脱畳み込み生成逆ネットワーク(rd-gan)を提案する。
RDNは従来のリカレントニューラルネットワークの非畳み込みバージョンであり、生成したビデオフレームの長距離時間依存性をうまくモデル化し、条件情報を利用することができる。
提案したモデルはRDNを押してリアルな映像を生成することで協調的に訓練できるので、3D-CNNは実際の映像と区別できない。
提案したRD-GANを,従来の映像生成,条件付き映像生成,映像予測,映像分類を含む一連のタスクに適用し,その有効性を示す。
関連論文リスト
- Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - UniVG: Towards UNIfied-modal Video Generation [27.07637246141562]
テキストと画像のモダリティをまたいだ複数のビデオ生成タスクを処理できる統一モーダルビデオ生成システムを提案する。
MSR-VTT上ではFr'echet Video Distance (FVD) が最も低く、人間の評価において現在のオープンソース手法を上回り、現在のオープンソース手法であるGen2と同等である。
論文 参考訳(メタデータ) (2024-01-17T09:46:13Z) - Conditional Generative Modeling for Images, 3D Animations, and Video [4.422441608136163]
コンピュータビジョンのための生成モデリングの分野における革新を推進しようとする論文。
研究は、ノイズと視覚データの変換を提供するアーキテクチャと、生成タスクや3Dコンテンツ操作にエンコーダ・デコーダアーキテクチャを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2023-10-19T21:10:39Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。