論文の概要: Video Generation from Text Employing Latent Path Construction for
Temporal Modeling
- arxiv url: http://arxiv.org/abs/2107.13766v1
- Date: Thu, 29 Jul 2021 06:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:17:56.659807
- Title: Video Generation from Text Employing Latent Path Construction for
Temporal Modeling
- Title(参考訳): 時間モデルのための潜在経路構成を用いたテキストからの映像生成
- Authors: Amir Mazaheri, Mubarak Shah
- Abstract要約: ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
- 参考スコア(独自算出の注目度): 70.06508219998778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation is one of the most challenging tasks in Machine Learning and
Computer Vision fields of study. In this paper, we tackle the text to video
generation problem, which is a conditional form of video generation. Humans can
listen/read natural language sentences, and can imagine or visualize what is
being described; therefore, we believe that video generation from natural
language sentences will have an important impact on Artificial Intelligence.
Video generation is relatively a new field of study in Computer Vision, which
is far from being solved. The majority of recent works deal with synthetic
datasets or real datasets with very limited types of objects, scenes, and
emotions. To the best of our knowledge, this is the very first work on the text
(free-form sentences) to video generation on more realistic video datasets like
Actor and Action Dataset (A2D) or UCF101. We tackle the complicated problem of
video generation by regressing the latent representations of the first and last
frames and employing a context-aware interpolation method to build the latent
representations of in-between frames. We propose a stacking ``upPooling'' block
to sequentially generate RGB frames out of each latent representation and
progressively increase the resolution. Moreover, our proposed Discriminator
encodes videos based on single and multiple frames. We provide quantitative and
qualitative results to support our arguments and show the superiority of our
method over well-known baselines like Recurrent Neural Network (RNN) and
Deconvolution (as known as Convolutional Transpose) based video generation
methods.
- Abstract(参考訳): ビデオ生成は、機械学習とコンピュータビジョンの分野で最も困難なタスクの1つである。
本稿では,映像生成の条件付き形式であるテキストから映像生成問題に取り組む。
人間は自然言語の文を聴く/読むことができ、何が記述されているのかを想像または視覚化することができる。
ビデオ生成はコンピュータビジョンにおける比較的新しい研究分野であり、解決にはほど遠い。
最近の作品の大部分は、非常に限られた種類のオブジェクト、シーン、感情を持つ合成データセットや実際のデータセットを扱う。
私たちの知る限りでは、ActorやAction Dataset(A2D)やUCF101といった、より現実的なビデオデータセットでビデオを生成するためのテキスト(フリーフォームの文)に関する最初の作業です。
第1フレームと最後のフレームの潜在表現をレグレッションし、コンテキスト対応補間法を用いてフレーム間の潜在表現を構築することで、ビデオ生成の複雑な問題に取り組む。
本稿では,各潜在表現からRGBフレームを逐次生成し,段階的に解像度を向上する'upPooling'ブロックを提案する。
さらに,提案する判別器は,単一フレームと複数フレームに基づく映像を符号化する。
提案手法は,recurrent neural network (rnn) やdeconvolution (convolutional transpose として知られる) に基づくビデオ生成手法など,よく知られたベースラインよりも優れていることを示す。
関連論文リスト
- Grid Diffusion Models for Text-to-Video Generation [2.531998650341267]
既存のビデオ生成手法の多くは、時間次元を考慮した3D U-Netアーキテクチャまたは自己回帰生成を使用する。
アーキテクチャにおける時間次元を伴わないテキスト・ビデオ生成と大規模なテキスト・ビデオ・ペア・データセットのための,単純だが効果的な新しいグリッド拡散法を提案する。
提案手法は,定量評価と定性評価の両方において既存手法より優れている。
論文 参考訳(メタデータ) (2024-03-30T03:50:43Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - UniVG: Towards UNIfied-modal Video Generation [27.07637246141562]
テキストと画像のモダリティをまたいだ複数のビデオ生成タスクを処理できる統一モーダルビデオ生成システムを提案する。
MSR-VTT上ではFr'echet Video Distance (FVD) が最も低く、人間の評価において現在のオープンソース手法を上回り、現在のオープンソース手法であるGen2と同等である。
論文 参考訳(メタデータ) (2024-01-17T09:46:13Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - LIFI: Towards Linguistically Informed Frame Interpolation [66.05105400951567]
我々は、複数のディープラーニングビデオ生成アルゴリズムを用いて、欠落したフレームを生成することで、この問題を解決しようとしている。
音声理解のコンピュータビジョン映像生成モデルをテストするために,いくつかのデータセットをリリースする。
論文 参考訳(メタデータ) (2020-10-30T05:02:23Z) - TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary
Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。
ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文 参考訳(メタデータ) (2020-09-04T06:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。