論文の概要: VideoGPT: Video Generation using VQ-VAE and Transformers
- arxiv url: http://arxiv.org/abs/2104.10157v1
- Date: Tue, 20 Apr 2021 17:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 15:08:50.586076
- Title: VideoGPT: Video Generation using VQ-VAE and Transformers
- Title(参考訳): VideoGPT:VQ-VAEとトランスフォーマーを用いたビデオ生成
- Authors: Wilson Yan, Yunzhi Zhang, Pieter Abbeel, Aravind Srinivas
- Abstract要約: VideoGGは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。
VideoGはVQ-Eを用いて、3D畳み込みと軸自己アテンションを用いて、離散的潜伏表現を学習する。
我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
- 参考スコア(独自算出の注目度): 75.20543171520565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VideoGPT: a conceptually simple architecture for scaling
likelihood based generative modeling to natural videos. VideoGPT uses VQ-VAE
that learns downsampled discrete latent representations of a raw video by
employing 3D convolutions and axial self-attention. A simple GPT-like
architecture is then used to autoregressively model the discrete latents using
spatio-temporal position encodings. Despite the simplicity in formulation and
ease of training, our architecture is able to generate samples competitive with
state-of-the-art GAN models for video generation on the BAIR Robot dataset, and
generate high fidelity natural images from UCF-101 and Tumbler GIF Dataset
(TGIF). We hope our proposed architecture serves as a reproducible reference
for a minimalistic implementation of transformer based video generation models.
Samples and code are available at
https://wilson1yan.github.io/videogpt/index.html
- Abstract(参考訳): videogpt: 自然ビデオに確率に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャです。
VideoGPTはVQ-VAEを使用して、3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。
単純なgptライクなアーキテクチャは時空間的位置符号化を用いて離散的潜在子を自己回帰的にモデル化するために使われる。
定式化と訓練の容易さにもかかわらず、我々のアーキテクチャは、BAIR Robotデータセット上のビデオ生成のための最先端のGANモデルと競合するサンプルを生成し、UCF-101とTumbler GIF Dataset(TGIF)から高忠実な自然画像を生成することができる。
提案するアーキテクチャは,トランスフォーマティブ・ビデオ生成モデルの最小限の実装のための再現可能なリファレンスとして機能することを願っている。
サンプルとコードはhttps://wilson1yan.github.io/videogpt/index.htmlで入手できる。
関連論文リスト
- JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.097213824684665]
離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。
画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。
正規表現を用いることで、言語生成と視覚生成の障壁を低くすることができることを示す。
論文 参考訳(メタデータ) (2024-08-15T23:57:02Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z) - A strong baseline for image and video quality assessment [4.73466728067544]
画像と映像の知覚的品質評価のための,シンプルで効果的な統合モデルを提案する。
本モデルでは,バックボーンネットワークから派生したグローバルな特徴を1つだけ適用することで,同等の性能を実現する。
提案したアーキテクチャに基づいて、3つの一般的な実世界のシナリオに対して十分に訓練されたモデルをリリースする。
論文 参考訳(メタデータ) (2021-11-13T12:24:08Z) - Generative Video Transformer: Can Objects be the Words? [22.788711301106765]
本稿では,オブジェクト中心のアプローチを用いてシーンを生成ビデオトランスに適したトークンに分解するオブジェクト中心ビデオトランス (OCVT) を提案する。
映像をオブジェクトに分解することで、完全に教師されていないモデルでは、シーン内の複数のオブジェクトの複雑な時間的ダイナミクスを学習し、ビデオの将来のフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-20T03:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。