論文の概要: Predicting Video with VQVAE
- arxiv url: http://arxiv.org/abs/2103.01950v1
- Date: Tue, 2 Mar 2021 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:08:24.094338
- Title: Predicting Video with VQVAE
- Title(参考訳): VQVAEによる映像予測
- Authors: Jacob Walker, Ali Razavi, and A\"aron van den Oord
- Abstract要約: 我々は、Vector Quantized Variational AutoEncoders (VQ-VAE) を用いて、高解像度のビデオを階層的な離散潜在変数集合に圧縮する。
画素と比較すると、圧縮された潜在空間は次元を劇的に減らし、スケーラブルな自己回帰生成モデルを適用して映像を予測できる。
私達は私達の知識に他のどの方法よりも制約のないビデオ、256x256のより高い分解能で映像を、予測します。
- 参考スコア(独自算出の注目度): 8.698137120086063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the task of video prediction-forecasting future video given
past video frames-has attracted attention in the research community. In this
paper we propose a novel approach to this problem with Vector Quantized
Variational AutoEncoders (VQ-VAE). With VQ-VAE we compress high-resolution
videos into a hierarchical set of multi-scale discrete latent variables.
Compared to pixels, this compressed latent space has dramatically reduced
dimensionality, allowing us to apply scalable autoregressive generative models
to predict video. In contrast to previous work that has largely emphasized
highly constrained datasets, we focus on very diverse, large-scale datasets
such as Kinetics-600. We predict video at a higher resolution on unconstrained
videos, 256x256, than any other previous method to our knowledge. We further
validate our approach against prior work via a crowdsourced human evaluation.
- Abstract(参考訳): 近年は、過去の映像枠に与えた将来の映像予測の課題が研究コミュニティで注目を集めています。
本稿では,Vector Quantized Variational Auto Encoders (VQ-VAE) を用いた新しいアプローチを提案する。
VQ-VAEでは、高解像度のビデオを階層的な多スケール離散潜在変数に圧縮する。
画素と比較すると、圧縮された潜在空間は次元を劇的に減らし、スケーラブルな自己回帰生成モデルを適用して映像を予測できる。
高度に制約されたデータセットを強調した以前の研究とは対照的に、kinetics-600のような非常に多様な大規模データセットにフォーカスしています。
私達は私達の知識に他のどの方法よりも制約のないビデオ、256x256のより高い分解能で映像を、予測します。
さらに,クラウドソーシングによる人的評価を通じて,先行研究に対するアプローチを検証する。
関連論文リスト
- Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Diffusion Models for Video Prediction and Infilling [27.246449347832108]
本稿では,Random-Mask Video Diffusion (RaMViD)を提案する。
マスクをオンにすることで、モデルはビデオ予測、補充、アップサンプリングを行うことができる。
我々は,ビデオ予測のためのベンチマークデータセットと,競争力のある結果を得たビデオ生成のためのベンチマークデータセットを2つ評価した。
論文 参考訳(メタデータ) (2022-06-15T17:44:47Z) - Efficient training for future video generation based on hierarchical
disentangled representation of latent variables [66.94698064734372]
本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。
1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。
提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
論文 参考訳(メタデータ) (2021-06-07T10:43:23Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - VAE^2: Preventing Posterior Collapse of Variational Video Predictions in
the Wild [131.58069944312248]
本稿では,VAE-in-VAEまたはVAE$2の新規なVAE構造を提案する。
我々は、観察されたビデオシーケンスの一部を、その過去と未来を橋渡しするランダムな遷移状態として扱い、あらゆる可能な遷移状態の下で、ビデオシーケンス上のマルコフ連鎖の可能性を最大化する。
VAE$2$は、未来と観測の間の直接的な依存を断ち切るため、後方崩壊問題を広範囲に緩和することができ、トレーニングデータによって提供される決定的な未来を直接遅らせることはない。
論文 参考訳(メタデータ) (2021-01-28T15:06:08Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z) - Transformation-based Adversarial Video Prediction on Large-Scale Data [19.281817081571408]
本稿では,映像から抽出したフレーム列を考慮に入れた上で,映像予測の課題に焦点をあてる。
まず, 判別器分解の系統的研究を行い, その状態を改善する。
そこで我々は,従来の隠れ状態が予測された動きにしたがって変化する新しい再帰ユニットを提案する。
論文 参考訳(メタデータ) (2020-03-09T10:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。