Fugu-MT 論文翻訳(概要): Predicting Video with VQVAE

論文の概要: Predicting Video with VQVAE

arxiv url: http://arxiv.org/abs/2103.01950v1
Date: Tue, 2 Mar 2021 18:59:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-03 17:08:24.094338
Title: Predicting Video with VQVAE
Title（参考訳）: VQVAEによる映像予測
Authors: Jacob Walker, Ali Razavi, and A\"aron van den Oord
Abstract要約: 我々は、Vector Quantized Variational AutoEncoders (VQ-VAE) を用いて、高解像度のビデオを階層的な離散潜在変数集合に圧縮する。画素と比較すると、圧縮された潜在空間は次元を劇的に減らし、スケーラブルな自己回帰生成モデルを適用して映像を予測できる。私達は私達の知識に他のどの方法よりも制約のないビデオ、256x256のより高い分解能で映像を、予測します。
参考スコア（独自算出の注目度）: 8.698137120086063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, the task of video prediction-forecasting future video given past video frames-has attracted attention in the research community. In this paper we propose a novel approach to this problem with Vector Quantized Variational AutoEncoders (VQ-VAE). With VQ-VAE we compress high-resolution videos into a hierarchical set of multi-scale discrete latent variables. Compared to pixels, this compressed latent space has dramatically reduced dimensionality, allowing us to apply scalable autoregressive generative models to predict video. In contrast to previous work that has largely emphasized highly constrained datasets, we focus on very diverse, large-scale datasets such as Kinetics-600. We predict video at a higher resolution on unconstrained videos, 256x256, than any other previous method to our knowledge. We further validate our approach against prior work via a crowdsourced human evaluation.
Abstract（参考訳）: 近年は、過去の映像枠に与えた将来の映像予測の課題が研究コミュニティで注目を集めています。本稿では,Vector Quantized Variational Auto Encoders (VQ-VAE) を用いた新しいアプローチを提案する。 VQ-VAEでは、高解像度のビデオを階層的な多スケール離散潜在変数に圧縮する。画素と比較すると、圧縮された潜在空間は次元を劇的に減らし、スケーラブルな自己回帰生成モデルを適用して映像を予測できる。高度に制約されたデータセットを強調した以前の研究とは対照的に、kinetics-600のような非常に多様な大規模データセットにフォーカスしています。私達は私達の知識に他のどの方法よりも制約のないビデオ、256x256のより高い分解能で映像を、予測します。さらに,クラウドソーシングによる人的評価を通じて,先行研究に対するアプローチを検証する。

関連論文リスト

WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
HARP: Autoregressive Latent Video Prediction with High-Fidelity Image Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文参考訳（メタデータ） (2022-09-15T08:41:57Z)
Efficient training for future video generation based on hierarchical disentangled representation of latent variables [66.94698064734372]
本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。 1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
論文参考訳（メタデータ） (2021-06-07T10:43:23Z)
Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。 GHVAEは4つのビデオデータセットで予測性能が17～55%向上し、実際のロボットタスクで35～40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文参考訳（メタデータ） (2021-03-06T18:58:56Z)
VAE^2: Preventing Posterior Collapse of Variational Video Predictions in the Wild [131.58069944312248]
本稿では,VAE-in-VAEまたはVAE$2の新規なVAE構造を提案する。我々は、観察されたビデオシーケンスの一部を、その過去と未来を橋渡しするランダムな遷移状態として扱い、あらゆる可能な遷移状態の下で、ビデオシーケンス上のマルコフ連鎖の可能性を最大化する。 VAE$2$は、未来と観測の間の直接的な依存を断ち切るため、後方崩壊問題を広範囲に緩和することができ、トレーニングデータによって提供される決定的な未来を直接遅らせることはない。
論文参考訳（メタデータ） (2021-01-28T15:06:08Z)
Transformation-based Adversarial Video Prediction on Large-Scale Data [19.281817081571408]
本稿では,映像から抽出したフレーム列を考慮に入れた上で,映像予測の課題に焦点をあてる。まず, 判別器分解の系統的研究を行い, その状態を改善する。そこで我々は,従来の隠れ状態が予測された動きにしたがって変化する新しい再帰ユニットを提案する。
論文参考訳（メタデータ） (2020-03-09T10:52:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。