論文の概要: VAE^2: Preventing Posterior Collapse of Variational Video Predictions in
the Wild
- arxiv url: http://arxiv.org/abs/2101.12050v1
- Date: Thu, 28 Jan 2021 15:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-01-31 22:41:50.248008
- Title: VAE^2: Preventing Posterior Collapse of Variational Video Predictions in
the Wild
- Title(参考訳): VAE^2:野生における変分映像予測の後方崩壊防止
- Authors: Yizhou Zhou, Chong Luo, Xiaoyan Sun, Zheng-Jun Zha and Wenjun Zeng
- Abstract要約: 本稿では,VAE-in-VAEまたはVAE$2の新規なVAE構造を提案する。
我々は、観察されたビデオシーケンスの一部を、その過去と未来を橋渡しするランダムな遷移状態として扱い、あらゆる可能な遷移状態の下で、ビデオシーケンス上のマルコフ連鎖の可能性を最大化する。
VAE$2$は、未来と観測の間の直接的な依存を断ち切るため、後方崩壊問題を広範囲に緩和することができ、トレーニングデータによって提供される決定的な未来を直接遅らせることはない。
- 参考スコア(独自算出の注目度): 131.58069944312248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting future frames of video sequences is challenging due to the complex
and stochastic nature of the problem. Video prediction methods based on
variational auto-encoders (VAEs) have been a great success, but they require
the training data to contain multiple possible futures for an observed video
sequence. This is hard to be fulfilled when videos are captured in the wild
where any given observation only has a determinate future. As a result,
training a vanilla VAE model with these videos inevitably causes posterior
collapse. To alleviate this problem, we propose a novel VAE structure, dabbed
VAE-in-VAE or VAE$^2$. The key idea is to explicitly introduce stochasticity
into the VAE. We treat part of the observed video sequence as a random
transition state that bridges its past and future, and maximize the likelihood
of a Markov Chain over the video sequence under all possible transition states.
A tractable lower bound is proposed for this intractable objective function and
an end-to-end optimization algorithm is designed accordingly. VAE$^2$ can
mitigate the posterior collapse problem to a large extent, as it breaks the
direct dependence between future and observation and does not directly regress
the determinate future provided by the training data. We carry out experiments
on a large-scale dataset called Cityscapes, which contains videos collected
from a number of urban cities. Results show that VAE$^2$ is capable of
predicting diverse futures and is more resistant to posterior collapse than the
other state-of-the-art VAE-based approaches. We believe that VAE$^2$ is also
applicable to other stochastic sequence prediction problems where training data
are lack of stochasticity.
- Abstract(参考訳): ビデオシーケンスの将来フレームの予測は、問題の複雑で確率的な性質のため困難である。
可変オートエンコーダ(VAEs)に基づくビデオ予測手法は大きな成功を収めているが、観察されたビデオシーケンスの複数の将来をトレーニングデータに含める必要がある。
これは、特定の観察が決定的な未来しか持たない野生でビデオが撮影されるとき、達成することは難しい。
その結果、これらのビデオでバニラVAEモデルを訓練すると、必然的に後部崩壊を引き起こす。
この問題を軽減するために,新しいVAE構造,VAE-in-VAE,VAE$^2$を提案する。
鍵となるアイデアは、vaeに確率性を明確に導入することだ。
観測されたビデオシーケンスの一部を過去と未来を橋渡しするランダムな遷移状態として扱い、全ての可能な遷移状態の下でビデオシーケンス上のマルコフ連鎖の可能性を最大化する。
この難解な目的関数に対してトラクタブルな下界を提案し,それに応じてエンドツーエンド最適化アルゴリズムを設計する。
VAE$^2$は、将来と観測の間の直接的な依存を破り、トレーニングデータによって提供される決定的な未来を直接無視しないため、後方崩壊問題を大幅に緩和することができる。
cityscapes(都市景観)と呼ばれる大規模データセットで実験を行い、多くの都市から収集されたビデオを含む。
VAE$^2$は様々な未来を予測することができ、他の最先端のVAEベースのアプローチよりも後部崩壊に対する耐性が高い。
VAE$^2$は、トレーニングデータが確率性の欠如である他の確率列予測問題にも適用できると考えている。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models [96.76758318732308]
本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-02T19:08:02Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - Predicting Video with VQVAE [8.698137120086063]
我々は、Vector Quantized Variational AutoEncoders (VQ-VAE) を用いて、高解像度のビデオを階層的な離散潜在変数集合に圧縮する。
画素と比較すると、圧縮された潜在空間は次元を劇的に減らし、スケーラブルな自己回帰生成モデルを適用して映像を予測できる。
私達は私達の知識に他のどの方法よりも制約のないビデオ、256x256のより高い分解能で映像を、予測します。
論文 参考訳(メタデータ) (2021-03-02T18:59:10Z) - PrognoseNet: A Generative Probabilistic Framework for Multimodal
Position Prediction given Context Information [2.5302126831371226]
本稿では,予測問題を分類タスクとして再構成し,強力なツールを実現する手法を提案する。
潜在変数のスマートな選択は、分類問題と非常に単純化された回帰問題の組み合わせとして、ログ様関数の再構成を可能にする。
提案手法は文脈情報を容易に組み込むことができ、データの事前処理は不要である。
論文 参考訳(メタデータ) (2020-10-02T06:13:41Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。