論文の概要: Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction
- arxiv url: http://arxiv.org/abs/2103.04174v1
- Date: Sat, 6 Mar 2021 18:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:40:58.895405
- Title: Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction
- Title(参考訳): 大規模映像予測のためのGreedy Hierarchical Variational Autoencoders
- Authors: Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn
- Abstract要約: 本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
- 参考スコア(独自算出の注目度): 79.23730812282093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A video prediction model that generalizes to diverse scenes would enable
intelligent agents such as robots to perform a variety of tasks via planning
with the model. However, while existing video prediction models have produced
promising results on small datasets, they suffer from severe underfitting when
trained on large and diverse datasets. To address this underfitting challenge,
we first observe that the ability to train larger video prediction models is
often bottlenecked by the memory constraints of GPUs or TPUs. In parallel, deep
hierarchical latent variable models can produce higher quality predictions by
capturing the multi-level stochasticity of future observations, but end-to-end
optimization of such models is notably difficult. Our key insight is that
greedy and modular optimization of hierarchical autoencoders can simultaneously
address both the memory constraints and the optimization challenges of
large-scale video prediction. We introduce Greedy Hierarchical Variational
Autoencoders (GHVAEs), a method that learns high-fidelity video predictions by
greedily training each level of a hierarchical autoencoder. In comparison to
state-of-the-art models, GHVAEs provide 17-55% gains in prediction performance
on four video datasets, a 35-40% higher success rate on real robot tasks, and
can improve performance monotonically by simply adding more modules.
- Abstract(参考訳): 多様なシーンに一般化する映像予測モデルにより、ロボットなどのインテリジェントエージェントがモデルで計画して様々なタスクを実行できるようになります。
しかしながら、既存のビデオ予測モデルは、小さなデータセットで有望な結果を生み出しているが、大規模で多様なデータセットでトレーニングされた場合、深刻な不適合に苦しんでいる。
この困難な課題に対処するために、私たちは最初に、より大きなビデオ予測モデルを訓練する能力は、GPUやTPUのメモリ制約によってボトルネックになることを観察しました。
並行して、深い階層的潜在変数モデルでは、将来の観測の多レベル確率性を捉えることで、より高い品質の予測ができるが、そのようなモデルのエンドツーエンド最適化は特に困難である。
私たちの重要な洞察力は、階層的オートエンコーダの勾配的およびモジュラー最適化が、大規模ビデオ予測のメモリ制約と最適化の課題の両方を同時に解決できることです。
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
最先端モデルと比較して、GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールの追加だけでパフォーマンスを単調に改善することができる。
関連論文リスト
- AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Predicting Video with VQVAE [8.698137120086063]
我々は、Vector Quantized Variational AutoEncoders (VQ-VAE) を用いて、高解像度のビデオを階層的な離散潜在変数集合に圧縮する。
画素と比較すると、圧縮された潜在空間は次元を劇的に減らし、スケーラブルな自己回帰生成モデルを適用して映像を予測できる。
私達は私達の知識に他のどの方法よりも制約のないビデオ、256x256のより高い分解能で映像を、予測します。
論文 参考訳(メタデータ) (2021-03-02T18:59:10Z) - Clockwork Variational Autoencoders [33.17951971728784]
我々は,潜伏列の階層を利用したビデオ予測モデルである clockwork vae (cw-vae) を紹介する。
4つの多様なビデオ予測データセット上で,階層的遅延と時間的抽象化の両方の利点を実証する。
長期映像予測のためのMinecraftベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-18T18:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。