論文の概要: Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction
- arxiv url: http://arxiv.org/abs/2104.06697v1
- Date: Wed, 14 Apr 2021 08:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:18:17.645596
- Title: Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction
- Title(参考訳): 長期映像予測における階層的アプローチの再検討
- Authors: Wonkwang Lee, Whie Jung, Han Zhang, Ting Chen, Jing Yu Koh, Thomas
Huang, Hyungsuk Yoon, Honglak Lee, Seunghoon Hong
- Abstract要約: 従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
- 参考スコア(独自算出の注目度): 55.4498466252522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to predict the long-term future of video frames is notoriously
challenging due to inherent ambiguities in the distant future and dramatic
amplifications of prediction error through time. Despite the recent advances in
the literature, existing approaches are limited to moderately short-term
prediction (less than a few seconds), while extrapolating it to a longer future
quickly leads to destruction in structure and content. In this work, we revisit
hierarchical models in video prediction. Our method predicts future frames by
first estimating a sequence of semantic structures and subsequently translating
the structures to pixels by video-to-video translation. Despite the simplicity,
we show that modeling structures and their dynamics in the discrete semantic
structure space with a stochastic recurrent estimator leads to surprisingly
successful long-term prediction. We evaluate our method on three challenging
datasets involving car driving and human dancing, and demonstrate that it can
generate complicated scene structures and motions over a very long time horizon
(i.e., thousands frames), setting a new standard of video prediction with
orders of magnitude longer prediction time than existing approaches. Full
videos and codes are available at https://1konny.github.io/HVP/.
- Abstract(参考訳): ビデオフレームの長期的な未来を予測するための学習は、遠方の曖昧さと時間による予測誤差の劇的な増幅のために、悪名高い。
文献の最近の進歩にもかかわらず、既存のアプローチは適度に短期的な予測(数秒以内)に限定されている。
本研究では,映像予測において階層モデルを再検討する。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
単純さにもかかわらず、確率的反復推定器を用いた離散的意味構造空間における構造とその力学が驚くほど長期的予測に成功することを示す。
我々は,自動車運転と人間のダンスを含む3つの挑戦的データセットについて評価し,非常に長い時間的水平線(例えば数千フレーム)で複雑なシーン構造と動きを生成できることを示し,既存のアプローチよりも桁違いに長い予測時間でビデオ予測の新しい標準を設定した。
完全なビデオとコードはhttps://1konny.github.io/hvp/で入手できる。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Long-Term Prediction of Natural Video Sequences with Robust Video
Predictors [12.763826933561244]
本研究では、ロバストビデオ予測器(RoViPs)の作成を支援する既存の作業の改善点をいくつか紹介する。
深い知覚と不確実性に基づく再建損失を組み合わせることで,高品質な短期予測を実現できることを示す。
注意に基づくスキップ接続は、入力特徴の長距離空間移動を可能とし、さらなる性能向上を可能にする。
論文 参考訳(メタデータ) (2023-08-21T23:16:58Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Efficient training for future video generation based on hierarchical
disentangled representation of latent variables [66.94698064734372]
本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。
1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。
提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
論文 参考訳(メタデータ) (2021-06-07T10:43:23Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Clockwork Variational Autoencoders [33.17951971728784]
我々は,潜伏列の階層を利用したビデオ予測モデルである clockwork vae (cw-vae) を紹介する。
4つの多様なビデオ予測データセット上で,階層的遅延と時間的抽象化の両方の利点を実証する。
長期映像予測のためのMinecraftベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-18T18:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。