論文の概要: From Single to Multiple: Leveraging Multi-level Prediction Spaces for
Video Forecasting
- arxiv url: http://arxiv.org/abs/2107.10068v1
- Date: Wed, 21 Jul 2021 13:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:13:33.046375
- Title: From Single to Multiple: Leveraging Multi-level Prediction Spaces for
Video Forecasting
- Title(参考訳): 単一から複数へ:ビデオ予測にマルチレベル予測空間を活用する
- Authors: Mengcheng Lan, Shuliang Ning, Yanran Li, Qian Chen, Xunlai Chen,
Xiaoguang Han, Shuguang Cui
- Abstract要約: マルチプレディション空間で映像予測を行うための戦略を多数検討し,その結果を融合させて性能向上を図る。
本モデルでは, 難解な歪みやぼやけたアーチファクトを著しく低減し, 長期ビデオ予測における精度を著しく向上することを示す。
- 参考スコア(独自算出の注目度): 37.322499502542556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite video forecasting has been a widely explored topic in recent years,
the mainstream of the existing work still limits their models with a single
prediction space but completely neglects the way to leverage their model with
multi-prediction spaces. This work fills this gap. For the first time, we
deeply study numerous strategies to perform video forecasting in
multi-prediction spaces and fuse their results together to boost performance.
The prediction in the pixel space usually lacks the ability to preserve the
semantic and structure content of the video however the prediction in the
high-level feature space is prone to generate errors in the reduction and
recovering process. Therefore, we build a recurrent connection between
different feature spaces and incorporate their generations in the upsampling
process. Rather surprisingly, this simple idea yields a much more significant
performance boost than PhyDNet (performance improved by 32.1% MAE on MNIST-2
dataset, and 21.4% MAE on KTH dataset). Both qualitative and quantitative
evaluations on four datasets demonstrate the generalization ability and
effectiveness of our approach. We show that our model significantly reduces the
troublesome distortions and blurry artifacts and brings remarkable improvements
to the accuracy in long term video prediction. The code will be released soon.
- Abstract(参考訳): 近年、ビデオ予測は広く話題となっているが、既存の研究の主流は、単一の予測空間でモデルを制限するが、複数の予測空間でモデルを活用する方法を完全に無視している。
この仕事はこのギャップを埋める。
我々は,複数の予測空間でビデオ予測を行い,それらの結果を融合して性能を向上させるための多くの戦略を初めて深く研究した。
ピクセル空間での予測は、通常、ビデオの意味的および構造的内容を保存する能力が欠けているが、高レベル特徴空間での予測は、縮小および回復過程においてエラーを発生させる可能性が高い。
そこで我々は,異なる特徴空間間の繰り返し接続を構築し,その世代をアップサンプリングプロセスに組み込む。
意外なことに、この単純なアイデアはPhyDNetよりもはるかにパフォーマンスが向上した(MNIST-2データセットでは32.1%、KTHデータセットでは21.4%)。
4つのデータセットの質的および定量的評価は、我々のアプローチの一般化能力と有効性を示す。
本モデルでは, 難解な歪みやぼやけたアーチファクトを著しく低減し, 長期ビデオ予測における精度を著しく向上することを示す。
コードはまもなくリリースされる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - TinyHD: Efficient Video Saliency Prediction with Heterogeneous Decoders
using Hierarchical Maps Distillation [16.04961815178485]
複数の単純ヘテロジニアスデコーダを用いた軽量モデルを提案する。
提案手法は,最先端手法よりも同等かそれ以上の精度で精度を予測できる。
論文 参考訳(メタデータ) (2023-01-11T18:20:19Z) - MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video
Prediction [46.687394176382746]
SISO(Single-In-Single-Out)アーキテクチャに基づいて,既存のビデオ予測手法がモデルを構築する。
あるいは、将来のフレームを1ショットで出力するMulti-In-Multi-Out (MIMO)アーキテクチャは、自然に再帰を損なう。
論文 参考訳(メタデータ) (2022-12-09T03:57:13Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。