論文の概要: MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video
Prediction
- arxiv url: http://arxiv.org/abs/2212.04655v2
- Date: Thu, 25 May 2023 04:24:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:29:18.432005
- Title: MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video
Prediction
- Title(参考訳): MIMOが必要なのは、ビデオ予測のための強力なマルチインマルチアウトベースライン
- Authors: Shuliang Ning, Mengcheng Lan, Yanran Li, Chaofeng Chen, Qian Chen,
Xunlai Chen, Xiaoguang Han, Shuguang Cui
- Abstract要約: SISO(Single-In-Single-Out)アーキテクチャに基づいて,既存のビデオ予測手法がモデルを構築する。
あるいは、将来のフレームを1ショットで出力するMulti-In-Multi-Out (MIMO)アーキテクチャは、自然に再帰を損なう。
- 参考スコア(独自算出の注目度): 46.687394176382746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mainstream of the existing approaches for video prediction builds up
their models based on a Single-In-Single-Out (SISO) architecture, which takes
the current frame as input to predict the next frame in a recursive manner.
This way often leads to severe performance degradation when they try to
extrapolate a longer period of future, thus limiting the practical use of the
prediction model. Alternatively, a Multi-In-Multi-Out (MIMO) architecture that
outputs all the future frames at one shot naturally breaks the recursive manner
and therefore prevents error accumulation. However, only a few MIMO models for
video prediction are proposed and they only achieve inferior performance due to
the date. The real strength of the MIMO model in this area is not well noticed
and is largely under-explored. Motivated by that, we conduct a comprehensive
investigation in this paper to thoroughly exploit how far a simple MIMO
architecture can go. Surprisingly, our empirical studies reveal that a simple
MIMO model can outperform the state-of-the-art work with a large margin much
more than expected, especially in dealing with longterm error accumulation.
After exploring a number of ways and designs, we propose a new MIMO
architecture based on extending the pure Transformer with local spatio-temporal
blocks and a new multi-output decoder, namely MIMO-VP, to establish a new
standard in video prediction. We evaluate our model in four highly competitive
benchmarks (Moving MNIST, Human3.6M, Weather, KITTI). Extensive experiments
show that our model wins 1st place on all the benchmarks with remarkable
performance gains and surpasses the best SISO model in all aspects including
efficiency, quantity, and quality. We believe our model can serve as a new
baseline to facilitate the future research of video prediction tasks. The code
will be released.
- Abstract(参考訳): ビデオ予測に対する既存のアプローチの主流は、現在のフレームを入力として、次のフレームを再帰的に予測するシングルインシングルアウト(SISO)アーキテクチャに基づくモデルを構築している。
この方法では、長期的な未来を推定しようとすると、パフォーマンスが悪化することが多いため、予測モデルの実用性が制限される。
あるいは、全ての将来のフレームを1ショットで出力するマルチインマルチアウト(mimo)アーキテクチャは、自然に再帰的な手法を破り、エラーの蓄積を防ぐ。
しかし、映像予測のためのMIMOモデルはほとんど提案されておらず、日時により性能が劣るだけである。
この領域におけるmimoモデルの真の強みはよく分かっておらず、ほとんど未調査である。
そこで我々は,シンプルなMIMOアーキテクチャがどこまで進めるかを徹底的に活用するために,包括的な調査を行う。
意外なことに、我々の経験的研究は、単純なMIMOモデルが、予想よりもはるかに大きなマージンを持つ最先端の作業、特に長期エラーの蓄積に優れた性能を発揮することを明らかにした。
多数の方法と設計を探索した後,ローカルな時空間ブロックを持つ純粋なトランスフォーマーを拡張したMIMOアーキテクチャと,MIMO-VPと呼ばれる新しいマルチ出力デコーダを提案し,ビデオ予測における新しい標準を確立する。
我々は、MNIST、Human3.6M、Weather、KITTIの4つの非常に競争性の高いベンチマークでモデルを評価した。
広範な実験により,我々のモデルが優れた性能向上率ですべてのベンチマークで1位を獲得し,効率,量,品質といったあらゆる面で最高のsisoモデルを超えていることが示された。
我々は,ビデオ予測タスクの今後の研究を促進するために,我々のモデルは新たなベースラインとして機能すると考えている。
コードはリリースされます。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - SIAM: A Simple Alternating Mixer for Video Prediction [42.03590872477933]
以前のフレームから将来のフレームを予測するビデオは、自律運転や天気予報といった幅広い応用がある。
我々は、これらの機能を統一エンコーダデコーダフレームワークで明示的にモデル化し、新しい簡易性(SIAM)を提案する。
SIAMは、空間的、時間的、時間的特徴をモデル化できる交互混合(Da)ブロックの設計にある。
論文 参考訳(メタデータ) (2023-11-20T11:28:18Z) - From Single to Multiple: Leveraging Multi-level Prediction Spaces for
Video Forecasting [37.322499502542556]
マルチプレディション空間で映像予測を行うための戦略を多数検討し,その結果を融合させて性能向上を図る。
本モデルでは, 難解な歪みやぼやけたアーチファクトを著しく低減し, 長期ビデオ予測における精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2021-07-21T13:23:16Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - Temporal LiDAR Frame Prediction for Autonomous Driving [1.3706331473063877]
将来のLiDARフレームを予測するための新しいニューラルネットワークアーキテクチャのクラスを提案する。
この応用の根底にある真実は、単にシーケンスの次のフレームであるので、自制的な方法でモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-12-17T06:19:59Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z) - Tidying Deep Saliency Prediction Architectures [6.613005108411055]
本稿では,入力特徴,マルチレベル統合,読み出しアーキテクチャ,損失関数の4つの主成分を同定する。
我々はSimpleNet と MDNSal という2つの新しいエンドツーエンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-10T19:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。