論文の概要: SimVP: Simpler yet Better Video Prediction
- arxiv url: http://arxiv.org/abs/2206.05099v1
- Date: Thu, 9 Jun 2022 02:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:36:15.639935
- Title: SimVP: Simpler yet Better Video Prediction
- Title(参考訳): SimVP:もっとシンプルなビデオ予測
- Authors: Zhangyang Gao, Cheng Tan, Lirong Wu, Stan Z. Li
- Abstract要約: 本稿では,CNNで完全に構築された単純なビデオ予測モデルであるSimVPを提案する。
5つのベンチマークデータセットで最先端のパフォーマンスを実現する。
我々は、SimVPがビデオ予測のさらなる発展を刺激するために、安定したベースラインとして機能できると考えている。
- 参考スコア(独自算出の注目度): 38.42917984016527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From CNN, RNN, to ViT, we have witnessed remarkable advancements in video
prediction, incorporating auxiliary inputs, elaborate neural architectures, and
sophisticated training strategies. We admire these progresses but are confused
about the necessity: is there a simple method that can perform comparably well?
This paper proposes SimVP, a simple video prediction model that is completely
built upon CNN and trained by MSE loss in an end-to-end fashion. Without
introducing any additional tricks and complicated strategies, we can achieve
state-of-the-art performance on five benchmark datasets. Through extended
experiments, we demonstrate that SimVP has strong generalization and
extensibility on real-world datasets. The significant reduction of training
cost makes it easier to scale to complex scenarios. We believe SimVP can serve
as a solid baseline to stimulate the further development of video prediction.
The code is available at
\href{https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction}{Github}.
- Abstract(参考訳): cnn、rnn、vitから、補助入力、精巧なニューラルネットワークアーキテクチャ、高度なトレーニング戦略など、ビデオ予測の著しい進歩を見てきた。
私たちはこれらの進歩を賞賛していますが、その必要性について混乱しています。
本稿では,cnn上に構築され,mse損失によりエンドツーエンドで訓練された簡易ビデオ予測モデルsimvpを提案する。
追加のトリックや複雑な戦略を導入することなく、5つのベンチマークデータセットで最先端のパフォーマンスを達成できます。
拡張実験により,SimVPは実世界のデータセットに強い一般化と拡張性を持つことを示した。
トレーニングコストの大幅な削減により、複雑なシナリオへのスケールアップが容易になる。
simvpは、ビデオ予測のさらなる発展を刺激するための確固たるベースラインとして機能できると考えています。
コードは \href{https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction}{Github} で公開されている。
関連論文リスト
- Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - SimVTP: Simple Video Text Pre-training with Masked Autoencoders [22.274024313475646]
本稿では,マスク付きオートエンコーダを用いた簡易ビデオテキスト事前学習フレームワークSimVTPを提案する。
入力ビデオの時空間管と入力テキストのワードトークンをランダムにマスキングする。
統一されたオートエンコーダにより、SimVTPは別のモダリティの助けを借りて、あるモダリティのマスキング信号を再構成する。
論文 参考訳(メタデータ) (2022-12-07T07:14:22Z) - SimVP: Towards Simple yet Powerful Spatiotemporal Predictive Learning [44.486014516093334]
本稿では,畳み込みネットワーク上に構築された単純な2次時間予測ベースラインモデルであるSimVPを提案する。
SimVPは、様々なベンチマークデータセットで優れたパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2022-11-22T08:01:33Z) - What is More Likely to Happen Next? Video-and-Language Future Event
Prediction [111.93601253692165]
対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。
本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。
新しいデータセットであるVideo-and-Language Event Prediction(ビデオ・アンド・ランゲージ・イベント予測)を収集します。
論文 参考訳(メタデータ) (2020-10-15T19:56:47Z) - Dense Regression Network for Video Grounding [97.57178850020327]
地上の真理の中のフレームと開始(終了)フレームの間の距離を高密度の監督として利用し、映像のグラウンド化精度を向上させる。
具体的には、各フレームからビデオセグメントの開始(終了)フレームまでの距離を抑えるために、新しい高密度回帰ネットワーク(DRN)を設計する。
また,グラウンドリング結果の局所化品質を明示的に考慮するために,単純だが効果的なIoU回帰ヘッドモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-07T17:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。