論文の概要: VPTR: Efficient Transformers for Video Prediction
- arxiv url: http://arxiv.org/abs/2203.15836v1
- Date: Tue, 29 Mar 2022 18:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 14:40:35.288500
- Title: VPTR: Efficient Transformers for Video Prediction
- Title(参考訳): VPTR: ビデオ予測のための効率的なトランスフォーマー
- Authors: Xi Ye, Guillaume-Alexandre Bilodeau
- Abstract要約: 本稿では,効率的な局所的空間的時間的分離注意機構に基づく,映像の将来のフレーム予測のためのトランスフォーマーブロックを提案する。
この新しいトランスフォーマーブロックに基づいて,トランスフォーマーの完全自己回帰映像フレーム予測を提案する。
自動回帰ビデオ予測変換器も提案され、推論速度を向上し、自己回帰ビデオの累積推論誤差を低減する。
- 参考スコア(独自算出の注目度): 14.685237010856953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new Transformer block for video future frames
prediction based on an efficient local spatial-temporal separation attention
mechanism. Based on this new Transformer block, a fully autoregressive video
future frames prediction Transformer is proposed. In addition, a
non-autoregressive video prediction Transformer is also proposed to increase
the inference speed and reduce the accumulated inference errors of its
autoregressive counterpart. In order to avoid the prediction of very similar
future frames, a contrastive feature loss is applied to maximize the mutual
information between predicted and ground-truth future frame features. This work
is the first that makes a formal comparison of the two types of attention-based
video future frames prediction models over different scenarios. The proposed
models reach a performance competitive with more complex state-of-the-art
models. The source code is available at \emph{https://github.com/XiYe20/VPTR}.
- Abstract(参考訳): 本稿では,効率的な局所空間-時空間分離注意機構に基づく映像未来フレーム予測のための新しいトランスブロックを提案する。
この新しい変圧器ブロックに基づいて,完全自己回帰型ビデオフレーム予測トランスを提案する。
さらに,非自己回帰映像予測変換器も提案され,推論速度の向上と自己回帰映像の累積推定誤差の低減が図られた。
非常に類似した将来のフレームの予測を避けるために、予測されたフレーム特徴と地対的なフレーム特徴の相互情報を最大化するために、対照的な特徴損失が適用される。
この研究は、異なるシナリオにまたがる2種類の注意に基づくビデオフレーム予測モデルを公式比較した最初のものである。
提案されたモデルは、より複雑な最先端モデルと競合する性能に達する。
ソースコードは \emph{https://github.com/XiYe20/VPTR} で入手できる。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - State-space Decomposition Model for Video Prediction Considering Long-term Motion Trend [3.910356300831074]
本稿では,全体の映像フレーム生成を決定論的外観予測と動き予測に分解する状態空間分解ビデオ予測モデルを提案する。
条件付きフレームから長期動作傾向を推定し,条件付きフレームとの高整合性を示す将来のフレームの生成を導く。
論文 参考訳(メタデータ) (2024-04-17T17:19:48Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Video Prediction by Efficient Transformers [14.685237010856953]
本稿では,ビデオ予測のためのトランスフォーマーモデルについて紹介する。
実験により、提案したビデオ予測モデルは、より複雑な最先端の畳み込み-LSTMベースのモデルと競合することが示された。
論文 参考訳(メタデータ) (2022-12-12T16:46:48Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - M-LVC: Multiple Frames Prediction for Learned Video Compression [111.50760486258993]
低レイテンシシナリオのためのエンドツーエンドの学習ビデオ圧縮方式を提案する。
提案方式では, 移動ベクトル(MV)場を現在のフレームと前のフレームの間で計算する。
実験の結果,提案手法は,低遅延モードにおける既存の学習ビデオ圧縮法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-21T20:42:02Z) - Photo-Realistic Video Prediction on Natural Videos of Largely Changing
Frames [0.0]
本研究では,各層が空間分解能の異なる将来の状態を予測できる階層型ネットワークを提案する。
我々は,車載カメラで捉えた自然な映像データセットを用いて,敵対的・知覚的損失関数を用いてモデルを訓練した。
論文 参考訳(メタデータ) (2020-03-19T09:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。