論文の概要: Video Prediction by Efficient Transformers
- arxiv url: http://arxiv.org/abs/2212.06026v1
- Date: Mon, 12 Dec 2022 16:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:06:07.391957
- Title: Video Prediction by Efficient Transformers
- Title(参考訳): 効率的な変圧器による映像予測
- Authors: Xi Ye, Guillaume-Alexandre Bilodeau
- Abstract要約: 本稿では,ビデオ予測のためのトランスフォーマーモデルについて紹介する。
実験により、提案したビデオ予測モデルは、より複雑な最先端の畳み込み-LSTMベースのモデルと競合することが示された。
- 参考スコア(独自算出の注目度): 14.685237010856953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction is a challenging computer vision task that has a wide range
of applications. In this work, we present a new family of Transformer-based
models for video prediction. Firstly, an efficient local spatial-temporal
separation attention mechanism is proposed to reduce the complexity of standard
Transformers. Then, a full autoregressive model, a partial autoregressive model
and a non-autoregressive model are developed based on the new efficient
Transformer. The partial autoregressive model has a similar performance with
the full autoregressive model but a faster inference speed. The
non-autoregressive model not only achieves a faster inference speed but also
mitigates the quality degradation problem of the autoregressive counterparts,
but it requires additional parameters and loss function for learning. Given the
same attention mechanism, we conducted a comprehensive study to compare the
proposed three video prediction variants. Experiments show that the proposed
video prediction models are competitive with more complex state-of-the-art
convolutional-LSTM based models. The source code is available at
https://github.com/XiYe20/VPTR.
- Abstract(参考訳): ビデオ予測は、幅広いアプリケーションを持つコンピュータビジョンの課題である。
そこで本研究では,ビデオ予測のためのトランスフォーマーモデルについて紹介する。
まず, 標準変圧器の複雑さを低減するため, 効率的な局所空間分離注意機構を提案する。
そして、新しい効率的な変圧器に基づいて、完全自己回帰モデル、部分自己回帰モデル、非自己回帰モデルを開発した。
部分自己回帰モデルは完全な自己回帰モデルと同様の性能を持つが、より高速な推論速度を持つ。
非自己回帰モデルは、高速な推論速度を達成するだけでなく、自己回帰モデルの品質劣化問題を緩和するだけでなく、学習のために追加のパラメータと損失関数を必要とする。
そこで本研究では,提案する3種類の映像予測手法を総合的に検討した。
実験により,提案するビデオ予測モデルは,より複雑な畳み込み型lstmモデルと競合することが示された。
ソースコードはhttps://github.com/XiYe20/VPTRで入手できる。
関連論文リスト
- Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - A light-weight and efficient punctuation and word casing prediction model for on-device streaming ASR [0.31077024712075796]
自動音声認識(ASR)における句読解と単語ケーシング予測の必要性
本稿では,リアルタイムに句読解と単語ケーシングを共同で予測する軽量で効率的なモデルを提案する。
論文 参考訳(メタデータ) (2024-07-18T04:01:12Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - VPTR: Efficient Transformers for Video Prediction [14.685237010856953]
本稿では,効率的な局所的空間的時間的分離注意機構に基づく,映像の将来のフレーム予測のためのトランスフォーマーブロックを提案する。
この新しいトランスフォーマーブロックに基づいて,トランスフォーマーの完全自己回帰映像フレーム予測を提案する。
自動回帰ビデオ予測変換器も提案され、推論速度を向上し、自己回帰ビデオの累積推論誤差を低減する。
論文 参考訳(メタデータ) (2022-03-29T18:09:09Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - A Log-likelihood Regularized KL Divergence for Video Prediction with A
3D Convolutional Variational Recurrent Network [17.91970304953206]
フレーム予測のタスクに対して,リカレントネットワークを2つの方法で拡張する新しい変分モデルを提案する。
まず、将来の予測フレームのリカレントモデル、シーケンス入力、各時間ステップでの映像フレーム出力を含む全モジュールに3次元畳み込みを導入する。
第2に,変分モデルで一般的に用いられるklに加えて,最大確率推定を導入することにより,変分モデルの潜在損失予測を強化する。
論文 参考訳(メタデータ) (2020-12-11T05:05:31Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。