論文の概要: Video Prediction by Efficient Transformers
- arxiv url: http://arxiv.org/abs/2212.06026v1
- Date: Mon, 12 Dec 2022 16:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:06:07.391957
- Title: Video Prediction by Efficient Transformers
- Title(参考訳): 効率的な変圧器による映像予測
- Authors: Xi Ye, Guillaume-Alexandre Bilodeau
- Abstract要約: 本稿では,ビデオ予測のためのトランスフォーマーモデルについて紹介する。
実験により、提案したビデオ予測モデルは、より複雑な最先端の畳み込み-LSTMベースのモデルと競合することが示された。
- 参考スコア(独自算出の注目度): 14.685237010856953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction is a challenging computer vision task that has a wide range
of applications. In this work, we present a new family of Transformer-based
models for video prediction. Firstly, an efficient local spatial-temporal
separation attention mechanism is proposed to reduce the complexity of standard
Transformers. Then, a full autoregressive model, a partial autoregressive model
and a non-autoregressive model are developed based on the new efficient
Transformer. The partial autoregressive model has a similar performance with
the full autoregressive model but a faster inference speed. The
non-autoregressive model not only achieves a faster inference speed but also
mitigates the quality degradation problem of the autoregressive counterparts,
but it requires additional parameters and loss function for learning. Given the
same attention mechanism, we conducted a comprehensive study to compare the
proposed three video prediction variants. Experiments show that the proposed
video prediction models are competitive with more complex state-of-the-art
convolutional-LSTM based models. The source code is available at
https://github.com/XiYe20/VPTR.
- Abstract(参考訳): ビデオ予測は、幅広いアプリケーションを持つコンピュータビジョンの課題である。
そこで本研究では,ビデオ予測のためのトランスフォーマーモデルについて紹介する。
まず, 標準変圧器の複雑さを低減するため, 効率的な局所空間分離注意機構を提案する。
そして、新しい効率的な変圧器に基づいて、完全自己回帰モデル、部分自己回帰モデル、非自己回帰モデルを開発した。
部分自己回帰モデルは完全な自己回帰モデルと同様の性能を持つが、より高速な推論速度を持つ。
非自己回帰モデルは、高速な推論速度を達成するだけでなく、自己回帰モデルの品質劣化問題を緩和するだけでなく、学習のために追加のパラメータと損失関数を必要とする。
そこで本研究では,提案する3種類の映像予測手法を総合的に検討した。
実験により,提案するビデオ予測モデルは,より複雑な畳み込み型lstmモデルと競合することが示された。
ソースコードはhttps://github.com/XiYe20/VPTRで入手できる。
関連論文リスト
- A light-weight and efficient punctuation and word casing prediction model for on-device streaming ASR [0.31077024712075796]
自動音声認識(ASR)における句読解と単語ケーシング予測の必要性
本稿では,リアルタイムに句読解と単語ケーシングを共同で予測する軽量で効率的なモデルを提案する。
論文 参考訳(メタデータ) (2024-07-18T04:01:12Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - VPTR: Efficient Transformers for Video Prediction [14.685237010856953]
本稿では,効率的な局所的空間的時間的分離注意機構に基づく,映像の将来のフレーム予測のためのトランスフォーマーブロックを提案する。
この新しいトランスフォーマーブロックに基づいて,トランスフォーマーの完全自己回帰映像フレーム予測を提案する。
自動回帰ビデオ予測変換器も提案され、推論速度を向上し、自己回帰ビデオの累積推論誤差を低減する。
論文 参考訳(メタデータ) (2022-03-29T18:09:09Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - A Log-likelihood Regularized KL Divergence for Video Prediction with A
3D Convolutional Variational Recurrent Network [17.91970304953206]
フレーム予測のタスクに対して,リカレントネットワークを2つの方法で拡張する新しい変分モデルを提案する。
まず、将来の予測フレームのリカレントモデル、シーケンス入力、各時間ステップでの映像フレーム出力を含む全モジュールに3次元畳み込みを導入する。
第2に,変分モデルで一般的に用いられるklに加えて,最大確率推定を導入することにより,変分モデルの潜在損失予測を強化する。
論文 参考訳(メタデータ) (2020-12-11T05:05:31Z) - Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech
Recognition [66.47000813920617]
エンドツーエンド音声認識のためのスパイクトリガー付き非自己回帰変換器モデルを提案する。
提案モデルでは,ターゲット列の長さを正確に予測し,競合性能を実現する。
このモデルは0.0056のリアルタイム係数も達成しており、全ての主流音声認識モデルを超えている。
論文 参考訳(メタデータ) (2020-05-16T08:27:20Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。