論文の概要: Real-time Online Video Detection with Temporal Smoothing Transformers
- arxiv url: http://arxiv.org/abs/2209.09236v1
- Date: Mon, 19 Sep 2022 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:47:15.900587
- Title: Real-time Online Video Detection with Temporal Smoothing Transformers
- Title(参考訳): 時相平滑化トランスを用いたリアルタイムオンラインビデオ検出
- Authors: Yue Zhao and Philipp Kr\"ahenb\"uhl
- Abstract要約: 優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。
この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。
テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
- 参考スコア(独自算出の注目度): 4.545986838009774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming video recognition reasons about objects and their actions in every
frame of a video. A good streaming recognition model captures both long-term
dynamics and short-term changes of video. Unfortunately, in most existing
methods, the computational complexity grows linearly or quadratically with the
length of the considered dynamics. This issue is particularly pronounced in
transformer-based architectures. To address this issue, we reformulate the
cross-attention in a video transformer through the lens of kernel and apply two
kinds of temporal smoothing kernel: A box kernel or a Laplace kernel. The
resulting streaming attention reuses much of the computation from frame to
frame, and only requires a constant time update each frame. Based on this idea,
we build TeSTra, a Temporal Smoothing Transformer, that takes in arbitrarily
long inputs with constant caching and computing overhead. Specifically, it runs
$6\times$ faster than equivalent sliding-window based transformers with 2,048
frames in a streaming setting. Furthermore, thanks to the increased temporal
span, TeSTra achieves state-of-the-art results on THUMOS'14 and
EPIC-Kitchen-100, two standard online action detection and action anticipation
datasets. A real-time version of TeSTra outperforms all but one prior
approaches on the THUMOS'14 dataset.
- Abstract(参考訳): ビデオのフレームごとに、オブジェクトとそのアクションに関するビデオ認識の理由をストリーミングする。
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。
残念なことに、ほとんどの既存の手法では、計算の複雑さは、考慮されるダイナミクスの長さとともに線形または二次的に増加する。
この問題は特にトランスフォーマーベースのアーキテクチャで顕著である。
この問題に対処するために,ビデオトランスフォーマのクロスアテンションをカーネルレンズを通して再構成し,ボックスカーネルとラプラスカーネルの2種類の時間平滑化カーネルを適用する。
結果として生じるストリーミングの注意力は、フレームからフレームへの計算の多くを再利用し、各フレームの更新に一定の時間しか必要としない。
このアイデアに基づいて,時間的平滑な変換器であるTeSTraを構築し,キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
具体的には、ストリーミング設定で2,048フレームのslide-windowベースのトランスフォーマーよりも6\times$で動作します。
さらに、時間的スパンの増加により、TeSTraはTHUMOS'14とEPIC-Kitchen-100の2つの標準オンラインアクション検出とアクション予測データセットの最先端結果を達成する。
TeSTraのリアルタイムバージョンは、THUMOS'14データセットにおいて、以前のアプローチのすべてよりもパフォーマンスが優れている。
関連論文リスト
- No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding [38.60950616529459]
我々は,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークであるtextitSqueezeTime を提案する。
提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
論文 参考訳(メタデータ) (2024-05-14T06:32:40Z) - TDViT: Temporal Dilated Video Transformer for Dense Video Tasks [35.16197118579414]
TDTTB(Temporal Dilated Video Transformer)は、映像表現を効率的に抽出し、時間的冗長性の負の効果を効果的に緩和する。
ビデオオブジェクト検出のためのImageNet VIDと、ビデオセグメンテーションインスタンスのためのYouTube VISの2つの異なる高密度ビデオベンチマークで実験を行う。
論文 参考訳(メタデータ) (2024-02-14T15:41:07Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Towards End-to-End Generative Modeling of Long Videos with
Memory-Efficient Bidirectional Transformers [13.355338760884583]
本稿では,ビデオの長期依存性をエンドツーエンドに学習するためのメモリ指向の双方向変換器(MeBT)を提案する。
本手法は,部分的に観察されたパッチからビデオの全時間容積を並列に復号する。
論文 参考訳(メタデータ) (2023-03-20T16:35:38Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Long-term Leap Attention, Short-term Periodic Shift for Video
Classification [41.87505528859225]
ビデオトランスは、静的な視覚変換器よりも計算負荷が大きい。
本稿では,ビデオトランスフォーマーのための長期的textbftextitLeap Attention'(LAN),短期的textbftextitPeriodic Shift'(textitP-Shift)モジュールであるLAPSを提案する。
論文 参考訳(メタデータ) (2022-07-12T13:30:15Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。