論文の概要: Long-term Leap Attention, Short-term Periodic Shift for Video
Classification
- arxiv url: http://arxiv.org/abs/2207.05526v1
- Date: Tue, 12 Jul 2022 13:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 15:02:24.634981
- Title: Long-term Leap Attention, Short-term Periodic Shift for Video
Classification
- Title(参考訳): ビデオ分類における長期的跳躍注意と短期的周期シフト
- Authors: Hao Zhang, Lechao Cheng, Yanbin Hao, Chong-Wah Ngo
- Abstract要約: ビデオトランスは、静的な視覚変換器よりも計算負荷が大きい。
本稿では,ビデオトランスフォーマーのための長期的textbftextitLeap Attention'(LAN),短期的textbftextitPeriodic Shift'(textitP-Shift)モジュールであるLAPSを提案する。
- 参考スコア(独自算出の注目度): 41.87505528859225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video transformer naturally incurs a heavier computation burden than a static
vision transformer, as the former processes $T$ times longer sequence than the
latter under the current attention of quadratic complexity $(T^2N^2)$. The
existing works treat the temporal axis as a simple extension of spatial axes,
focusing on shortening the spatio-temporal sequence by either generic pooling
or local windowing without utilizing temporal redundancy.
However, videos naturally contain redundant information between neighboring
frames; thereby, we could potentially suppress attention on visually similar
frames in a dilated manner. Based on this hypothesis, we propose the LAPS, a
long-term ``\textbf{\textit{Leap Attention}}'' (LA), short-term
``\textbf{\textit{Periodic Shift}}'' (\textit{P}-Shift) module for video
transformers, with $(2TN^2)$ complexity. Specifically, the ``LA'' groups
long-term frames into pairs, then refactors each discrete pair via attention.
The ``\textit{P}-Shift'' exchanges features between temporal neighbors to
confront the loss of short-term dynamics. By replacing a vanilla 2D attention
with the LAPS, we could adapt a static transformer into a video one, with zero
extra parameters and neglectable computation overhead ($\sim$2.6\%).
Experiments on the standard Kinetics-400 benchmark demonstrate that our LAPS
transformer could achieve competitive performances in terms of accuracy, FLOPs,
and Params among CNN and transformer SOTAs. We open-source our project in
\sloppy
\href{https://github.com/VideoNetworks/LAPS-transformer}{\textit{\color{magenta}{https://github.com/VideoNetworks/LAPS-transformer}}} .
- Abstract(参考訳): ビデオ変換器は、現在の2次複雑性の注意の下で、前者が後者よりもT$倍長いシーケンスを処理したため、静的視覚変換器よりも計算負荷がかかる。
既存の作品では、時間軸を空間軸の単純な拡張として扱い、時間的冗長性を利用することなく、汎用的なプールまたは局所ウィンドウによる時空間シーケンスの短縮に焦点を当てている。
しかし,映像には自然に隣接するフレーム間の冗長な情報が含まれるため,視覚的に類似したフレームに対する注意を希薄に抑えることができる。
この仮説に基づいて,ビデオトランスフォーマーの長期 '`\textbf{\textit{Leap Attention}}'' (LA), 短期 ``\textbf{\textit{Periodic Shift}}'' (\textit{P}-Shift) モジュールを$(2TN^2)$の複雑さで提案する。
具体的には、 `LA'' 群は長期フレームをペアに分割し、各離散ペアを注意してリファクタリングする。
``\textit{p}-shift''' は、短期的ダイナミクスの喪失に直面する時間的近傍間の特徴を交換する。
バニラ2dの注意をラップに置き換えることで、静止トランスフォーマーをビデオに適応させ、余分なパラメータと無視可能な計算オーバーヘッド($\sim$2.6\%)をなくすことができた。
標準kinetics-400ベンチマークによる実験では、lapsトランスフォーマーがcnnとtransformer sotaの精度、フラップ、パラムで競合性能を発揮できることが示されている。
私たちはこのプロジェクトを、 \sloppy \href{https://github.com/VideoNetworks/LAPS-transformer}{\textit{\color{magenta}{https://github.com/VideoNetworks/LAPS-transformer}}} でオープンソース化しました。
関連論文リスト
- Fi$^2$VTS: Time Series Forecasting Via Capturing Intra- and Inter-Variable Variations in the Frequency Domain [6.61394789494625]
時系列予測(TSF)は,医療モニタリングや作物の生育など,様々な分野で重要な役割を担っている。
これはtextbfintra- および textbfinter- textbfVariations をキャプチャするために textbfFrequency ドメインの観点を活用するものだ。
インセプションブロックは情報を統合するために使用され、異なる変数間の相関をキャプチャする。
バックボーンネットワークであるFi$2$VTSは、複数のFi$2$を連結することで残余アーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-07-31T01:50:39Z) - Hierarchical Separable Video Transformer for Snapshot Compressive Imaging [46.23615648331571]
HiSViT(Hierarchical Separable Video Transformer)は、時間的アグリゲーションのない再構成アーキテクチャである。
HiSViTは、CSS-MSAとGSM-FFN(Gated Self-Modulated Feed-Forward Network)の複数グループによって構築されている。
我々のメソッドは、同等または少ないパラメータと複雑さで、以前のメソッドを$!>!0.5$で上回ります。
論文 参考訳(メタデータ) (2024-07-16T17:35:59Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Real-time Online Video Detection with Temporal Smoothing Transformers [4.545986838009774]
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。
この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。
テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
論文 参考訳(メタデータ) (2022-09-19T17:59:02Z) - RSTT: Real-time Spatial Temporal Transformer for Space-Time Video
Super-Resolution [13.089535703790425]
時空ビデオ超解像(STVSR)は、低フレームレート(LFR)と低解像度(LR)の両方でビデオを補間し、高フレームレート(HFR)と高解像度(HR)の両方を生成するタスクである。
本研究では,空間的・時間的超分解能モジュールを単一モデルに自然に組み込む空間時間変換器を提案する。
論文 参考訳(メタデータ) (2022-03-27T02:16:26Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。