論文の概要: Is Space-Time Attention All You Need for Video Understanding?
- arxiv url: http://arxiv.org/abs/2102.05095v1
- Date: Tue, 9 Feb 2021 19:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:37:14.461086
- Title: Is Space-Time Attention All You Need for Video Understanding?
- Title(参考訳): 宇宙時間の注意はビデオ理解に必要なすべてですか?
- Authors: Gedas Bertasius, Heng Wang, Lorenzo Torresani
- Abstract要約: 空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 50.78676438502343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a convolution-free approach to video classification built
exclusively on self-attention over space and time. Our method, named
"TimeSformer," adapts the standard Transformer architecture to video by
enabling spatiotemporal feature learning directly from a sequence of
frame-level patches. Our experimental study compares different self-attention
schemes and suggests that "divided attention," where temporal attention and
spatial attention are separately applied within each block, leads to the best
video classification accuracy among the design choices considered. Despite the
radically different design compared to the prominent paradigm of 3D
convolutional architectures for video, TimeSformer achieves state-of-the-art
results on several major action recognition benchmarks, including the best
reported accuracy on Kinetics-400 and Kinetics-600. Furthermore, our model is
faster to train and has higher test-time efficiency compared to competing
architectures. Code and pretrained models will be made publicly available.
- Abstract(参考訳): 本稿では,空間的・時間的自己意識にのみ焦点をあてたコンボリューションフリーなビデオ分類手法を提案する。
提案手法は,フレームレベルのパッチのシーケンスから直接時空間的特徴学習を可能にすることで,標準的なTransformerアーキテクチャをビデオに適用する。
本研究は,各ブロック内で時間的注意と空間的注意が別々に適用される「分割的注意」が,検討した設計選択の中で最適なビデオ分類精度をもたらすことを示唆する。
ビデオの3d畳み込みアーキテクチャの顕著なパラダイムとは根本的に異なる設計であるにもかかわらず、timesformerはいくつかの主要なアクション認識ベンチマークで最先端の結果を達成している。
さらに、我々のモデルは訓練が速く、競合するアーキテクチャと比較してテスト時間効率が高い。
コードと事前トレーニングされたモデルは公開される。
関連論文リスト
- Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [78.70615632983124]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
時空モードで特徴を符号化するアーキテクチャに依存しない手法を提案する。
固定時空モデルを作成し、ランダムノイズを伴う刺激映像を反復的に最適化する。
我々は,Kineetics-400で訓練された多種多様な進化的アテンションに基づくアーキテクチャを反転させることにより,LEAPSの適用性を定量的に定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Temporal-Spatial Feature Pyramid for Video Saliency Detection [2.578242050187029]
ビデオサリエンシー検出のための3D完全畳み込みエンコーダデコーダアーキテクチャを提案する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
論文 参考訳(メタデータ) (2021-05-10T09:14:14Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。