論文の概要: DualFormer: Local-Global Stratified Transformer for Efficient Video
Recognition
- arxiv url: http://arxiv.org/abs/2112.04674v1
- Date: Thu, 9 Dec 2021 03:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 13:50:35.897550
- Title: DualFormer: Local-Global Stratified Transformer for Efficient Video
Recognition
- Title(参考訳): DualFormer: 効率的なビデオ認識のための局所Global Stratified Transformer
- Authors: Yuxuan Liang, Pan Zhou, Roger Zimmermann, Shuicheng Yan
- Abstract要約: 本稿では,映像認識のための時空間アテンションを効果的かつ効率的に行うことのできる,DualFormerと呼ばれる新しいトランスフォーマーアーキテクチャを提案する。
我々は、DualFormerがKinetics-400/600で新しい最先端の82.9%/85.2%のトップ-1の精度を1000Gの推論FLOPで設定していることを示す。
- 参考スコア(独自算出の注目度): 140.66371549815034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While transformers have shown great potential on video recognition tasks with
their strong capability of capturing long-range dependencies, they often suffer
high computational costs induced by self-attention operation on the huge number
of 3D tokens in a video. In this paper, we propose a new transformer
architecture, termed DualFormer, which can effectively and efficiently perform
space-time attention for video recognition. Specifically, our DualFormer
stratifies the full space-time attention into dual cascaded levels, i.e., to
first learn fine-grained local space-time interactions among nearby 3D tokens,
followed by the capture of coarse-grained global dependencies between the query
token and the coarse-grained global pyramid contexts. Different from existing
methods that apply space-time factorization or restrict attention computations
within local windows for improving efficiency, our local-global stratified
strategy can well capture both short- and long-range spatiotemporal
dependencies, and meanwhile greatly reduces the number of keys and values in
attention computation to boost efficiency. Experimental results show the
superiority of DualFormer on five video benchmarks against existing methods. In
particular, DualFormer sets new state-of-the-art 82.9%/85.2% top-1 accuracy on
Kinetics-400/600 with around 1000G inference FLOPs which is at least 3.2 times
fewer than existing methods with similar performances.
- Abstract(参考訳): トランスフォーマーは、長距離依存性を捕捉する能力を持ち、ビデオ認識タスクにおいて大きな可能性を秘めているが、ビデオ内の膨大な数の3dトークンに対する自己照査操作によって生じる高い計算コストに苦しむことが多い。
本稿では,映像認識のための時空注意を効果的かつ効率的に行うことのできる,デュアルフォーマと呼ばれる新しいトランスフォーマアーキテクチャを提案する。
具体的には、dualformerは、すべての時空を2つのカスケードレベル、すなわち、近くの3dトークン間のきめ細かい局所的な時空相互作用を最初に学習し、クエリトークンと粗い粒度のグローバルピラミッドコンテキストの間の粗い粒度のグローバルな依存関係をキャプチャします。
時空因子分解や局所ウィンドウ内の注意計算を効率改善のために制限する既存の方法とは異なり、我々の局所的グローバル階層化戦略は短期的および長期の時空間的依存性をうまく捉えることができ、一方で注意計算におけるキーや値の数を大幅に削減し、効率を高めることができる。
実験の結果,既存の手法に対する5つのビデオベンチマークにおいて,dualformerが優れていることがわかった。
特に、DualFormer は Kinetics-400/600 上で新しい最先端の 82.9%/85.2% のトップ-1 の精度を1000G の推論 FLOP で設定している。
関連論文リスト
- UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - An Efficient Spatio-Temporal Pyramid Transformer for Action Detection [40.68615998427292]
動作検出のための効率的な階層型時空間ピラミッド変換(STPT)ビデオフレームワークを提案する。
具体的には,早期の局所的時間的リッチタイム表現を符号化するために,局所的ウィンドウアテンションを用いて,後期の長期的時空間依存を捕捉するためにグローバルなアテンションを適用することを提案する。
このように、当社のSTPTは、局所性と依存性の両方を大幅に冗長化してエンコードすることができ、正確性と効率の両立を期待できるトレードオフを提供します。
論文 参考訳(メタデータ) (2022-07-21T12:38:05Z) - Points to Patches: Enabling the Use of Self-Attention for 3D Shape
Recognition [19.89482062012177]
本稿では,局所的およびグローバルな注意機構を組み合わせた2段階のPoint Transformer-in-Transformer(Point-TnT)アプローチを提案する。
形状分類の実験では、このようなアプローチは、ベースライントランスフォーマーよりも下流タスクに有用な機能を提供している。
また,シーン再構築のための特徴マッチングに拡張し,既存のシーン再構築パイプラインと組み合わせて使用できることを示す。
論文 参考訳(メタデータ) (2022-04-08T09:31:24Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。