論文の概要: An Efficient Spatio-Temporal Pyramid Transformer for Action Detection
- arxiv url: http://arxiv.org/abs/2207.10448v1
- Date: Thu, 21 Jul 2022 12:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:13:35.037077
- Title: An Efficient Spatio-Temporal Pyramid Transformer for Action Detection
- Title(参考訳): 行動検出のための高効率時空間ピラミッド変圧器
- Authors: Yuetian Weng, Zizheng Pan, Mingfei Han, Xiaojun Chang, Bohan Zhuang
- Abstract要約: 動作検出のための効率的な階層型時空間ピラミッド変換(STPT)ビデオフレームワークを提案する。
具体的には,早期の局所的時間的リッチタイム表現を符号化するために,局所的ウィンドウアテンションを用いて,後期の長期的時空間依存を捕捉するためにグローバルなアテンションを適用することを提案する。
このように、当社のSTPTは、局所性と依存性の両方を大幅に冗長化してエンコードすることができ、正確性と効率の両立を期待できるトレードオフを提供します。
- 参考スコア(独自算出の注目度): 40.68615998427292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of action detection aims at deducing both the action category and
localization of the start and end moment for each action instance in a long,
untrimmed video. While vision Transformers have driven the recent advances in
video understanding, it is non-trivial to design an efficient architecture for
action detection due to the prohibitively expensive self-attentions over a long
sequence of video clips. To this end, we present an efficient hierarchical
Spatio-Temporal Pyramid Transformer (STPT) for action detection, building upon
the fact that the early self-attention layers in Transformers still focus on
local patterns. Specifically, we propose to use local window attention to
encode rich local spatio-temporal representations in the early stages while
applying global attention modules to capture long-term space-time dependencies
in the later stages. In this way, our STPT can encode both locality and
dependency with largely reduced redundancy, delivering a promising trade-off
between accuracy and efficiency. For example, with only RGB input, the proposed
STPT achieves 53.6% mAP on THUMOS14, surpassing I3D+AFSD RGB model by over 10%
and performing favorably against state-of-the-art AFSD that uses additional
flow features with 31% fewer GFLOPs, which serves as an effective and efficient
end-to-end Transformer-based framework for action detection.
- Abstract(参考訳): アクション検出のタスクは、アクションインスタンス毎のアクションカテゴリと開始時と終了時の両方を、長い未トリミングビデオで推定することを目的としている。
視覚トランスフォーマーはビデオ理解の最近の進歩を駆り立ててきたが、長いビデオクリップの連続に対して、非常に高価なセルフアテンションのため、アクション検出のための効率的なアーキテクチャを設計するのは自明ではない。
そこで本研究では,初期自己着床層が局所的なパターンに注目しているという事実に基づいて,行動検出のための効率的な階層的時空間ピラミッドトランスフォーマ(stpt)を提案する。
具体的には,早期に局所的な時空間表現を符号化し,後期の長期的空間依存を捉えるためにグローバルアテンションモジュールを適用することを提案する。
こうすることで、STPTは局所性と依存性の両方を大幅な冗長性でエンコードすることができ、精度と効率のトレードオフを期待できる。
例えば、RGB入力のみを用いて提案されたSTPTは、THUMOS14上で53.6%のmAPを達成し、I3D+AFSD RGBモデルを10%以上上回り、GFLOPを31%削減した新たなフロー機能を使用する最先端AFSDに対して好適に機能する。
関連論文リスト
- Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning [5.236787242129767]
本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
論文 参考訳(メタデータ) (2021-08-13T06:07:57Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Relaxed Transformer Decoders for Direct Action Proposal Generation [30.516462193231888]
本稿では、直接アクション提案生成のためのシンプルでエンドツーエンドの学習可能なフレームワーク(RTD-Net)を提案する。
時間と空間の視覚的相違に対処するため、元の変換器検出フレームワーク(DETR)に対して3つの重要な改善を行った。
THUMOS14とActivityNet-1.3ベンチマークの実験では、RTD-Netの有効性が示されている。
論文 参考訳(メタデータ) (2021-02-03T06:29:28Z) - Actions as Moving Points [66.21507857877756]
我々は、MovingCenter Detector(MOC-detector)と呼ばれる概念的にシンプルで、効率的で、より精密なアクションチューブレット検出フレームワークを提案する。
動作情報が行動管検出を簡素化し,補助するという考えから,MOC検出器は3つの重要な頭部枝から構成される。
我々のMOC検出器は、JHMDBおよびUCF101-24データセット上のフレームmAPとビデオmAPの両方のメトリクスに対して、既存の最先端手法よりも優れています。
論文 参考訳(メタデータ) (2020-01-14T03:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。