論文の概要: Efficient Video Action Detection with Token Dropout and Context
Refinement
- arxiv url: http://arxiv.org/abs/2304.08451v1
- Date: Mon, 17 Apr 2023 17:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:02:07.645946
- Title: Efficient Video Action Detection with Token Dropout and Context
Refinement
- Title(参考訳): トークンドロップアウトとコンテキストリファインメントを用いた効率的なビデオアクション検出
- Authors: Lei Chen, Zhan Tong, Yibing Song, Gangshan Wu, Limin Wang
- Abstract要約: 効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
残ったトークンを活用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
- 参考スコア(独自算出の注目度): 67.90338302559672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming video clips with large-scale video tokens impede vision
transformers (ViTs) for efficient recognition, especially in video action
detection where sufficient spatiotemporal representations are required for
precise actor identification. In this work, we propose an end-to-end framework
for efficient video action detection (EVAD) based on vanilla ViTs. Our EVAD
consists of two specialized designs for video action detection. First, we
propose a spatiotemporal token dropout from a keyframe-centric perspective. In
a video clip, we maintain all tokens from its keyframe, preserve tokens
relevant to actor motions from other frames, and drop out the remaining tokens
in this clip. Second, we refine scene context by leveraging remaining tokens
for better recognizing actor identities. The region of interest (RoI) in our
action detector is expanded into temporal domain. The captured spatiotemporal
actor identity representations are refined via scene context in a decoder with
the attention mechanism. These two designs make our EVAD efficient while
maintaining accuracy, which is validated on three benchmark datasets (i.e.,
AVA, UCF101-24, JHMDB). Compared to the vanilla ViT backbone, our EVAD reduces
the overall GFLOPs by 43% and improves real-time inference speed by 40% with no
performance degradation. Moreover, even at similar computational costs, our
EVAD can improve the performance by 1.0 mAP with higher resolution inputs. Code
is available at https://github.com/MCG-NJU/EVAD.
- Abstract(参考訳): 大規模ビデオトークンを用いたストリーミングビデオクリップは、視覚トランスフォーマー(vits)の効率的な認識、特に正確なアクタ識別のために十分な時空間表現を必要とするビデオアクション検出を阻害する。
本研究では,バニラ ViT に基づく効率的な映像行動検出(EVAD)のためのエンドツーエンドフレームワークを提案する。
私たちのEVADは、ビデオアクション検出のための2つの特別な設計で構成されています。
まず,鍵フレーム中心の観点から時空間トークンのドロップアウトを提案する。
ビデオクリップでは、キーフレームからすべてのトークンを保持し、他のフレームからのアクター動作に関連するトークンを保持し、残りのトークンをこのクリップにドロップアウトします。
第2に,アクタの識別性を改善するために,残りのトークンを活用することで,シーンコンテキストを洗練する。
我々の行動検出器の関心領域(roi)は時間領域に拡張される。
キャプチャされた時空間アクター識別表現は、アテンション機構を備えたデコーダのシーンコンテキストを介して洗練される。
これらの2つの設計は、EVADを精度を維持しながら効率よくし、3つのベンチマークデータセット(AVA、UCF101-24、JHMDB)で検証します。
バニラ ViT のバックボーンと比較して,EVAD は全体の GFLOP を 43% 削減し,性能劣化のないリアルタイム推論速度を40% 改善した。
さらに,同様の計算コストでも,高分解能入力による1.0 mapの性能向上が期待できる。
コードはhttps://github.com/MCG-NJU/EVADで入手できる。
関連論文リスト
- SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - MAR: Masked Autoencoders for Efficient Action Recognition [46.10824456139004]
視覚変換器(ViT)は、限られた視覚コンテンツのみを与えられたコンテキスト間で補完することができる。
Marは、パッチのパーセンテージを破棄し、ビデオの一部でのみ操作することで、冗長性を低減します。
Marは相変わらず、既存のViTモデルを上回っている。
論文 参考訳(メタデータ) (2022-07-24T04:27:36Z) - Efficient Video Transformers with Spatial-Temporal Token Selection [68.27784654734396]
入力ビデオサンプルに条件付き時間的・空間的両方のトークンを動的に選択するトークン選択フレームワークSTTSを提案する。
我々のフレームワークは、20%の計算を必要としながら、同様の結果を得る。
論文 参考訳(メタデータ) (2021-11-23T00:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。