論文の概要: Adapting Short-Term Transformers for Action Detection in Untrimmed Videos
- arxiv url: http://arxiv.org/abs/2312.01897v2
- Date: Mon, 15 Apr 2024 07:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:07:44.943435
- Title: Adapting Short-Term Transformers for Action Detection in Untrimmed Videos
- Title(参考訳): アントリム映像における動作検出のための短期変換器の適応
- Authors: Min Yang, Huan Gao, Ping Guo, Limin Wang,
- Abstract要約: Vision Transformer (ViT) はビデオ認識において高い可能性を示している。
未編集ビデオにおける時間的行動検出のために、これらの事前訓練された短期的なViTをどのように適応させるかは、まだ不明である。
本稿では、これらのトレーニング済みViTモデルを一貫した長形ビデオトランスとして適応するための新しいメカニズムの設計に焦点をあてる。
- 参考スコア(独自算出の注目度): 29.723117583850723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) has shown high potential in video recognition, owing to its flexible design, adaptable self-attention mechanisms, and the efficacy of masked pre-training. Yet, it remains unclear how to adapt these pre-trained short-term ViTs for temporal action detection (TAD) in untrimmed videos. The existing works treat them as off-the-shelf feature extractors for each short-trimmed snippet without capturing the fine-grained relation among different snippets in a broader temporal context. To mitigate this issue, this paper focuses on designing a new mechanism for adapting these pre-trained ViT models as a unified long-form video transformer to fully unleash its modeling power in capturing inter-snippet relation, while still keeping low computation overhead and memory consumption for efficient TAD. To this end, we design effective cross-snippet propagation modules to gradually exchange short-term video information among different snippets from two levels. For inner-backbone information propagation, we introduce a cross-snippet propagation strategy to enable multi-snippet temporal feature interaction inside the backbone.For post-backbone information propagation, we propose temporal transformer layers for further clip-level modeling. With the plain ViT-B pre-trained with VideoMAE, our end-to-end temporal action detector (ViT-TAD) yields a very competitive performance to previous temporal action detectors, riching up to 69.5 average mAP on THUMOS14, 37.40 average mAP on ActivityNet-1.3 and 17.20 average mAP on FineAction.
- Abstract(参考訳): ViT(Vision Transformer)は、フレキシブルなデザイン、適応可能な自己注意機構、マスク付き事前トレーニングの有効性など、ビデオ認識において高い可能性を示している。
しかし、これらの事前訓練された短期的ViTを時間的行動検出(TAD)に適応する方法は、まだ不明である。
既存の作業では、より広い時間的文脈において、異なるスニペット間のきめ細かい関係を捉えることなく、各ショートトリミングスニペットのオフザシェルフ特徴抽出器として扱う。
この問題を軽減するため,本研究では,これらのトレーニング済みVTモデルを一貫した長手ビデオトランスフォーマーとして適応させる機構を設計することに注力し,高速なTADのための計算オーバーヘッドとメモリ消費を抑えながら,スニペット間関係を捕捉するモデリングパワーを完全に解き放つことを目的とした。
そこで我々は,2段階の異なるスニペット間で,短時間の映像情報を段階的に交換する効果的なクロススニペット伝搬モジュールを設計する。
骨盤内情報伝達のために,骨盤内におけるマルチスニペットの時間的特徴相互作用を可能にするクロススニペット伝搬戦略を導入し,さらにクリップレベルのモデリングを行うための時間的トランスフォーマー層を提案する。
VideoMAEで事前訓練された通常のViT-Bでは、我々のエンドツーエンドの時間的行動検知器(ViT-TAD)は、従来の時間的行動検出器に対して非常に競争力があり、THUMOS14では69.5平均mAP、ActivityNet-1.3では37.40平均mAP、Functionでは17.20平均mAPに富んでいる。
関連論文リスト
- SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - An Efficient Spatio-Temporal Pyramid Transformer for Action Detection [40.68615998427292]
動作検出のための効率的な階層型時空間ピラミッド変換(STPT)ビデオフレームワークを提案する。
具体的には,早期の局所的時間的リッチタイム表現を符号化するために,局所的ウィンドウアテンションを用いて,後期の長期的時空間依存を捕捉するためにグローバルなアテンションを適用することを提案する。
このように、当社のSTPTは、局所性と依存性の両方を大幅に冗長化してエンコードすることができ、正確性と効率の両立を期待できるトレードオフを提供します。
論文 参考訳(メタデータ) (2022-07-21T12:38:05Z) - Vision Transformer with Cross-attention by Temporal Shift for Efficient
Action Recognition [0.0]
視覚変換器(ViT)の構造に基づく行動認識のための時間的クロスアテンション機構を提案する。
ビデオフレームの各フレームにViTを適用するだけでフレームの特徴をキャプチャできるが、時間的特徴をモデル化することはできない。
提案モデルでは、ViTのMSA計算において、クエリ、キー、バリューをシフトすることで、時間情報をキャプチャする。
論文 参考訳(メタデータ) (2022-04-01T14:06:19Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。