論文の概要: ActionFormer: Localizing Moments of Actions with Transformers
- arxiv url: http://arxiv.org/abs/2202.07925v1
- Date: Wed, 16 Feb 2022 08:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 23:47:17.484226
- Title: ActionFormer: Localizing Moments of Actions with Transformers
- Title(参考訳): ActionFormer: トランスフォーマーによるアクションのモーメントのローカライズ
- Authors: Chenlin Zhang, Jianxin Wu, Yin Li
- Abstract要約: 自己アテンションに基づくトランスフォーマーモデルでは,画像分類や物体検出に顕著な結果が得られた。
我々は、時間内のアクションを識別し、カテゴリを単一のショットで認識するモデルであるActionFormerを紹介します。
THUMOS14では, tIoU=0.5で65.6%のmAPを達成し, 8.7絶対パーセンテージで最高の先行モデルを上回った。
- 参考スコア(独自算出の注目度): 34.1448940256826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention based Transformer models have demonstrated impressive results
for image classification and object detection, and more recently for video
understanding. Inspired by this success, we investigate the application of
Transformer networks for temporal action localization in videos. To this end,
we present ActionFormer -- a simple yet powerful model to identify actions in
time and recognize their categories in a single shot, without using action
proposals or relying on pre-defined anchor windows. ActionFormer combines a
multiscale feature representation with local self-attention, and uses a
light-weighted decoder to classify every moment in time and estimate the
corresponding action boundaries. We show that this orchestrated design results
in major improvements upon prior works. Without bells and whistles,
ActionFormer achieves 65.6% mAP at tIoU=0.5 on THUMOS14, outperforming the best
prior model by 8.7 absolute percentage points and crossing the 60% mAP for the
first time. Further, ActionFormer demonstrates strong results on ActivityNet
1.3 (36.0% average mAP) and the more recent EPIC-Kitchens 100 (+13.5% average
mAP over prior works). Our code is available at
http://github.com/happyharrycn/actionformer_release
- Abstract(参考訳): 自己注意に基づくトランスフォーマーモデルでは,画像分類や物体検出,最近では映像理解において顕著な結果が得られた。
この成功に触発されて、ビデオにおける時間的行動ローカライゼーションのためのTransformer Networkの適用について検討する。
この目的のために、actionformer - アクションの提案や事前定義されたアンカーウィンドウを使わずに、アクションを時間内に識別し、そのカテゴリを1ショットで認識する、シンプルで強力なモデルです。
actionformerは、マルチスケールな特徴表現とローカルなセルフアテンションを組み合わせて、軽量デコーダを使用して、時間内のすべてのモーメントを分類し、対応するアクション境界を推定する。
この設計が事前の作業において大きな改善をもたらすことを示す。
ActionFormer はベルとホイッスルなしで THUMOS14 で tIoU=0.5 で65.6% mAP を獲得し、8.7 の絶対パーセンテージポイントで最高の先行モデルを上回り、初めて 60% mAP を超えた。
さらに、ActionFormerはActivityNet 1.3 (36.0%平均mAP) と、より最近のEPIC-Kitchens 100 (+13.5%平均mAP) で強い結果を示している。
私たちのコードはhttp://github.com/happyharrycn/actionformer_releaseで利用可能です。
関連論文リスト
- MALT: Multi-scale Action Learning Transformer for Online Action Detection [6.819772961626024]
オンラインアクション検出(OAD)は、将来的なフレームにアクセスすることなく、リアルタイムでストリーミングビデオから進行中のアクションを特定することを目的としている。
本稿では,新しいリカレントデコーダを備えたマルチスケール動作学習トランス (MALT) を提案する。
また、無関係なフレームをより効率的にフィルタリングするスパースアテンションを用いた明示的なフレームスコアリング機構も導入する。
論文 参考訳(メタデータ) (2024-05-31T15:03:35Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Progression-Guided Temporal Action Detection in Videos [20.02711550239915]
本稿では,時間的行動検出(TAD)のための新しいフレームワークであるAction Progression Network(APN)を提案する。
このフレームワークは、アクション進化プロセスを検出して、ビデオ中のアクションを見つける。
完全なアクションプロセスを101段階に定量化し、アクションの進行を認識するためにニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2023-08-18T03:14:05Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Adaptive Perception Transformer for Temporal Action Localization [13.735402329482719]
本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
論文 参考訳(メタデータ) (2022-08-25T07:42:48Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。