論文の概要: End-to-end Temporal Action Detection with Transformer
- arxiv url: http://arxiv.org/abs/2106.10271v1
- Date: Fri, 18 Jun 2021 17:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 15:17:08.624226
- Title: End-to-end Temporal Action Detection with Transformer
- Title(参考訳): 変圧器を用いた終端動作検出
- Authors: Xiaolong Liu, Qimeng Wang, Yao Hu, Xu Tang, Song Bai, Xiang Bai
- Abstract要約: 時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
- 参考スコア(独自算出の注目度): 86.80289146697788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action detection (TAD) aims to determine the semantic label and the
boundaries of every action instance in an untrimmed video. It is a fundamental
task in video understanding and significant progress has been made in TAD.
Previous methods involve multiple stages or networks and hand-designed rules or
operations, which fall short in efficiency and flexibility. Here, we construct
an end-to-end framework for TAD upon Transformer, termed \textit{TadTR}, which
simultaneously predicts all action instances as a set of labels and temporal
locations in parallel. TadTR is able to adaptively extract temporal context
information needed for making action predictions, by selectively attending to a
number of snippets in a video. It greatly simplifies the pipeline of TAD and
runs much faster than previous detectors. Our method achieves state-of-the-art
performance on HACS Segments and THUMOS14 and competitive performance on
ActivityNet-1.3. Our code will be made available at
\url{https://github.com/xlliu7/TadTR}.
- Abstract(参考訳): 時間的アクション検出(TAD)は、ビデオ内のすべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
これはビデオ理解の基本的な課題であり、TADでは大きな進歩を遂げている。
従来の手法では、複数のステージ、ネットワーク、ハンドデザインのルールや操作が含まれており、効率や柔軟性に欠ける。
そこで我々は,TAD on Transformer のエンドツーエンドフレームワークである \textit{TadTR} を構築し,同時にすべてのアクションインスタンスをラベルと時間的位置のセットとして並列に予測する。
TadTRは、ビデオ内の複数のスニペットに選択的に参加することにより、アクション予測に必要な時間的コンテキスト情報を適応的に抽出することができる。
tadのパイプラインを大幅に単純化し、以前の検出器よりもはるかに高速に動作する。
本手法はhacsセグメントとthums14の最先端性能と activitynet-1.3 の競合性能を実現する。
私たちのコードは \url{https://github.com/xlliu7/TadTR} で利用可能になります。
関連論文リスト
- Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。
Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-10-31T14:16:56Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - One-Stage Open-Vocabulary Temporal Action Detection Leveraging Temporal Multi-scale and Action Label Features [2.8266810371534152]
The Open-vocabulary Temporal Action Detection (Open-vocab TAD) is a Advanced video analysis approach。
提案手法は,Open-vocab と Closed-vocab の両方の設定において,他の手法と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-04-30T13:14:28Z) - TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression [25.180317527112372]
時間的行動検出(TAD)のためのクエリーベース検出器における手作り部品に依存した正規化座標表現は重要な要素である
時間整合座標式を組み込んだフルエンド・ツー・エンドの時間的動作検出変換器であるモデル名を提案する。
本手法は手作り部品を不要にすることでTAD処理を単純化するだけでなく,クエリーベース検出器の性能も大幅に向上する。
論文 参考訳(メタデータ) (2024-04-03T02:16:30Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文 参考訳(メタデータ) (2022-03-03T06:52:13Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。