論文の概要: HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers
- arxiv url: http://arxiv.org/abs/2207.09662v2
- Date: Thu, 21 Jul 2022 01:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 10:36:26.515817
- Title: HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers
- Title(参考訳): htnet:階層型トランスフォーマーによるアンカーフリー時空間動作定位
- Authors: Tae-Kyung Kang, Gun-Hee Lee, and Seong-Whan Lee
- Abstract要約: 時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
- 参考スコア(独自算出の注目度): 19.48000379201692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization (TAL) is a task of identifying a set of actions
in a video, which involves localizing the start and end frames and classifying
each action instance. Existing methods have addressed this task by using
predefined anchor windows or heuristic bottom-up boundary-matching strategies,
which are major bottlenecks in inference time. Additionally, the main challenge
is the inability to capture long-range actions due to a lack of global
contextual information. In this paper, we present a novel anchor-free
framework, referred to as HTNet, which predicts a set of <start time, end time,
class> triplets from a video based on a Transformer architecture. After the
prediction of coarse boundaries, we refine it through a background feature
sampling (BFS) module and hierarchical Transformers, which enables our model to
aggregate global contextual information and effectively exploit the inherent
semantic relationships in a video. We demonstrate how our method localizes
accurate action instances and achieves state-of-the-art performance on two TAL
benchmark datasets: THUMOS14 and ActivityNet 1.3.
- Abstract(参考訳): 時間的アクションローカライゼーション(TAL)は、ビデオ内のアクションの集合を識別するタスクであり、開始フレームと終了フレームをローカライズし、各アクションインスタンスを分類する。
既存の手法では、事前定義されたアンカーウィンドウやヒューリスティックなボトムアップ境界マッチング戦略を用いてこの問題に対処している。
加えて、主な課題は、グローバルな文脈情報がないため、長距離アクションをキャプチャできないことである。
本稿では,トランスフォーマーアーキテクチャに基づくビデオから<start time, end time, class>三重項のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
粗い境界の予測の後、我々は背景特徴サンプリング(BFS)モジュールと階層変換器を用いてそれを洗練し、グローバルな文脈情報を集約し、ビデオ内の固有の意味関係を効果的に活用する。
本手法は,2つのTALベンチマークデータセット(THUMOS14とActivityNet 1.3)上で,正確なアクションインスタンスのローカライズと最先端のパフォーマンスを実現する。
関連論文リスト
- Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。
Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-10-31T14:16:56Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Transferable Knowledge-Based Multi-Granularity Aggregation Network for
Temporal Action Localization: Submission to ActivityNet Challenge 2021 [33.840281113206444]
本報告では,2021 HACS 時空間行動ローカライゼーションチャレンジの提出に使用したソリューションの概要について述べる。
我々は、TCANet(Temporal Context Aggregation Network)を用いて、高品質なアクション提案を生成する。
また、トリミングされたビデオから未トリミングされたビデオに知識を移すための追加モジュールも採用しています。
提案手法は, 教師付きおよび弱教師付き時間的行動局所化トラックを用いて, 39.91 と 29.78 の平均 mAP をそれぞれ達成する。
論文 参考訳(メタデータ) (2021-07-27T06:18:21Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal
Action Localization [18.56421375743287]
ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。
アクションインスタンス、コンテキスト、非アクションバックグラウンドの各時間ポイントの確率を同時に測定するために、3つの分岐アテンションモジュールを統合する。
提案手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できる。
論文 参考訳(メタデータ) (2021-04-07T07:39:57Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - ACSNet: Action-Context Separation Network for Weakly Supervised Temporal
Action Localization [148.55210919689986]
アクションの正確なローカリゼーションのためにコンテキストを考慮したアクションコンテキスト分離ネットワーク(ACSNet)を紹介します。
ACSNetは、既存の最先端のWS-TALメソッドを大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-03-28T09:20:54Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。