論文の概要: Adaptive Perception Transformer for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2208.11908v1
- Date: Thu, 25 Aug 2022 07:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:31:41.418348
- Title: Adaptive Perception Transformer for Temporal Action Localization
- Title(参考訳): 時間的行動定位のための適応知覚変換器
- Authors: Yizheng Ouyang, Tianjin Zhang, Weibo Gu, Hongfa Wang, Liming Wang, and
Xiaojie Guo
- Abstract要約: 本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
- 参考スコア(独自算出の注目度): 13.735402329482719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action localization aims to predict the boundary and category of
each action instance in untrimmed long videos. Most of previous methods based
on anchors or proposals neglect the global-local context interaction in entire
video sequences. Besides, their multi-stage designs cannot generate action
boundaries and categories straightforwardly. To address the above issues, this
paper proposes a novel end-to-end model, called adaptive perception transformer
(AdaPerFormer for short). Specifically, AdaPerFormer explores a dual-branch
multi-head self-attention mechanism. One branch takes care of the global
perception attention, which can model entire video sequences and aggregate
global relevant contexts. While the other branch concentrates on the local
convolutional shift to aggregate intra-frame and inter-frame information
through our bidirectional shift operation. The end-to-end nature produces the
boundaries and categories of video actions without extra steps. Extensive
experiments together with ablation studies are provided to reveal the
effectiveness of our design. Our method achieves a state-of-the-art accuracy on
the THUMOS14 dataset (65.8\% in terms of mAP@0.5, 42.6\% mAP@0.7, and 62.7\%
mAP@Avg), and obtains competitive performance on the ActivityNet-1.3 dataset
with an average mAP of 36.1\%. The code and models are available at
https://github.com/SouperO/AdaPerFormer.
- Abstract(参考訳): 時間的動作の局所化は、未トリミングのロングビデオにおける各アクションインスタンスの境界とカテゴリを予測することを目的としている。
アンカーや提案に基づく従来の手法のほとんどは、ビデオシーケンス全体のグローバルなコンテキスト相互作用を無視している。
さらに、多段階設計では、アクション境界やカテゴリを直接生成することはできない。
そこで本研究では,適応知覚変換器(AdaPerFormer,略してAdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
具体的には、adaperformerはデュアルブランチのマルチヘッドセルフアテンション機構を探索する。
あるブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他方の分岐部は局所的な畳み込みシフトに集中し、双方向シフト操作を通じてフレーム内およびフレーム間情報を集約する。
エンドツーエンドの性質は、追加ステップなしでビデオアクションの境界とカテゴリを生成する。
本設計の有効性を明らかにするため,アブレーション実験とともに広範な実験を行った。
本手法は,THUMOS14データセットの最先端精度(mAP@0.5,42.6\% mAP@0.7,62.7\% mAP@Avg)を実現し,平均mAP36.1\%のActivityNet-1.3データセットの競合性能を得る。
コードとモデルはhttps://github.com/soupero/adaperformerで入手できる。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Temporal Action Localization with Multi-temporal Scales [54.69057924183867]
マルチ時間スケールの特徴空間における行動を予測することを提案する。
具体的には、異なるスケールの洗練された特徴ピラミッドを使用して、高レベルのスケールから低レベルのスケールにセマンティクスを渡す。
提案手法は, それぞれ12.6%, 17.4%, 2.2%の改善を達成できる。
論文 参考訳(メタデータ) (2022-08-16T01:48:23Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization [12.353250130848044]
本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
論文 参考訳(メタデータ) (2021-01-03T03:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。