論文の概要: Hierarchical Multi-Stage Transformer Architecture for Context-Aware Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2507.06411v1
- Date: Tue, 08 Jul 2025 21:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.397645
- Title: Hierarchical Multi-Stage Transformer Architecture for Context-Aware Temporal Action Localization
- Title(参考訳): 文脈を考慮した時間的行動定位のための階層型多段階変圧器アーキテクチャ
- Authors: Hayat Ullah, Arslan Munir, Oliver Nina,
- Abstract要約: 時間的動作(TAL)タスクのための階層型マルチステージトランスアーキテクチャ PCL-Former を開発した。
プロポーザル・フォーマーは、アクションを含む可能性のある未トリミングビデオ内の候補セグメントを特定し、分類・フォーマーはこれらのセグメント内のアクションカテゴリを分類し、局所化・フォーマーはアクションインスタンスの時間的境界を正確に予測する。
その結果、提案したPCL-Formerの有効性を検証し、THUMOS14、ActivityNet-1.3、HACSデータセットにおいて、最先端のTALアプローチを2.8%、1.2%、および4.8%で上回った。
- 参考スコア(独自算出の注目度): 3.2537548141519523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the recent success of transformers and multi-stage architectures in video recognition and object detection domains. We thoroughly explore the rich spatio-temporal properties of transformers within a multi-stage architecture paradigm for the temporal action localization (TAL) task. This exploration led to the development of a hierarchical multi-stage transformer architecture called PCL-Former, where each subtask is handled by a dedicated transformer module with a specialized loss function. Specifically, the Proposal-Former identifies candidate segments in an untrimmed video that may contain actions, the Classification-Former classifies the action categories within those segments, and the Localization-Former precisely predicts the temporal boundaries (i.e., start and end) of the action instances. To evaluate the performance of our method, we have conducted extensive experiments on three challenging benchmark datasets: THUMOS-14, ActivityNet-1.3, and HACS Segments. We also conducted detailed ablation experiments to assess the impact of each individual module of our PCL-Former. The obtained quantitative results validate the effectiveness of the proposed PCL-Former, outperforming state-of-the-art TAL approaches by 2.8%, 1.2%, and 4.8% on THUMOS14, ActivityNet-1.3, and HACS datasets, respectively.
- Abstract(参考訳): ビデオ認識とオブジェクト検出領域におけるトランスフォーマーとマルチステージアーキテクチャの最近の成功に触発された。
時間的行動ローカライゼーション(TAL)タスクのための多段階アーキテクチャパラダイムにおいて、トランスフォーマーの豊富な時空間特性を網羅的に検討する。
この探索により、PCL-Formerと呼ばれる階層的なマルチステージトランスアーキテクチャが開発され、各サブタスクは特別な損失関数を持つ専用トランスモジュールによって処理される。
具体的には、プロポーザルフォーマーはアクションを含む可能性のある未トリミングビデオの候補セグメントを特定し、分類フォーマーはこれらのセグメント内のアクションカテゴリを分類し、局所化フォーマーはアクションインスタンスの時間的境界(開始と終了)を正確に予測する。
提案手法の性能を評価するため, THUMOS-14, ActivityNet-1.3, HACS Segments の3つの挑戦的なベンチマークデータセットについて広範な実験を行った。
また,PCL-Formerの各モジュールへの影響を評価するために,詳細なアブレーション実験を行った。
その結果、提案したPCL-Formerの有効性を検証し、THUMOS14、ActivityNet-1.3、HACSデータセットにおいて、最先端のTALアプローチを2.8%、1.2%、および4.8%で上回った。
関連論文リスト
- Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。
Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-10-31T14:16:56Z) - PAT: Position-Aware Transformer for Dense Multi-Label Action Detection [36.39340228621982]
ビデオ中の複雑な時間的共起動作依存を学習するトランスフォーマーベースのネットワークであるPATを提案する。
自己認識機構に相対的な位置エンコーディングを組み込み、マルチスケールの時間的関係を利用する。
提案手法の有効性を2つの厳密なマルチラベルベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2023-08-09T16:29:31Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Adaptive Perception Transformer for Temporal Action Localization [13.735402329482719]
本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
論文 参考訳(メタデータ) (2022-08-25T07:42:48Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。