論文の概要: Temporal Action Localization with Cross Layer Task Decoupling and Refinement
- arxiv url: http://arxiv.org/abs/2412.09202v2
- Date: Fri, 13 Dec 2024 06:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:42:59.755299
- Title: Temporal Action Localization with Cross Layer Task Decoupling and Refinement
- Title(参考訳): クロス層タスクデカップリングとリファインメントによる時間的行動位置決め
- Authors: Qiang Li, Di Liu, Jun Kong, Sen Li, Hui Xu, Jianzhong Wang,
- Abstract要約: 時間的アクションローカライゼーション(TAL)は、ビデオ内のアクションを分類し、ローカライズする2つのタスクを含む。
CLTDR(Cross Layer Task Decoupling and Refinement)を用いた新しいTAL法を提案する。
提案手法は,THUMOS14,MultiTHUMOS,EPIC-KITCHENS-100,ActivityNet-1.3,HACSの5つのベンチマークにおいて,最先端性能を実現する。
- 参考スコア(独自算出の注目度): 22.85419912488819
- License:
- Abstract: Temporal action localization (TAL) involves dual tasks to classify and localize actions within untrimmed videos. However, the two tasks often have conflicting requirements for features. Existing methods typically employ separate heads for classification and localization tasks but share the same input feature, leading to suboptimal performance. To address this issue, we propose a novel TAL method with Cross Layer Task Decoupling and Refinement (CLTDR). Based on the feature pyramid of video, CLTDR strategy integrates semantically strong features from higher pyramid layers and detailed boundary-aware boundary features from lower pyramid layers to effectively disentangle the action classification and localization tasks. Moreover, the multiple features from cross layers are also employed to refine and align the disentangled classification and regression results. At last, a lightweight Gated Multi-Granularity (GMG) module is proposed to comprehensively extract and aggregate video features at instant, local, and global temporal granularities. Benefiting from the CLTDR and GMG modules, our method achieves state-of-the-art performance on five challenging benchmarks: THUMOS14, MultiTHUMOS, EPIC-KITCHENS-100, ActivityNet-1.3, and HACS. Our code and pre-trained models are publicly available at: https://github.com/LiQiang0307/CLTDR-GMG.
- Abstract(参考訳): 時間的アクションローカライゼーション(TAL)は、ビデオ内のアクションを分類し、ローカライズする2つのタスクを含む。
しかしながら、2つのタスクには、しばしば機能に対する矛盾する要件がある。
既存のメソッドは通常、分類とローカライゼーションタスクに別個のヘッドを使用するが、同じ入力機能を共有し、最適以下のパフォーマンスをもたらす。
そこで本研究では,CLTDR(Cross Layer Task Decoupling and Refinement)を用いた新しいTAL手法を提案する。
ビデオの特徴ピラミッドに基づいて、CLTDR戦略は、高いピラミッド層からのセマンティックな強い特徴と、低いピラミッド層からの詳細な境界対応境界特徴を統合し、アクション分類とローカライゼーションタスクを効果的に切り離す。
さらに、交差層からの複数の特徴は、非絡み合いの分類と回帰の結果を洗練・調整するためにも用いられる。
最後に,Gated Multi-Granularity (GMG) モジュールを提案する。
CLTDRとGMGモジュールの利点を生かして,THUMOS14, MultiTHUMOS, EPIC-KITCHENS-100, ActivityNet-1.3, HACS の5つの挑戦的ベンチマークで最先端のパフォーマンスを実現する。
私たちのコードと事前トレーニングされたモデルは、https://github.com/LiQiang0307/CLTDR-GMGで公開されています。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Meta-RangeSeg: LiDAR Sequence Semantic Segmentation Using Multiple
Feature Aggregation [21.337629798133324]
メタランジセグと呼ばれるLiDAR配列のセマンティックセグメンテーションに対する新しいアプローチを提案する。
空間時間情報をキャプチャするために、新しい範囲残像表現を導入する。
マルチスケール機能を得るために、効率的なU-Netバックボーンが使用される。
論文 参考訳(メタデータ) (2022-02-27T14:46:13Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Associating Multi-Scale Receptive Fields for Fine-grained Recognition [5.079292308180334]
マルチスケールの受容場を2つの操作で関連付けるために,新しい多層非局所(CNL)モジュールを提案する。
CNLはクエリ層とすべてのレスポンス層の間の相関を計算する。
モデルでは,多層層間の空間的依存関係を構築し,より識別的な特徴を学習する。
論文 参考訳(メタデータ) (2020-05-19T01:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。