論文の概要: Temporal Action Localization with Multi-temporal Scales
- arxiv url: http://arxiv.org/abs/2208.07493v1
- Date: Tue, 16 Aug 2022 01:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:30:53.502074
- Title: Temporal Action Localization with Multi-temporal Scales
- Title(参考訳): 多時間スケールによる時間的行動定位
- Authors: Zan Gao, Xinglei Cui, Tao Zhuo, Zhiyong Cheng, An-An Liu, Meng Wang,
and Shenyong Chen
- Abstract要約: マルチ時間スケールの特徴空間における行動を予測することを提案する。
具体的には、異なるスケールの洗練された特徴ピラミッドを使用して、高レベルのスケールから低レベルのスケールにセマンティクスを渡す。
提案手法は, それぞれ12.6%, 17.4%, 2.2%の改善を達成できる。
- 参考スコア(独自算出の注目度): 54.69057924183867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization plays an important role in video analysis, which
aims to localize and classify actions in untrimmed videos. The previous methods
often predict actions on a feature space of a single-temporal scale. However,
the temporal features of a low-level scale lack enough semantics for action
classification while a high-level scale cannot provide rich details of the
action boundaries. To address this issue, we propose to predict actions on a
feature space of multi-temporal scales. Specifically, we use refined feature
pyramids of different scales to pass semantics from high-level scales to
low-level scales. Besides, to establish the long temporal scale of the entire
video, we use a spatial-temporal transformer encoder to capture the long-range
dependencies of video frames. Then the refined features with long-range
dependencies are fed into a classifier for the coarse action prediction.
Finally, to further improve the prediction accuracy, we propose to use a
frame-level self attention module to refine the classification and boundaries
of each action instance. Extensive experiments show that the proposed method
can outperform state-of-the-art approaches on the THUMOS14 dataset and achieves
comparable performance on the ActivityNet1.3 dataset. Compared with A2Net
(TIP20, Avg\{0.3:0.7\}), Sub-Action (CSVT2022, Avg\{0.1:0.5\}), and AFSD
(CVPR21, Avg\{0.3:0.7\}) on the THUMOS14 dataset, the proposed method can
achieve improvements of 12.6\%, 17.4\% and 2.2\%, respectively
- Abstract(参考訳): 時間的行動のローカライゼーションはビデオ解析において重要な役割を担い、未編集映像における行動のローカライズと分類を目的としている。
前者の方法は、しばしば単時間スケールの特徴空間上のアクションを予測する。
しかしながら、低レベルのスケールの時間的特徴はアクション分類に十分な意味論を欠いている一方で、高レベルのスケールはアクション境界の豊富な詳細を提供することができない。
この問題に対処するために,マルチ時間スケールの特徴空間における行動を予測することを提案する。
具体的には、異なるスケールの洗練された特徴ピラミッドを使用して、高レベルのスケールから低レベルのスケールにセマンティクスを渡す。
さらに,ビデオ全体の経時的スケールを確立するために,ビデオフレームの長距離依存性を捕捉するために空間時間変換器エンコーダを用いる。
次に、長距離依存性を持つ洗練された特徴を粗い動作予測のための分類器に入力する。
最後に,予測精度をさらに向上させるために,フレームレベルの自己注意モジュールを用いて各アクションインスタンスの分類と境界を洗練することを提案する。
大規模な実験により、提案手法はTHUMOS14データセットにおける最先端のアプローチよりも優れており、ActivityNet1.3データセット上で同等のパフォーマンスが得られることが示された。
THUMOS14データセット上のA2Net (TIP20, Avg\{0.3:0.7\}), Sub-Action (CSVT2022, Avg\{0.1:0.5\}), AFSD (CVPR21, Avg\{0.3:0.7\}) と比較して, 提案手法はそれぞれ12.6\%, 17.4\%, 2.2\%の改善を達成できる。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Adaptive Perception Transformer for Temporal Action Localization [13.735402329482719]
本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
論文 参考訳(メタデータ) (2022-08-25T07:42:48Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Exploring Stronger Feature for Temporal Action Localization [41.23726979184197]
時間的アクションローカライゼーションは、アクションカテゴリによる開始と終了の時間をローカライズすることを目的としている。
我々は、古典的な畳み込みベースのバックボーンと、最近のトランスフォーマーベースのバックボーンの急増について検討した。
単純な組み合わせで単一のSlowFast機能を備えた検証セットのmAPで42.42%を達成する。
論文 参考訳(メタデータ) (2021-06-24T13:46:30Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。