論文の概要: Progression-Guided Temporal Action Detection in Videos
- arxiv url: http://arxiv.org/abs/2308.09268v1
- Date: Fri, 18 Aug 2023 03:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:57:02.653499
- Title: Progression-Guided Temporal Action Detection in Videos
- Title(参考訳): 動画における進行誘導時効検出
- Authors: Chongkai Lu, Man-Wai Mak, Ruimin Li, Zheru Chi, Hong Fu
- Abstract要約: 本稿では,時間的行動検出(TAD)のための新しいフレームワークであるAction Progression Network(APN)を提案する。
このフレームワークは、アクション進化プロセスを検出して、ビデオ中のアクションを見つける。
完全なアクションプロセスを101段階に定量化し、アクションの進行を認識するためにニューラルネットワークをトレーニングする。
- 参考スコア(独自算出の注目度): 20.02711550239915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel framework, Action Progression Network (APN), for temporal
action detection (TAD) in videos. The framework locates actions in videos by
detecting the action evolution process. To encode the action evolution, we
quantify a complete action process into 101 ordered stages (0\%, 1\%, ...,
100\%), referred to as action progressions. We then train a neural network to
recognize the action progressions. The framework detects action boundaries by
detecting complete action processes in the videos, e.g., a video segment with
detected action progressions closely follow the sequence 0\%, 1\%, ..., 100\%.
The framework offers three major advantages: (1) Our neural networks are
trained end-to-end, contrasting conventional methods that optimize modules
separately; (2) The APN is trained using action frames exclusively, enabling
models to be trained on action classification datasets and robust to videos
with temporal background styles differing from those in training; (3) Our
framework effectively avoids detecting incomplete actions and excels in
detecting long-lasting actions due to the fine-grained and explicit encoding of
the temporal structure of actions. Leveraging these advantages, the APN
achieves competitive performance and significantly surpasses its counterparts
in detecting long-lasting actions. With an IoU threshold of 0.5, the APN
achieves a mean Average Precision (mAP) of 58.3\% on the THUMOS14 dataset and
98.9\% mAP on the DFMAD70 dataset.
- Abstract(参考訳): 本稿では,時間的行動検出(TAD)のための新しいフレームワークであるAction Progression Network(APN)を提案する。
このフレームワークは、アクション進化プロセスを検出して、ビデオ中のアクションを見つける。
動作進化をエンコードするために、完全なアクションプロセスを101の順序付けされたステージ (0\%, 1\%, ..., 100\%) に定量化する。
次に、アクションの進行を認識するためにニューラルネットワークをトレーニングします。
このフレームワークは、ビデオ中の完全なアクションプロセスを検出することで、アクション境界を検出する。例えば、検出されたアクションの進行を伴うビデオセグメントは、シーケンス 0\%, 1\%, ..., 100\% に密接に従う。
The framework offers three major advantages: (1) Our neural networks are trained end-to-end, contrasting conventional methods that optimize modules separately; (2) The APN is trained using action frames exclusively, enabling models to be trained on action classification datasets and robust to videos with temporal background styles differing from those in training; (3) Our framework effectively avoids detecting incomplete actions and excels in detecting long-lasting actions due to the fine-grained and explicit encoding of the temporal structure of actions.
これらの利点を生かして、APNは競争性能を達成し、長期にわたる行動の検出においてその性能を大幅に上回っている。
IoU閾値0.5のAPNは、THUMOS14データセットでは平均平均精度(mAP)が58.3\%、DFMAD70データセットでは98.9\%である。
関連論文リスト
- DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Leveraging Action Affinity and Continuity for Semi-supervised Temporal
Action Segmentation [24.325716686674042]
本稿では,時間的行動分割タスクに対する半教師付き学習手法を提案する。
このタスクの目的は、長い、トリミングされていないプロシージャビデオにおいて、時間的にアクションを検出し、セグメント化することである。
本稿では,非競合データに対して,アクション親和性損失とアクション連続性損失の2つの新たな損失関数を提案する。
論文 参考訳(メタデータ) (2022-07-18T14:52:37Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Technical Report: Disentangled Action Parsing Networks for Accurate
Part-level Action Parsing [65.87931036949458]
Part-level Action Parsingは、ビデオにおけるアクション認識を促進するための部分状態解析を目的としている。
DAP(disentangled action parsing)というシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-05T02:29:32Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization [12.353250130848044]
本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
論文 参考訳(メタデータ) (2021-01-03T03:08:18Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。