論文の概要: Boundary Discretization and Reliable Classification Network for Temporal
Action Detection
- arxiv url: http://arxiv.org/abs/2310.06403v1
- Date: Tue, 10 Oct 2023 08:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 18:21:56.396626
- Title: Boundary Discretization and Reliable Classification Network for Temporal
Action Detection
- Title(参考訳): 時間的行動検出のための境界離散化と信頼性分類網
- Authors: Zhenying Fang
- Abstract要約: テンポラルアクション検出は、アクションカテゴリを認識し、未トリミングビデオにおける各アクションインスタンスの開始と終了時間を決定することを目的としている。
混合手法は、単純にアンカーベースとアンカーフリーのアプローチをマージすることで、優れたパフォーマンスを実現している。
本稿では,境界離散化と信頼性のある分類モジュールを導入することで問題に対処する新しい境界離散化・信頼性分類ネットワーク(BDRC-Net)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action detection aims to recognize the action category and determine
the starting and ending time of each action instance in untrimmed videos. The
mixed methods have achieved remarkable performance by simply merging
anchor-based and anchor-free approaches. However, there are still two crucial
issues in the mixed framework: (1) Brute-force merging and handcrafted anchors
design affect the performance and practical application of the mixed methods.
(2) A large number of false positives in action category predictions further
impact the detection performance. In this paper, we propose a novel Boundary
Discretization and Reliable Classification Network (BDRC-Net) that addresses
the above issues by introducing boundary discretization and reliable
classification modules. Specifically, the boundary discretization module (BDM)
elegantly merges anchor-based and anchor-free approaches in the form of
boundary discretization, avoiding the handcrafted anchors design required by
traditional mixed methods. Furthermore, the reliable classification module
(RCM) predicts reliable action categories to reduce false positives in action
category predictions. Extensive experiments conducted on different benchmarks
demonstrate that our proposed method achieves favorable performance compared
with the state-of-the-art. For example, BDRC-Net hits an average mAP of 68.6%
on THUMOS'14, outperforming the previous best by 1.5%. The code will be
released at https://github.com/zhenyingfang/BDRC-Net.
- Abstract(参考訳): テンポラルアクション検出は、アクションカテゴリを認識し、未トリミングビデオにおける各アクションインスタンスの開始と終了時間を決定することを目的としている。
混合手法は、単純にアンカーベースとアンカーフリーのアプローチをマージすることで、顕著な性能を達成した。
しかし,(1)ブルートフォースマージと手作りアンカーの設計は,混合手法の性能と実用性に影響を及ぼす。
2) 行動カテゴリー予測における多数の偽陽性は検出性能にさらに影響を及ぼす。
本稿では,境界離散化と信頼性分類モジュールを導入して,上記の問題に対処する新しい境界離散化・信頼性分類ネットワークを提案する。
具体的には、境界離散化モジュール(BDM)は、従来の混合法で必要とされる手作りアンカーの設計を避けるために、境界離散化の形でアンカーベースおよびアンカーフリーアプローチをエレガントにマージする。
さらに、信頼性分類モジュール(RCM)は、信頼性のあるアクションカテゴリを予測し、アクションカテゴリ予測における偽陽性を減らす。
異なるベンチマークで行った実験により,提案手法は最先端の手法と比較して良好な性能を示した。
例えば、BDRC-NetはTHUMOS'14で平均68.6%のmAPに達し、前年より1.5%上回った。
コードはhttps://github.com/zhenyingfang/BDRC-Netで公開される。
関連論文リスト
- Few-shot Open Relation Extraction with Gaussian Prototype and Adaptive Margin [15.118656235473921]
no-of-the-above (FsRE with NOTA) によるほとんどショット関係抽出は、未知のクラスを持つ数ショットシナリオでラベルを予測することを目的としている。
GPAM for FsRE with NOTA という,ガウスプロトタイプと適応マージンに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-27T03:16:09Z) - Boundary-Aware Proposal Generation Method for Temporal Action
Localization [23.79359799496947]
TALは、トリミングされていないビデオの中で、アクションのカテゴリと時間的境界を見つけることを目的としている。
ほとんどの TAL 法は時間境界ではなく行動ラベルに敏感な行動認識モデルに大きく依存している。
コントラスト学習を用いた境界認識提案生成(BAPG)手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T01:41:09Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty
Regularization [73.03956876752868]
我々は、ネットワークがオブジェクトの他の部分に注意を払うことを可能にする、原則的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
具体的には、ミックスアップデータ拡張方式を分類ネットワークに導入し、2つの不確実な正規化項を設計し、ミックスアップ戦略をよりよく扱う。
論文 参考訳(メタデータ) (2020-08-03T21:19:08Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。