論文の概要: Boundary Discretization and Reliable Classification Network for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2310.06403v4
- Date: Fri, 7 Jun 2024 10:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:56:18.026534
- Title: Boundary Discretization and Reliable Classification Network for Temporal Action Detection
- Title(参考訳): 時間的行動検出のための境界離散化と信頼性分類網
- Authors: Zhenying Fang, Jun Yu, Richang Hong,
- Abstract要約: 時間的アクション検出は、アクションカテゴリを認識し、各アクションインスタンスの開始と終了の時間を未トリミングビデオで決定することを目的としている。
混合手法は、アンカーベースとアンカーフリーのアプローチをシームレスにマージすることで、優れたパフォーマンスを実現している。
本稿では,境界離散化と信頼性のある分類モジュールを導入することで,上記の問題に対処する新しい境界離散化・信頼性分類ネットワークを提案する。
- 参考スコア(独自算出の注目度): 39.17204328036531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action detection aims to recognize the action category and determine each action instance's starting and ending time in untrimmed videos. The mixed methods have achieved remarkable performance by seamlessly merging anchor-based and anchor-free approaches. Nonetheless, there are still two crucial issues within the mixed framework: (1) Brute-force merging and handcrafted anchor design hinder the substantial potential and practicality of the mixed methods. (2) Within-category predictions show a significant abundance of false positives. In this paper, we propose a novel Boundary Discretization and Reliable Classification Network (BDRC-Net) that addresses the issues above by introducing boundary discretization and reliable classification modules. Specifically, the boundary discretization module (BDM) elegantly merges anchor-based and anchor-free approaches in the form of boundary discretization, eliminating the need for the traditional handcrafted anchor design. Furthermore, the reliable classification module (RCM) predicts reliable global action categories to reduce false positives. Extensive experiments conducted on different benchmarks demonstrate that our proposed method achieves competitive detection performance. The code will be released at https://github.com/zhenyingfang/BDRC-Net.
- Abstract(参考訳): 時間的アクション検出は、アクションカテゴリを認識し、各アクションインスタンスの開始と終了の時間を未トリミングビデオで決定することを目的としている。
混合手法は、アンカーベースとアンカーフリーのアプローチをシームレスにマージすることで、優れた性能を実現している。
1) ブラトフォースのマージと手作りアンカーの設計は、混合手法の実質的な可能性と実用性を妨げている。
2)カテゴリー内予測は偽陽性の有意な数を示す。
本稿では,境界離散化と信頼性分類モジュールを導入することで,上記の問題に対処する新しい境界離散化・信頼性分類ネットワーク(BDRC-Net)を提案する。
具体的には、境界離散化モジュール(BDM)は境界離散化の形でアンカーベースおよびアンカーフリーアプローチをエレガントにマージし、従来の手作りアンカー設計の必要性を排除した。
さらに、信頼性分類モジュール(RCM)は、信頼性のあるグローバルアクションカテゴリを予測し、偽陽性を減らす。
異なるベンチマークで行った実験により,提案手法が競合検出性能を実現することを示す。
コードはhttps://github.com/zhenyingfang/BDRC-Netで公開される。
関連論文リスト
- Few-shot Open Relation Extraction with Gaussian Prototype and Adaptive Margin [15.118656235473921]
no-of-the-above (FsRE with NOTA) によるほとんどショット関係抽出は、未知のクラスを持つ数ショットシナリオでラベルを予測することを目的としている。
GPAM for FsRE with NOTA という,ガウスプロトタイプと適応マージンに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-27T03:16:09Z) - Boundary-Aware Proposal Generation Method for Temporal Action
Localization [23.79359799496947]
TALは、トリミングされていないビデオの中で、アクションのカテゴリと時間的境界を見つけることを目的としている。
ほとんどの TAL 法は時間境界ではなく行動ラベルに敏感な行動認識モデルに大きく依存している。
コントラスト学習を用いた境界認識提案生成(BAPG)手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T01:41:09Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty
Regularization [73.03956876752868]
我々は、ネットワークがオブジェクトの他の部分に注意を払うことを可能にする、原則的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
具体的には、ミックスアップデータ拡張方式を分類ネットワークに導入し、2つの不確実な正規化項を設計し、ミックスアップ戦略をよりよく扱う。
論文 参考訳(メタデータ) (2020-08-03T21:19:08Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。