論文の概要: STMixer: A One-Stage Sparse Action Detector
- arxiv url: http://arxiv.org/abs/2404.09842v1
- Date: Mon, 15 Apr 2024 14:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:57:24.046232
- Title: STMixer: A One-Stage Sparse Action Detector
- Title(参考訳): STMixer: 1段階スパースアクション検出器
- Authors: Tao Wu, Mengqi Cao, Ziteng Gao, Gangshan Wu, Limin Wang,
- Abstract要約: よりフレキシブルな1段アクション検出器のための2つのコア設計を提案する。
まず、クエリベースの適応的特徴サンプリングモジュールを分離し、ビデオ時間領域全体から特徴群をマイニングする柔軟性を備えた検出器を実現する。
第2に,より優れた特徴復号化のために,空間次元と時間次元の混合に動的に参画する分離された特徴混合モジュールを考案する。
- 参考スコア(独自算出の注目度): 43.62159663367588
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditional video action detectors typically adopt the two-stage pipeline, where a person detector is first employed to generate actor boxes and then 3D RoIAlign is used to extract actor-specific features for classification. This detection paradigm requires multi-stage training and inference, and the feature sampling is constrained inside the box, failing to effectively leverage richer context information outside. Recently, a few query-based action detectors have been proposed to predict action instances in an end-to-end manner. However, they still lack adaptability in feature sampling and decoding, thus suffering from the issues of inferior performance or slower convergence. In this paper, we propose two core designs for a more flexible one-stage sparse action detector. First, we present a query-based adaptive feature sampling module, which endows the detector with the flexibility of mining a group of discriminative features from the entire spatio-temporal domain. Second, we devise a decoupled feature mixing module, which dynamically attends to and mixes video features along the spatial and temporal dimensions respectively for better feature decoding. Based on these designs, we instantiate two detection pipelines, that is, STMixer-K for keyframe action detection and STMixer-T for action tubelet detection. Without bells and whistles, our STMixer detectors obtain state-of-the-art results on five challenging spatio-temporal action detection benchmarks for keyframe action detection or action tube detection.
- Abstract(参考訳): 従来のビデオアクション検出器では、まずアクターボックスを生成するために人検出装置を使用し、次に3D RoIAlignを使用してアクター固有の特徴を抽出する。
この検出パラダイムは、マルチステージのトレーニングと推論を必要とし、機能サンプリングはボックス内で制限され、外部のよりリッチなコンテキスト情報を効果的に活用することができない。
近年、エンドツーエンドでアクションインスタンスを予測するために、クエリベースのアクション検出器がいくつか提案されている。
しかし、機能サンプリングや復号化には相変わらず適応性に欠けており、性能の低下や収束の遅い問題に悩まされている。
本稿では,よりフレキシブルな1段スパース動作検出器のための2つのコア設計を提案する。
まず、時空間全体から識別的特徴群を抽出する柔軟性を備えた、クエリベースの適応的特徴サンプリングモジュールを提案する。
第二に、分離された特徴混合モジュールを考案し、動的にビデオの特徴を空間的および時間的次元に沿って混合し、より優れた特徴復号を行う。
これらの設計に基づき、キーフレーム動作検出用STMixer-Kとアクションチューブレット検出用STMixer-Tの2つの検出パイプラインをインスタンス化する。
我々のSTMixer検出器はベルやホイッスルを使わずに、キーフレームアクション検出やアクションチューブ検出のための5つの時空間行動検出ベンチマークに対して、最先端の結果を得る。
関連論文リスト
- Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - MutDet: Mutually Optimizing Pre-training for Remote Sensing Object Detection [36.478530086163744]
本研究では,MutDetと呼ばれるリモートセンシングオブジェクト検出のための,Mutally最適化事前学習フレームワークを提案する。
MutDetはオブジェクトの埋め込みを融合し、検出器は最後のエンコーダ層に双方向に機能し、情報インタラクションを強化する。
様々な環境での実験は、新しい最先端の転送性能を示している。
論文 参考訳(メタデータ) (2024-07-13T15:28:15Z) - STMixer: A One-Stage Sparse Action Detector [48.0614066856134]
我々はSTMixerと呼ばれる新しいワンステージアクション検出器を提案する。
我々は,STMixerに識別ビデオ機能セットをマイニングする柔軟性を付与する,クエリベースの適応型特徴サンプリングモジュールを提案する。
AVA, UCF101-24, JHMDB のデータセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-03-28T10:47:06Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z) - Joint Detection and Tracking in Videos with Identification Features [36.55599286568541]
本稿では,ビデオ検出,追跡,再識別機能の最初の共同最適化を提案する。
提案手法はMOTの最先端に到達し,オンライントラッカーにおけるUA-DETRAC'18追跡課題のうち,第1位,第3位にランクインした。
論文 参考訳(メタデータ) (2020-05-21T21:06:40Z) - Spatio-Temporal Action Detection with Multi-Object Interaction [127.85524354900494]
本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。
本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
論文 参考訳(メタデータ) (2020-04-01T00:54:56Z) - Actions as Moving Points [66.21507857877756]
我々は、MovingCenter Detector(MOC-detector)と呼ばれる概念的にシンプルで、効率的で、より精密なアクションチューブレット検出フレームワークを提案する。
動作情報が行動管検出を簡素化し,補助するという考えから,MOC検出器は3つの重要な頭部枝から構成される。
我々のMOC検出器は、JHMDBおよびUCF101-24データセット上のフレームmAPとビデオmAPの両方のメトリクスに対して、既存の最先端手法よりも優れています。
論文 参考訳(メタデータ) (2020-01-14T03:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。