Fugu-MT 論文翻訳(概要): STMixer: A One-Stage Sparse Action Detector

論文の概要: STMixer: A One-Stage Sparse Action Detector

arxiv url: http://arxiv.org/abs/2303.15879v1
Date: Tue, 28 Mar 2023 10:47:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-29 15:37:53.428353
Title: STMixer: A One-Stage Sparse Action Detector
Title（参考訳）: STMixer: 1段階スパースアクション検出器
Authors: Tao Wu and Mengqi Cao and Ziteng Gao and Gangshan Wu and Limin Wang
Abstract要約: 我々はSTMixerと呼ばれる新しいワンステージアクション検出器を提案する。我々は,STMixerに識別ビデオ機能セットをマイニングする柔軟性を付与する,クエリベースの適応型特徴サンプリングモジュールを提案する。 AVA, UCF101-24, JHMDB のデータセットの最先端結果を得た。
参考スコア（独自算出の注目度）: 48.0614066856134
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Traditional video action detectors typically adopt the two-stage pipeline, where a person detector is first employed to generate actor boxes and then 3D RoIAlign is used to extract actor-specific features for classification. This detection paradigm requires multi-stage training and inference, and cannot capture context information outside the bounding box. Recently, a few query-based action detectors are proposed to predict action instances in an end-to-end manner. However, they still lack adaptability in feature sampling and decoding, thus suffering from the issues of inferior performance or slower convergence. In this paper, we propose a new one-stage sparse action detector, termed STMixer. STMixer is based on two core designs. First, we present a query-based adaptive feature sampling module, which endows our STMixer with the flexibility of mining a set of discriminative features from the entire spatiotemporal domain. Second, we devise a dual-branch feature mixing module, which allows our STMixer to dynamically attend to and mix video features along the spatial and the temporal dimension respectively for better feature decoding. Coupling these two designs with a video backbone yields an efficient end-to-end action detector. Without bells and whistles, our STMixer obtains the state-of-the-art results on the datasets of AVA, UCF101-24, and JHMDB.
Abstract（参考訳）: 従来のビデオアクション検出器では、まずアクターボックスを生成するために人検出装置を使用し、次に3D RoIAlignを使用してアクター固有の特徴を抽出する。この検出パラダイムでは、多段階のトレーニングと推論が必要であり、境界ボックス外のコンテキスト情報をキャプチャできない。近年、エンドツーエンドでアクションインスタンスを予測するために、クエリベースのアクション検出器がいくつか提案されている。しかし、機能サンプリングやデコードにはまだ適応性がないため、パフォーマンスの低下や収束の遅い問題に悩まされている。本稿では,stmixerと呼ばれる新しい一段階スパース動作検出器を提案する。 STMixerは2つのコア設計に基づいている。まず,時空間領域全体から識別的特徴のセットをマイニングする柔軟性により,stmixerを内包するクエリベースの適応的特徴サンプリングモジュールを提案する。第2に,スミキサが空間的および時間的次元に沿って動的に映像的特徴を混合することにより,特徴のデコード性が向上する,デュアルブランチ機能混合モジュールを考案した。これら2つの設計をビデオバックボーンと組み合わせることで、効率的なエンドツーエンドのアクション検出器が得られる。我々のSTMixerは、ベルとホイッスルなしで、AVA、UCF101-24、JHMDBのデータセットの最先端の結果を得る。

関連論文リスト

Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
MutDet: Mutually Optimizing Pre-training for Remote Sensing Object Detection [36.478530086163744]
本研究では,MutDetと呼ばれるリモートセンシングオブジェクト検出のための,Mutally最適化事前学習フレームワークを提案する。 MutDetはオブジェクトの埋め込みを融合し、検出器は最後のエンコーダ層に双方向に機能し、情報インタラクションを強化する。様々な環境での実験は、新しい最先端の転送性能を示している。
論文参考訳（メタデータ） (2024-07-13T15:28:15Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
STMixer: A One-Stage Sparse Action Detector [43.62159663367588]
よりフレキシブルな1段アクション検出器のための2つのコア設計を提案する。まず、クエリベースの適応的特徴サンプリングモジュールを分離し、ビデオ時間領域全体から特徴群をマイニングする柔軟性を備えた検出器を実現する。第2に,より優れた特徴復号化のために,空間次元と時間次元の混合に動的に参画する分離された特徴混合モジュールを考案する。
論文参考訳（メタデータ） (2024-04-15T14:52:02Z)
SODFormer: Streaming Object Detection with Transformer Using Events and Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文参考訳（メタデータ） (2023-08-08T04:53:52Z)
DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文参考訳（メタデータ） (2023-04-01T08:06:43Z)
MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。 mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文参考訳（メタデータ） (2021-04-04T15:47:14Z)
Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。 SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文参考訳（メタデータ） (2021-02-21T12:01:48Z)
Object Detection Made Simpler by Eliminating Heuristic NMS [70.93004137521946]
単純なNMSのないエンドツーエンドのオブジェクト検出フレームワークを示す。検出精度は元の1段検出器と比べて同等か、さらに向上した。
論文参考訳（メタデータ） (2021-01-28T02:38:29Z)
AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文参考訳（メタデータ） (2020-11-30T10:21:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。