論文の概要: Minimum Efforts to Build an End-to-End Spatial-Temporal Action Detector
- arxiv url: http://arxiv.org/abs/2206.03064v1
- Date: Tue, 7 Jun 2022 07:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 14:58:25.584657
- Title: Minimum Efforts to Build an End-to-End Spatial-Temporal Action Detector
- Title(参考訳): エンド・ツー・エンドの時空間行動検知器構築のための最小限の取り組み
- Authors: Lin Sui, Chen-Lin Zhang, Lixin Gu, Feng Han
- Abstract要約: 2段階のアクション検出方法は重く、現実世界の応用では適用が難しい。
本稿では,空間的時間的行動検出問題をエンドツーエンドに解決するME-STADという新しい手法を提案する。
提案したME-STADは、元の2段検出器よりも良い結果(2.2% mAP)を達成し、約80%のFLOPを削減した。
- 参考スコア(独自算出の注目度): 3.7885826338434514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial-temporal action detection is a vital part of video understanding.
Current spatial-temporal action detection methods will first use an object
detector to obtain person candidate proposals. Then, the model will classify
the person candidates into different action categories. So-called two-stage
methods are heavy and hard to apply in real-world applications. Some existing
methods use a unified model structure, But they perform badly with the vanilla
model and often need extra modules to boost the performance. In this paper, we
explore the strategy to build an end-to-end spatial-temporal action detector
with minimal modifications. To this end, we propose a new method named ME-STAD,
which solves the spatial-temporal action detection problem in an end-to-end
manner. Besides the model design, we propose a novel labeling strategy to deal
with sparse annotations in spatial-temporal datasets. The proposed ME-STAD
achieves better results (2.2% mAP boost) than original two-stage detectors and
around 80% FLOPs reduction. Moreover, our proposed ME-STAD only has minimum
modifications with previous methods and does not require extra components. Our
code will be made public.
- Abstract(参考訳): 時空間行動検出はビデオ理解の重要な部分である。
現在の時空間行動検出法はまず物体検出器を用いて人候補の提案を得る。
次に、モデルは、人物候補を異なるアクションカテゴリに分類する。
いわゆる2段階法は重く、現実世界の応用では適用が難しい。
既存のメソッドでは統一されたモデル構造を使用しているが、バニラモデルではパフォーマンスが悪く、パフォーマンスを高めるために追加のモジュールが必要になることが多い。
本稿では,最小限の修正を施した終端時空間行動検知器の構築戦略を検討する。
そこで本研究では,時空間行動検出問題をエンドツーエンドに解決するME-STADという手法を提案する。
モデル設計の他に,空間時空間データセットにおけるスパースアノテーションを扱う新しいラベリング戦略を提案する。
提案したME-STADは、元の2段検出器よりも良い結果(2.2% mAP)を達成し、約80%のFLOPを削減した。
さらに,提案するME-STADは,従来のメソッドに対して最小限の変更しか行わず,余分なコンポーネントを必要としない。
私たちのコードは公開されます。
関連論文リスト
- TIDE: Test Time Few Shot Object Detection [11.036762620105383]
Few-shot Object Detection (FSOD) は、対象ドメイン内の新しいカテゴリの限られたオブジェクトインスタンスから意味的知識を抽出することを目的としている。
FSODの最近の進歩は、メタ学習やデータ拡張を通じて、いくつかのオブジェクトに基づいてベースモデルを微調整することに焦点を当てている。
我々は、新しいFSODタスクを定式化し、TIDE(Test TIme Few Shot Detection)と呼ぶ。
論文 参考訳(メタデータ) (2023-11-30T09:00:44Z) - Towards Few-Annotation Learning for Object Detection: Are
Transformer-based Models More Efficient ? [11.416621957617334]
本稿では,現在最先端のオブジェクト検出器であるDeformable DETRに適した半教師付き手法を提案する。
本手法はCOCOとPascal VOCの半教師付きオブジェクト検出ベンチマークで評価し,特にアノテーションが少ない場合,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-30T18:51:25Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Temporal Action Detection with Global Segmentation Mask Learning [134.26292288193298]
既存の時間的行動検出(TAD)手法は、ビデオ毎に圧倒的に多くの提案を生成することに依存している。
我々は,グローバルマスク(TAGS)を用いた提案不要な時間行動検出モデルを提案する。
私たちの中核となる考え方は、アクションインスタンスのグローバルセグメンテーションマスクをフルビデオ長で共同で学習することです。
論文 参考訳(メタデータ) (2022-07-14T00:46:51Z) - SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文 参考訳(メタデータ) (2022-03-03T06:52:13Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Spatio-Temporal Action Detection with Multi-Object Interaction [127.85524354900494]
本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。
本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
論文 参考訳(メタデータ) (2020-04-01T00:54:56Z) - Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。
このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。
我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文 参考訳(メタデータ) (2020-03-20T09:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。