論文の概要: BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2205.02717v3
- Date: Mon, 10 Apr 2023 14:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 19:24:25.932015
- Title: BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection
- Title(参考訳): BasicTAD: 時間的行動検出のためのRGB専用ベースライン
- Authors: Min Yang, Guo Chen, Yin-Dong Zheng, Tong Lu, Limin Wang
- Abstract要約: 複雑な設計の現況とTADにおける検出効率の低さを考慮し, 単純で, 単純で, かつ, 必須のベースラインについて検討する。
このベースラインのための各コンポーネントの既存のテクニックを幅広く調査し、さらに重要なのは、パイプライン全体にわたってエンドツーエンドのトレーニングを実行することです。
この単純なベーシックTADは、2ストリーム入力を持つ最先端の手法に非常に近い、驚くべきリアルタイムRGB-Onlyベースラインを得る。
- 参考スコア(独自算出の注目度): 46.37418710853632
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Temporal action detection (TAD) is extensively studied in the video
understanding community by generally following the object detection pipeline in
images. However, complex designs are not uncommon in TAD, such as two-stream
feature extraction, multi-stage training, complex temporal modeling, and global
context fusion. In this paper, we do not aim to introduce any novel technique
for TAD. Instead, we study a simple, straightforward, yet must-known baseline
given the current status of complex design and low detection efficiency in TAD.
In our simple baseline (termed BasicTAD), we decompose the TAD pipeline into
several essential components: data sampling, backbone design, neck
construction, and detection head. We extensively investigate the existing
techniques in each component for this baseline, and more importantly, perform
end-to-end training over the entire pipeline thanks to the simplicity of
design. As a result, this simple BasicTAD yields an astounding and real-time
RGB-Only baseline very close to the state-of-the-art methods with two-stream
inputs. In addition, we further improve the BasicTAD by preserving more
temporal and spatial information in network representation (termed as PlusTAD).
Empirical results demonstrate that our PlusTAD is very efficient and
significantly outperforms the previous methods on the datasets of THUMOS14 and
FineAction. Meanwhile, we also perform in-depth visualization and error
analysis on our proposed method and try to provide more insights on the TAD
problem. Our approach can serve as a strong baseline for future TAD research.
The code and model will be released at https://github.com/MCG-NJU/BasicTAD.
- Abstract(参考訳): 時間的行動検出(tad)は,映像中の物体検出パイプラインを概ね追従することにより,映像理解コミュニティで広く研究されている。
しかし、2つのストリームの特徴抽出、多段階トレーニング、複雑な時間的モデリング、グローバルコンテキスト融合など、複雑な設計はtadでは珍しくない。
本稿では,TADの新しい技術を導入することを目的としていない。
その代わり、複雑な設計の現在の状況とtadにおける検出効率の低さから、単純で分かりやすいベースラインについて研究する。
単純なベースライン(BasicTAD)では,データサンプリング,バックボーン設計,ネック構造,検出ヘッドといった,TADパイプラインをいくつかの重要なコンポーネントに分解しています。
このベースラインのための各コンポーネントの既存のテクニックを幅広く調査し、さらに重要なのは、設計の単純さのおかげで、パイプライン全体にわたってエンドツーエンドのトレーニングを行います。
その結果、この単純な BasicTAD は、2ストリーム入力を持つ最先端の手法に非常に近い、驚くべきリアルタイム RGB-Only ベースラインが得られる。
さらに,ネットワーク表現における時間的・空間的情報(プラスTAD)の保存により,基本TADをさらに改善する。
実験の結果,我々の PlusTAD は THUMOS14 と FineAction のデータセットにおいて,従来の手法よりも非常に効率的で,はるかに優れていた。
また,提案手法について詳細な可視化と誤差解析を行い,tad問題に関するさらなる知見を提供する。
我々のアプローチは、将来のtad研究の強力なベースラインとなり得る。
コードとモデルはhttps://github.com/mcg-nju/basictadでリリースされる。
関連論文リスト
- Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - Few Clicks Suffice: Active Test-Time Adaptation for Semantic
Segmentation [14.112999441288615]
テスト時間適応(TTA)は、未ラベルのテストデータを使用した推論中に事前訓練されたモデルに適応する。
TTAアプローチと教師付きアプローチの間には,依然として大きなパフォーマンスギャップがあります。
本稿では,モデルアダプタとラベルアノテータの2つの部分からなるATASegフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-04T12:16:02Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Densely Nested Top-Down Flows for Salient Object Detection [137.74130900326833]
本稿では,物体検出におけるトップダウンモデリングの役割を再考する。
密度の高いトップダウンフロー(DNTDF)ベースのフレームワークを設計する。
DNTDFのすべての段階において、高いレベルの特徴はプログレッシブ圧縮ショートカットパス(PCSP)を介して読み込まれる。
論文 参考訳(メタデータ) (2021-02-18T03:14:02Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。