論文の概要: End-to-End Video Object Detection with Spatial-Temporal Transformers
- arxiv url: http://arxiv.org/abs/2105.10920v1
- Date: Sun, 23 May 2021 11:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 09:15:51.974726
- Title: End-to-End Video Object Detection with Spatial-Temporal Transformers
- Title(参考訳): 時空間変換器を用いたエンドツーエンドビデオ物体検出
- Authors: Lu He, Qianyu Zhou, Xiangtai Li, Li Niu, Guangliang Cheng, Xiao Li,
Wenxuan Liu, Yunhai Tong, Lizhuang Ma, Liqing Zhang
- Abstract要約: 本稿では,時空間トランスフォーマアーキテクチャに基づくエンドツーエンドのビデオオブジェクト検出モデルであるTransVODを提案する。
本手法では,Seq-NMSやチューブレット再構成のような複雑な後処理は不要である。
これらの設計により、ImageNet VIDデータセット上の大きなマージン(3%-4% mAP)で、強力なベースライン変形可能なDETRが向上した。
- 参考スコア(独自算出の注目度): 33.40462554784311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, DETR and Deformable DETR have been proposed to eliminate the need
for many hand-designed components in object detection while demonstrating good
performance as previous complex hand-crafted detectors. However, their
performance on Video Object Detection (VOD) has not been well explored. In this
paper, we present TransVOD, an end-to-end video object detection model based on
a spatial-temporal Transformer architecture. The goal of this paper is to
streamline the pipeline of VOD, effectively removing the need for many
hand-crafted components for feature aggregation, e.g., optical flow, recurrent
neural networks, relation networks. Besides, benefited from the object query
design in DETR, our method does not need complicated post-processing methods
such as Seq-NMS or Tubelet rescoring, which keeps the pipeline simple and
clean. In particular, we present temporal Transformer to aggregate both the
spatial object queries and the feature memories of each frame. Our temporal
Transformer consists of three components: Temporal Deformable Transformer
Encoder (TDTE) to encode the multiple frame spatial details, Temporal Query
Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer
Decoder to obtain current frame detection results. These designs boost the
strong baseline deformable DETR by a significant margin (3%-4% mAP) on the
ImageNet VID dataset. TransVOD yields comparable results performance on the
benchmark of ImageNet VID. We hope our TransVOD can provide a new perspective
for video object detection. Code will be made publicly available at
https://github.com/SJTU-LuHe/TransVOD.
- Abstract(参考訳): 近年、DeTRとDeformable DETRは、従来の複雑な手作り検出器として優れた性能を示しながら、オブジェクト検出において多くの手作り部品の必要性を排除するために提案されている。
しかし,ビデオオブジェクト検出(VOD)の性能はよく研究されていない。
本稿では,時空間変換器アーキテクチャに基づくエンドツーエンドのビデオオブジェクト検出モデルであるTransVODを提案する。
本稿の目的は,VODのパイプラインの合理化であり,光学的フローやリカレントニューラルネットワーク,関係ネットワークなど,多数の手作りのコンポーネントの必要性を効果的に除去することである。
さらに,detrのオブジェクトクエリ設計の利点から,seq-nms や tubelet rescoring などの複雑な後処理メソッドは不要であり,パイプラインをシンプルかつクリーンに保つ。
特に,各フレームの空間的オブジェクトクエリと特徴記憶を集約するために,時間的トランスフォーマティブを提案する。
本方式では,複数フレームの空間的詳細をエンコードするtemporal deformable transformer encoder (tdte),オブジェクトクエリをヒューズするtemporal query encoder (tqe),現在のフレーム検出結果を得るためにtemporal deformable transformer decoderの3つのコンポーネントからなる。
これらの設計により、imagenet vidデータセットの強いベースライン変形可能なdetr(3%-4%マップ)が向上した。
TransVODはImageNet VIDのベンチマークで同等の結果を得る。
われわれのTransVODがビデオオブジェクト検出の新しい視点を提供することを期待している。
コードはhttps://github.com/SJTU-LuHe/TransVOD.comで公開される。
関連論文リスト
- SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - FAQ: Feature Aggregated Queries for Transformer-based Video Object
Detectors [37.38250825377456]
我々は,ビデオオブジェクトの検出について異なる視点を採り,より詳しくは,トランスフォーマーベースのモデルに対するクエリのアグリゲーションによる品質向上を図っている。
ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
論文 参考訳(メタデータ) (2023-03-15T02:14:56Z) - Graph Neural Network and Spatiotemporal Transformer Attention for 3D
Video Object Detection from Point Clouds [94.21415132135951]
複数のフレームにおける時間情報を利用して3次元物体を検出することを提案する。
我々は,一般的なアンカーベースおよびアンカーフリー検出器に基づくアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-26T05:16:28Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection
in Autonomous Driving [121.44554957537613]
我々は,リダデータから映像オブジェクトを検出するための時空間領域とチャネル領域の関係をモデル化する,テンポラル・チャネル変換器(Temporal-Channel Transformer)を提案する。
具体的には、トランスの時間チャネルエンコーダは、異なるチャネルやフレームの情報をエンコードするように設計されている。
我々は, nuScenesベンチマークを用いて, 格子ボクセルを用いた3次元物体検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-27T09:35:39Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。