論文の概要: TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers
- arxiv url: http://arxiv.org/abs/2201.05047v1
- Date: Thu, 13 Jan 2022 16:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:52:01.662528
- Title: TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers
- Title(参考訳): TransVOD:時空間変換器を用いたエンドツーエンドビデオオブジェクト検出
- Authors: Qianyu Zhou, Xiangtai Li, Lu He, Yibo Yang, Guangliang Cheng, Yunhai
Tong, Lizhuang Ma, Dacheng Tao
- Abstract要約: 時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
- 参考スコア(独自算出の注目度): 96.981282736404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection Transformer (DETR) and Deformable DETR have been proposed to
eliminate the need for many hand-designed components in object detection while
demonstrating good performance as previous complex hand-crafted detectors.
However, their performance on Video Object Detection (VOD) has not been well
explored. In this paper, we present TransVOD, the first end-to-end video object
detection system based on spatial-temporal Transformer architectures. The first
goal of this paper is to streamline the pipeline of VOD, effectively removing
the need for many hand-crafted components for feature aggregation, e.g.,
optical flow model, relation networks. Besides, benefited from the object query
design in DETR, our method does not need complicated post-processing methods
such as Seq-NMS. In particular, we present a temporal Transformer to aggregate
both the spatial object queries and the feature memories of each frame. Our
temporal transformer consists of two components: Temporal Query Encoder (TQE)
to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to
obtain current frame detection results. These designs boost the strong baseline
deformable DETR by a significant margin (3%-4% mAP) on the ImageNet VID
dataset. Then, we present two improved versions of TransVOD including
TransVOD++ and TransVOD Lite. The former fuses object-level information into
object query via dynamic convolution while the latter models the entire video
clips as the output to speed up the inference time. We give detailed analysis
of all three models in the experiment part. In particular, our proposed
TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet
VID with 90.0% mAP. Our proposed TransVOD Lite also achieves the best speed and
accuracy trade-off with 83.7% mAP while running at around 30 FPS on a single
V100 GPU device. Code and models will be available for further research.
- Abstract(参考訳): 検出変換器 (DETR) と変形可能なDETR (Deformable DETR) は、従来の複雑な手作り検出器として優れた性能を示しながら、物体検出において多くの手作り部品の必要性を排除するために提案されている。
しかし,ビデオオブジェクト検出(VOD)の性能はよく研究されていない。
本稿では,空間時間変換器アーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
本稿の第一の目的はVODのパイプラインの合理化であり、光学フローモデルやリレーショナルネットワークなどの機能集約のための手作り部品を効果的に除去することである。
また,DeTRにおけるオブジェクトクエリ設計の利点から,Seq-NMSのような複雑な後処理手法は不要である。
特に,各フレームの空間的オブジェクトクエリと特徴記憶を集約する時間的トランスフォーマティブを提案する。
時間変換器は、オブジェクトクエリをフューズするためのTQE(Temporal Query Encoder)と、現在のフレーム検出結果を得るためにTDTD(Temporal Deformable Transformer Decoder)の2つのコンポーネントで構成される。
これらの設計により、imagenet vidデータセットの強いベースライン変形可能なdetr(3%-4%マップ)が向上した。
次に、TransVOD++とTransVOD Liteの2つの改良版を示す。
前者はオブジェクトレベルの情報を動的畳み込みによってオブジェクトクエリに融合し、後者はビデオクリップ全体を出力としてモデル化して推論時間を短縮する。
実験部では,3つのモデルの詳細な分析を行った。
特に,提案した TransVOD++ では,90.0% mAP の ImageNet VID の精度において,新たな最先端記録が設定されている。
提案したTransVOD Liteは、単一のV100 GPUデバイス上で約30FPSで動作する間、83.7%のmAPで最高速度と精度のトレードオフを実現する。
コードとモデルはさらなる研究のために利用できる。
関連論文リスト
- SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - Spatio-Temporal Learnable Proposals for End-to-End Video Object
Detection [12.650574326251023]
本稿では、Sparse R-CNNを用いて時間情報を利用する新しいビデオオブジェクト検出パイプラインであるSparseVODを提案する。
提案手法は1フレームのSparse RCNNをmAPで8%-9%改善する。
論文 参考訳(メタデータ) (2022-10-05T16:17:55Z) - MODETR: Moving Object Detection with Transformers [2.4366811507669124]
移動物体検出(MOD)は、自律走行パイプラインにとって重要なタスクである。
本稿では,空間的および動きの流れを横断するマルチヘッドアテンション機構を用いてこの問題に対処する。
本研究では,移動物体検出TRansformerネットワークであるMODETRを提案する。
論文 参考訳(メタデータ) (2021-06-21T21:56:46Z) - End-to-End Video Object Detection with Spatial-Temporal Transformers [33.40462554784311]
本稿では,時空間トランスフォーマアーキテクチャに基づくエンドツーエンドのビデオオブジェクト検出モデルであるTransVODを提案する。
本手法では,Seq-NMSやチューブレット再構成のような複雑な後処理は不要である。
これらの設計により、ImageNet VIDデータセット上の大きなマージン(3%-4% mAP)で、強力なベースライン変形可能なDETRが向上した。
論文 参考訳(メタデータ) (2021-05-23T11:44:22Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection
in Autonomous Driving [121.44554957537613]
我々は,リダデータから映像オブジェクトを検出するための時空間領域とチャネル領域の関係をモデル化する,テンポラル・チャネル変換器(Temporal-Channel Transformer)を提案する。
具体的には、トランスの時間チャネルエンコーダは、異なるチャネルやフレームの情報をエンコードするように設計されている。
我々は, nuScenesベンチマークを用いて, 格子ボクセルを用いた3次元物体検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-27T09:35:39Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。