論文の概要: An Improved End-to-End Multi-Target Tracking Method Based on Transformer
Self-Attention
- arxiv url: http://arxiv.org/abs/2211.06001v1
- Date: Fri, 11 Nov 2022 04:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:22:34.666301
- Title: An Improved End-to-End Multi-Target Tracking Method Based on Transformer
Self-Attention
- Title(参考訳): 変圧器自己注意に基づくエンドツーエンドマルチターゲット追跡法の改良
- Authors: Yong Hong, Deren Li, Shupei Luo, Xin Chen, Yi Yang, Mi Wang
- Abstract要約: 本研究では,エンドツーエンドのマルチターゲット追跡アルゴリズムを提案する。
変換器のエンコーダ・デコーダ構造の自己検出機構に基づいてマルチビューのマルチスケールシーンに適応する。
- 参考スコア(独自算出の注目度): 24.17627001939523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study proposes an improved end-to-end multi-target tracking algorithm
that adapts to multi-view multi-scale scenes based on the self-attentive
mechanism of the transformer's encoder-decoder structure. A multi-dimensional
feature extraction backbone network is combined with a self-built semantic
raster map, which is stored in the encoder for correlation and generates target
position encoding and multi-dimensional feature vectors. The decoder
incorporates four methods: spatial clustering and semantic filtering of
multi-view targets, dynamic matching of multi-dimensional features, space-time
logic-based multi-target tracking, and space-time convergence network
(STCN)-based parameter passing. Through the fusion of multiple decoding
methods, muti-camera targets are tracked in three dimensions: temporal logic,
spatial logic, and feature matching. For the MOT17 dataset, this study's method
significantly outperforms the current state-of-the-art method MiniTrackV2 [49]
by 2.2% to 0.836 on Multiple Object Tracking Accuracy(MOTA) metric.
Furthermore, this study proposes a retrospective mechanism for the first time,
and adopts a reverse-order processing method to optimise the historical
mislabeled targets for improving the Identification F1-score(IDF1). For the
self-built dataset OVIT-MOT01, the IDF1 improves from 0.948 to 0.967, and the
Multi-camera Tracking Accuracy(MCTA) improves from 0.878 to 0.909, which
significantly improves the continuous tracking accuracy and scene adaptation.
This research method introduces a new attentional tracking paradigm which is
able to achieve state-of-the-art performance on multi-target tracking (MOT17
and OVIT-MOT01) tasks.
- Abstract(参考訳): 本研究では,変換器のエンコーダ・デコーダ構造の自己検出機構に基づいて,多視点マルチスケールシーンに適応する改良されたエンドツーエンドマルチターゲットトラッキングアルゴリズムを提案する。
多次元特徴抽出バックボーンネットワークは、相関のためにエンコーダに格納され、ターゲット位置符号化および多次元特徴ベクトルを生成する自己構築意味ラスターマップとを結合する。
このデコーダには、マルチビューターゲットの空間クラスタリングとセマンティックフィルタリング、多次元特徴の動的マッチング、時空間論理に基づくマルチターゲットトラッキング、時空間収束ネットワーク(STCN)ベースのパラメータパッシングの4つの手法が組み込まれている。
複数の復号法を融合することにより、ミューティカメラターゲットは時間論理、空間論理、特徴マッチングの3次元で追跡される。
MOT17データセットでは,Multiple Object Tracking Accuracy(MOTA)測定値において,現在の最先端手法であるMiniTrackV2[49]を2.2%から0.836倍に向上させる。
さらに本研究では,まず振り返り機構を提案し,過去の誤記目標を最適化してf1-score(idf1)の識別を改善する逆次処理手法を採用する。
自作のデータセットOVIT-MOT01では、IDF1は0.948から0.967に改善され、Multi-camera Tracking Accuracy (MCTA)は0.878から0.909に改善され、継続的な追跡精度とシーン適応が大幅に改善された。
本手法では,マルチターゲットトラッキング(MOT17とOVIT-MOT01)タスクの最先端性能を実現する新しい注目トラッキングパラダイムを提案する。
関連論文リスト
- Real-time Multi-Object Tracking Based on Bi-directional Matching [0.0]
本研究では,多目的追跡のための双方向マッチングアルゴリズムを提案する。
ストランド領域はマッチングアルゴリズムで使われ、追跡できないオブジェクトを一時的に保存する。
MOT17チャレンジでは、提案アルゴリズムは63.4%のMOTA、55.3%のIDF1、20.1のFPS追跡速度を達成した。
論文 参考訳(メタデータ) (2023-03-15T08:38:08Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Transformer-based assignment decision network for multiple object
tracking [0.0]
本稿では,データアソシエーションに取り組むトランスフォーマーベースのアサインメント決定ネットワーク(TADN)について,推論中に明示的な最適化を必要とせずに紹介する。
提案手法は,トラッカーとしての単純な性質にもかかわらず,ほとんどの評価指標において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-08-06T19:47:32Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - Multi-object Tracking with Tracked Object Bounding Box Association [18.539658212171062]
CenterTrack Trackingアルゴリズムは,単純な検出モデルと単一フレーム空間オフセットを用いて,最先端のトラッキング性能を実現する。
本研究では,CenterTrackアルゴリズムに,現在のフレームに基づく単純なトラッキングオブジェクトバウンディングボックスと重複予測を組み込むことを提案する。
論文 参考訳(メタデータ) (2021-05-17T14:32:47Z) - RelationTrack: Relation-aware Multiple Object Tracking with Decoupled
Representation [3.356734463419838]
既存のオンラインマルチオブジェクトトラッキング(MOT)アルゴリズムは、しばしば2つのサブタスク、検出および再識別(ReID)で構成されています。
推論速度を高め、複雑さを減らすために、現在のメソッドは一般的にこれらの二重サブタスクを統一されたフレームワークに統合します。
学習した表現を検出特異的およびReID固有の埋め込みに分離するGlobal Context Disentangling(GCD)というモジュールを考案した。
この制約を解決するために,トランスコーダの強力な推論能力と変形可能な注意を組み合わせることで,誘導トランス(gte)と呼ばれるモジュールを開発した。
論文 参考訳(メタデータ) (2021-05-10T13:00:40Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。