論文の概要: Is a Pure Transformer Effective for Separated and Online Multi-Object Tracking?
- arxiv url: http://arxiv.org/abs/2405.14119v2
- Date: Tue, 25 Mar 2025 06:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:49:47.601726
- Title: Is a Pure Transformer Effective for Separated and Online Multi-Object Tracking?
- Title(参考訳): 純変圧器は分離・オンライン多目的追跡に有効か?
- Authors: Chongwei Liu, Haojie Li, Zhihui Wang, Rui Xu,
- Abstract要約: マルチオブジェクト追跡 (MOT) は, 追跡と検出を分離したオンラインパラダイムにおいて, 短期的な関連性を示した。
本稿では、トラジェクトリグラフの概念を概観し、それらを有向非巡回グラフとして表現することで、新しい視点を提案する。
オンラインMOTの短時間・長期追跡におけるTransformerの有効性を検証するために,PuTR(Concise Pure Transformer)を提案する。
- 参考スコア(独自算出の注目度): 36.5272157173876
- License:
- Abstract: Recent advances in Multi-Object Tracking (MOT) have demonstrated significant success in short-term association within the separated tracking-by-detection online paradigm. However, long-term tracking remains challenging. While graph-based approaches address this by modeling trajectories as global graphs, these methods are unsuitable for real-time applications due to their non-online nature. In this paper, we review the concept of trajectory graphs and propose a novel perspective by representing them as directed acyclic graphs. This representation can be described using frame-ordered object sequences and binary adjacency matrices. We observe that this structure naturally aligns with Transformer attention mechanisms, enabling us to model the association problem using a classic Transformer architecture. Based on this insight, we introduce a concise Pure Transformer (PuTR) to validate the effectiveness of Transformer in unifying short- and long-term tracking for separated online MOT. Extensive experiments on four diverse datasets (SportsMOT, DanceTrack, MOT17, and MOT20) demonstrate that PuTR effectively establishes a solid baseline compared to existing foundational online methods while exhibiting superior domain adaptation capabilities. Furthermore, the separated nature enables efficient training and inference, making it suitable for practical applications. Implementation code and trained models are available at https://github.com/chongweiliu/PuTR .
- Abstract(参考訳): 近年のMOT (Multi-Object Tracking) の進歩は, トラッキング・バイ・ディテクト・オンライン・パラダイムにおける短期的関連において大きな成功を収めている。
しかし、長期的な追跡は依然として困難である。
グラフベースのアプローチは、軌跡をグローバルグラフとしてモデル化することでこの問題に対処するが、これらの手法は、オンラインではない性質のため、リアルタイムアプリケーションには適さない。
本稿では、トラジェクトリグラフの概念を概観し、それらを有向非巡回グラフとして表現することで、新しい視点を提案する。
この表現は、フレーム順序付けされたオブジェクトシーケンスとバイナリ隣接行列を使って記述することができる。
我々はこの構造がトランスフォーマーのアテンション機構と自然に一致することを観察し、古典的なトランスフォーマーアーキテクチャを用いて関連問題をモデル化する。
この知見に基づいて、オンラインMOTを分離した短時間・長期追跡におけるTransformerの有効性を検証するために、簡潔なPuTR(PuTR)を導入する。
4つの多様なデータセット(SportsMOT、DanceTrack、MOT17、MOT20)に対する大規模な実験は、PuTRが既存の基礎的なオンライン手法に比べて効果的なベースラインを確立し、優れたドメイン適応能力を示すことを示した。
さらに、分離された性質は効率的なトレーニングと推論を可能にし、実用的な応用に適している。
実装コードとトレーニングされたモデルはhttps://github.com/chongweiliu/PuTR で公開されている。
関連論文リスト
- 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking [15.330384668966806]
最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存している。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマーアーキテクチャをベースに構築されている。
提案手法は, nuScenesバリデーションとテストスプリットでそれぞれ71.2%, AMOTA68.2%を達成している。
論文 参考訳(メタデータ) (2023-08-12T19:19:58Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z) - Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual
Tracking [47.205979159070445]
個々のビデオフレームをブリッジし、堅牢なオブジェクト追跡のためのトランスフォーマーアーキテクチャを通じて、時間的コンテキストを探索する。
自然言語処理タスクにおける変換器の古典的な使用とは異なり、エンコーダとデコーダを2つの並列分岐に分離する。
本手法は,有意な追跡ベンチマークに関する最新の記録を複数設定する。
論文 参考訳(メタデータ) (2021-03-22T09:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。