論文の概要: PuTR: A Pure Transformer for Decoupled and Online Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2405.14119v1
- Date: Thu, 23 May 2024 02:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:15:00.626660
- Title: PuTR: A Pure Transformer for Decoupled and Online Multi-Object Tracking
- Title(参考訳): PuTR: 分離されたオンラインマルチオブジェクト追跡のための純変換器
- Authors: Chongwei Liu, Haojie Li, Zhihui Wang, Rui Xu,
- Abstract要約: 我々は、純粋なトランスフォーマーが、疎結合でオンラインな方法で、短期および長期の関連を統一できることを示します。
実験により、古典的なトランスフォーマーアーキテクチャが自然に関連問題に適合し、強力なベースラインを達成できることが示されている。
この作業は、MOTタスクのための有望なTransformerベースのアプローチの先駆者であり、さらなる研究を促進するためのコードを提供する。
- 参考スコア(独自算出の注目度): 36.5272157173876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multi-Object Tracking (MOT) have achieved remarkable success in short-term association within the decoupled tracking-by-detection online paradigm. However, long-term tracking still remains a challenging task. Although graph-based approaches can address this issue by modeling trajectories as a graph in the decoupled manner, their non-online nature poses obstacles for real-time applications. In this paper, we demonstrate that the trajectory graph is a directed acyclic graph, which can be represented by an object sequence arranged by frame and a binary adjacency matrix. It is a coincidence that the binary matrix matches the attention mask in the Transformer, and the object sequence serves exactly as a natural input sequence. Intuitively, we propose that a pure Transformer can naturally unify short- and long-term associations in a decoupled and online manner. Our experiments show that a classic Transformer architecture naturally suits the association problem and achieves a strong baseline compared to existing foundational methods across four datasets: DanceTrack, SportsMOT, MOT17, and MOT20, as well as superior generalizability in domain shift. Moreover, the decoupled property also enables efficient training and inference. This work pioneers a promising Transformer-based approach for the MOT task, and provides code to facilitate further research. https://github.com/chongweiliu/PuTR
- Abstract(参考訳): 近年のMOT(Multi-Object Tracking)の進歩は、非結合型トラッキング・バイ・検出オンラインパラダイムにおける短期的関連において、顕著な成功を収めている。
しかし、長期的な追跡は依然として困難な課題である。
グラフベースのアプローチでは、トラジェクトリを疎結合なグラフとしてモデル化することでこの問題に対処できるが、その非オンライン性はリアルタイムアプリケーションに障害をもたらす。
本稿では, トラジェクトリグラフが有向非巡回グラフであることを示す。
二項行列がトランスフォーマーのアテンションマスクと一致するのは偶然であり、オブジェクトシーケンスはちょうど自然な入力シーケンスとして機能する。
直感的には、純粋なトランスフォーマーは、疎結合でオンラインな方法で、短・長期の関連を自然に統一することができる。
実験の結果,従来のトランスフォーマーアーキテクチャは,DanceTrack,SportsMOT,MOT17,MOT20という4つのデータセットにまたがる既存の基本手法と比較して,相関問題に自然に適合し,強力なベースラインを実現していることがわかった。
さらに、分離されたプロパティは、効率的なトレーニングと推論を可能にする。
この作業は、MOTタスクのための有望なTransformerベースのアプローチの先駆者であり、さらなる研究を促進するためのコードを提供する。
https://github.com/chongweiliu/PuTR
関連論文リスト
- 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking [15.330384668966806]
最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存している。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマーアーキテクチャをベースに構築されている。
提案手法は, nuScenesバリデーションとテストスプリットでそれぞれ71.2%, AMOTA68.2%を達成している。
論文 参考訳(メタデータ) (2023-08-12T19:19:58Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z) - Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual
Tracking [47.205979159070445]
個々のビデオフレームをブリッジし、堅牢なオブジェクト追跡のためのトランスフォーマーアーキテクチャを通じて、時間的コンテキストを探索する。
自然言語処理タスクにおける変換器の古典的な使用とは異なり、エンコーダとデコーダを2つの並列分岐に分離する。
本手法は,有意な追跡ベンチマークに関する最新の記録を複数設定する。
論文 参考訳(メタデータ) (2021-03-22T09:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。