論文の概要: TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking
- arxiv url: http://arxiv.org/abs/2104.00194v2
- Date: Sat, 3 Apr 2021 05:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 12:52:00.536743
- Title: TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking
- Title(参考訳): TransMOT:複数物体追跡のための空間時間グラフ変換器
- Authors: Peng Chu, Jiang Wang, Quanzeng You, Haibin Ling, Zicheng Liu
- Abstract要約: 映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
- 参考スコア(独自算出の注目度): 74.82415271960315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tracking multiple objects in videos relies on modeling the spatial-temporal
interactions of the objects. In this paper, we propose a solution named
TransMOT, which leverages powerful graph transformers to efficiently model the
spatial and temporal interactions among the objects. TransMOT effectively
models the interactions of a large number of objects by arranging the
trajectories of the tracked objects as a set of sparse weighted graphs, and
constructing a spatial graph transformer encoder layer, a temporal transformer
encoder layer, and a spatial graph transformer decoder layer based on the
graphs. TransMOT is not only more computationally efficient than the
traditional Transformer, but it also achieves better tracking accuracy. To
further improve the tracking speed and accuracy, we propose a cascade
association framework to handle low-score detections and long-term occlusions
that require large computational resources to model in TransMOT. The proposed
method is evaluated on multiple benchmark datasets including MOT15, MOT16,
MOT17, and MOT20, and it achieves state-of-the-art performance on all the
datasets.
- Abstract(参考訳): ビデオ内の複数のオブジェクトの追跡は、オブジェクトの空間的-時間的相互作用のモデル化に依存している。
本稿では,強力なグラフ変換器を用いてオブジェクト間の空間的・時間的相互作用を効率的にモデル化するTransMOTという手法を提案する。
transmotは、トラックされたオブジェクトの軌道を疎重み付きグラフの集合として配置し、空間グラフトランスフォーマエンコーダ層、時間的トランスフォーマエンコーダ層、およびそれらのグラフに基づいて空間グラフトランスフォーマデコーダ層を構築することにより、多数のオブジェクトの相互作用を効果的にモデル化する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
追跡速度と精度をさらに高めるために,トランスモートでモデル化する計算資源を必要とする低スコア検出と長期閉塞を扱うカスケードアソシエーションフレームワークを提案する。
提案手法は,MOT15,MOT16,MOT17,MOT20を含む複数のベンチマークデータセットを用いて評価し,すべてのデータセットに対して最先端のパフォーマンスを実現する。
関連論文リスト
- MART: MultiscAle Relational Transformer Networks for Multi-agent Trajectory Prediction [5.8919870666241945]
マルチエージェント軌道予測のためのMultiplescleimat Transformer (MART) ネットワークを提案する。
MARTは、変圧器機械の個人およびグループ動作を考えるためのハイパーグラフトランスフォーマーアーキテクチャである。
さらに,実環境における複雑なグループ関係の推論を目的としたAdaptive Group Estor (AGE)を提案する。
論文 参考訳(メタデータ) (2024-07-31T14:31:49Z) - TransAxx: Efficient Transformers with Approximate Computing [4.347898144642257]
Vision Transformer (ViT) モデルは非常に競争力があり、畳み込みニューラルネットワーク (CNN) の代替として人気がある。
本稿では,PyTorchライブラリをベースとしたフレームワークであるTransAxxを提案する。
提案手法では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,構成可能な空間を効率的に探索する。
論文 参考訳(メタデータ) (2024-02-12T10:16:05Z) - Efficient Joint Detection and Multiple Object Tracking with Spatially
Aware Transformer [0.8808021343665321]
マルチオブジェクト追跡のための軽量かつ高効率な関節検出・追跡パイプラインを提案する。
CNNの代わりにトランスフォーマーベースのバックボーンによって駆動される。
修正の結果、TransTrackの全体的なモデルサイズを58.73%、複雑さを78.72%削減しました。
論文 参考訳(メタデータ) (2022-11-09T07:19:33Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - High-Performance Transformer Tracking [74.07751002861802]
本稿では,シームズ様特徴抽出バックボーンをベースとしたTransformer Tracking(TransT)手法,設計した注意に基づく融合機構,分類と回帰ヘッドを提案する。
実験の結果,TransT法とTransT-M法は7つの一般的なデータセットに対して有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-25T09:33:29Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - MODETR: Moving Object Detection with Transformers [2.4366811507669124]
移動物体検出(MOD)は、自律走行パイプラインにとって重要なタスクである。
本稿では,空間的および動きの流れを横断するマルチヘッドアテンション機構を用いてこの問題に対処する。
本研究では,移動物体検出TRansformerネットワークであるMODETRを提案する。
論文 参考訳(メタデータ) (2021-06-21T21:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。