論文の概要: Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking
- arxiv url: http://arxiv.org/abs/2205.15495v1
- Date: Tue, 31 May 2022 01:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 03:47:11.023195
- Title: Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking
- Title(参考訳): 複数物体追跡のための変圧器を用いた空間時間・外観同時モデリング
- Authors: Peng Dai and Yiqiang Feng and Renliang Weng and Changshui Zhang
- Abstract要約: 本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
- 参考スコア(独自算出の注目度): 59.79252390626194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent trend in multiple object tracking (MOT) is heading towards
leveraging deep learning to boost the tracking performance. In this paper, we
propose a novel solution named TransSTAM, which leverages Transformer to
effectively model both the appearance features of each object and the
spatial-temporal relationships among objects. TransSTAM consists of two major
parts: (1) The encoder utilizes the powerful self-attention mechanism of
Transformer to learn discriminative features for each tracklet; (2) The decoder
adopts the standard cross-attention mechanism to model the affinities between
the tracklets and the detections by taking both spatial-temporal and appearance
features into account. TransSTAM has two major advantages: (1) It is solely
based on the encoder-decoder architecture and enjoys a compact network design,
hence being computationally efficient; (2) It can effectively learn
spatial-temporal and appearance features within one model, hence achieving
better tracking accuracy. The proposed method is evaluated on multiple public
benchmarks including MOT16, MOT17, and MOT20, and it achieves a clear
performance improvement in both IDF1 and HOTA with respect to previous
state-of-the-art approaches on all the benchmarks. Our code is available at
\url{https://github.com/icicle4/TranSTAM}.
- Abstract(参考訳): マルチオブジェクトトラッキング(MOT)の最近のトレンドは、ディープラーニングを活用してトラッキングパフォーマンスを向上させることに向かっている。
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係を効果的にモデル化する。
TransSTAMは,(1)トランスフォーマーの強力な自己認識機構を利用して,各トラックレットの識別的特徴を学習し,(2)デコーダは標準のクロスアテンション機構を採用し,トラックレットと検出の親和性を空間時間的特徴と外観的特徴の両方を考慮してモデル化する。
transstamには2つの大きな利点がある:(1)エンコーダ-デコーダアーキテクチャのみに基づいており、コンパクトなネットワーク設計を享受しており、計算効率が良い。
提案手法はMOT16,MOT17,MOT20を含む複数の公開ベンチマークで評価され,すべてのベンチマークに対する従来の最先端アプローチに対して,IDF1とHOTAの両方で明確な性能向上を実現している。
私たちのコードは \url{https://github.com/icicle4/TranSTAM} で利用可能です。
関連論文リスト
- Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Transformer Network for Multi-Person Tracking and Re-Identification in
Unconstrained Environment [0.6798775532273751]
マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。
我々は、オブジェクト検出とアイデンティティリンクを単一のエンドツーエンドのトレーニング可能なフレームワーク内にマージする統合MOT手法を提唱した。
本システムでは,記憶時記憶モジュールの高機能化を図り,アグリゲータを用いて効果的に記憶時記憶モジュールを符号化する。
論文 参考訳(メタデータ) (2023-12-19T08:15:22Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object
Tracking [20.286114226299237]
本稿では,SLM(Siamese Network-based similarity Learning Module)を用いたオブジェクトトラッカーSMILEtrackを紹介する。
SLMは2つのオブジェクト間の外観類似性を計算し、分離検出および埋め込みモデルにおける特徴記述子の制限を克服する。
第2に、連続するビデオフレーム間の堅牢なオブジェクトマッチングのための新しいGATE関数を備えた類似マッチングカスケード(SMC)モジュールを開発する。
論文 参考訳(メタデータ) (2022-11-16T10:49:48Z) - An Improved End-to-End Multi-Target Tracking Method Based on Transformer
Self-Attention [24.17627001939523]
本研究では,エンドツーエンドのマルチターゲット追跡アルゴリズムを提案する。
変換器のエンコーダ・デコーダ構造の自己検出機構に基づいてマルチビューのマルチスケールシーンに適応する。
論文 参考訳(メタデータ) (2022-11-11T04:58:46Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。