論文の概要: Motion-Aware Transformer for Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2509.21715v1
- Date: Fri, 26 Sep 2025 00:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.088681
- Title: Motion-Aware Transformer for Multi-Object Tracking
- Title(参考訳): 複数物体追跡のための運動認識変換器
- Authors: Xu Yang, Gady Agam,
- Abstract要約: 我々は、トラッククエリを事前に更新するために、フレーム間のオブジェクトの動きを明示的に予測するMotion-Aware Transformer (MATR)を導入する。
DanceTrack、SportsMOT、BDD100kの実験は、MATRが標準メトリクス間で大きな利益をもたらすことを示している。
- 参考スコア(独自算出の注目度): 6.335488846185043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-object tracking (MOT) in videos remains challenging due to complex object motions and crowded scenes. Recent DETR-based frameworks offer end-to-end solutions but typically process detection and tracking queries jointly within a single Transformer Decoder layer, leading to conflicts and degraded association accuracy. We introduce the Motion-Aware Transformer (MATR), which explicitly predicts object movements across frames to update track queries in advance. By reducing query collisions, MATR enables more consistent training and improves both detection and association. Extensive experiments on DanceTrack, SportsMOT, and BDD100k show that MATR delivers significant gains across standard metrics. On DanceTrack, MATR improves HOTA by more than 9 points over MOTR without additional data and reaches a new state-of-the-art score of 71.3 with supplementary data. MATR also achieves state-of-the-art results on SportsMOT (72.2 HOTA) and BDD100k (54.7 mTETA, 41.6 mHOTA) without relying on external datasets. These results demonstrate that explicitly modeling motion within end-to-end Transformers offers a simple yet highly effective approach to advancing multi-object tracking.
- Abstract(参考訳): ビデオにおけるマルチオブジェクトトラッキング(MOT)は、複雑なオブジェクトの動きと混み合ったシーンのため、依然として困難である。
最近のDETRベースのフレームワークは、エンドツーエンドのソリューションを提供するが、典型的には、単一のTransformer Decoder層内で、プロセスの検出とクエリの追跡を共同で行う。
我々は、トラッククエリを事前に更新するために、フレーム間のオブジェクトの動きを明示的に予測するMotion-Aware Transformer (MATR)を導入する。
クエリの衝突を減らすことで、MATRはより一貫性のあるトレーニングを可能にし、検出と関連性の両方を改善します。
DanceTrack、SportsMOT、BDD100kに関する大規模な実験は、MATRが標準メトリクス間で大きな利益をもたらすことを示している。
DanceTrackでは、MATRは追加データなしでMOTR上でHOTAを9ポイント以上改善し、補足データで71.3の新たな最先端スコアに達する。
MATRはまた、外部データセットに頼ることなく、SportsMOT (72.2 HOTA) とBDD100k (54.7 mTETA, 41.6 mHOTA) の最先端結果も達成している。
これらの結果から,エンド・ツー・エンド・エンド・トランスフォーマーの動作を明示的にモデル化することは,多目的追跡の進展に対して単純かつ高効率なアプローチを提供することが示された。
関連論文リスト
- Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Rt-Track: Robust Tricks for Multi-Pedestrian Tracking [4.271127739716044]
動き情報のモデリングを改善するために,スムーズな軌道予測(STP-DC)のための新しい方向整合性手法を提案する。
また、外観モデルのモデリングを強化するために、HG-FEN(Hyper-grain Feature Embedding Network)を提案する。
そこで我々は,MOTにおける最先端性能を実現するため,Rtトラックと呼ばれるロバストトラッカーを提案し,様々なトリックとテクニックを取り入れた。
論文 参考訳(メタデータ) (2023-03-16T22:08:29Z) - Global Tracking Transformers [76.58184022651596]
グローバル多目的追跡のためのトランスフォーマーに基づく新しいアーキテクチャを提案する。
コアコンポーネントはグローバルなトラッキングトランスフォーマーで、シーケンス内のすべてのフレームからオブジェクトを操作する。
われわれのフレームワークは、最先端の大語彙検出装置にシームレスに統合され、あらゆる物体を追跡できる。
論文 参考訳(メタデータ) (2022-03-24T17:58:04Z) - VariabilityTrack:Multi-Object Tracking with Variable Speed Object
Movement [1.6385815610837167]
マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
環境フィードバックに基づく可変速度カルマンフィルタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-12T12:39:41Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。