論文の概要: MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2307.15700v3
- Date: Wed, 21 Feb 2024 16:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 20:54:35.875710
- Title: MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking
- Title(参考訳): MeMOTR:マルチオブジェクト追跡のための長期メモリ拡張トランス
- Authors: Ruopeng Gao, Limin Wang
- Abstract要約: マルチオブジェクト追跡のための長期メモリ拡張トランスであるMeMOTRを提案する。
MeMOTRは最先端のメソッドを7.9%、HOTAとAssAのメトリクスで13.0%上回っている。
また、MOT17上でのアソシエーション性能の他のTransformerベースの手法よりも優れており、BDD100Kでよく一般化されている。
- 参考スコア(独自算出の注目度): 19.173503245000678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a video task, Multiple Object Tracking (MOT) is expected to capture
temporal information of targets effectively. Unfortunately, most existing
methods only explicitly exploit the object features between adjacent frames,
while lacking the capacity to model long-term temporal information. In this
paper, we propose MeMOTR, a long-term memory-augmented Transformer for
multi-object tracking. Our method is able to make the same object's track
embedding more stable and distinguishable by leveraging long-term memory
injection with a customized memory-attention layer. This significantly improves
the target association ability of our model. Experimental results on DanceTrack
show that MeMOTR impressively surpasses the state-of-the-art method by 7.9% and
13.0% on HOTA and AssA metrics, respectively. Furthermore, our model also
outperforms other Transformer-based methods on association performance on MOT17
and generalizes well on BDD100K. Code is available at
https://github.com/MCG-NJU/MeMOTR.
- Abstract(参考訳): ビデオタスクとして、複数のオブジェクト追跡(mot)がターゲットの時間的情報を効果的に捉えることが期待される。
残念ながら、既存のほとんどのメソッドは、隣接するフレーム間のオブジェクトの特徴を明示的に活用するだけで、長期の時間情報をモデル化する能力は欠如している。
本稿では,マルチオブジェクト追跡のための長期メモリ拡張トランスであるMeMOTRを提案する。
本手法は,メモリアテンション層をカスタマイズした長期メモリインジェクションを利用することにより,同一オブジェクトのトラック埋め込みをより安定かつ識別可能にする。
これにより,モデルの目標関連性が大幅に向上する。
DanceTrackの実験結果によると,MeMOTRはHOTAとAssAでそれぞれ7.9%,AssAで13.0%,最先端の手法を著しく上回っている。
さらに,本モデルは,MOT17上でのアソシエーション性能の他のトランスフォーマー方式よりも優れ,BDD100K上での一般化を実現している。
コードはhttps://github.com/MCG-NJU/MeMOTRで入手できる。
関連論文リスト
- Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Collaborative Tracking Learning for Frame-Rate-Insensitive Multi-Object
Tracking [3.781471919731034]
低フレームレートのマルチオブジェクトトラッキング(MOT)は、エッジデバイスの制約を満たすために、計算、ストレージ、電力オーバーヘッドを削減できる。
本稿では,コラボレーティブ・トラッキング・ラーニング(ColTrack)によるフレームレート非感性MOTを,問合せに基づくエンドツーエンドで探索することを提案する。
論文 参考訳(メタデータ) (2023-08-11T02:25:58Z) - MotionTrack: End-to-End Transformer-based Multi-Object Tracing with
LiDAR-Camera Fusion [13.125168307241765]
複数のクラスでオブジェクトを追跡するための多モードセンサ入力を用いたエンドツーエンドトランスフォーマーベースMOTアルゴリズム(MotionTrack)を提案する。
MotionTrackとそのバリエーションは、他の古典的なベースラインモデルと比較して、nuScenesデータセット上のより良い結果(AMOTAスコア0.55)を達成する。
論文 参考訳(メタデータ) (2023-06-29T15:00:12Z) - DFR-FastMOT: Detection Failure Resistant Tracker for Fast Multi-Object
Tracking Based on Sensor Fusion [7.845528514468835]
永続多物体追跡(MOT)により、自動運転車は高度にダイナミックな環境で安全に走行することができる。
MOTのよく知られた課題の1つは、オブジェクトがその後のフレームで観測不能になったときのオブジェクトの閉塞である。
カメラとLiDARセンサのデータを用いた光MOT法であるDFR-FastMOTを提案する。
我々のフレームワークは約7,763フレームを1.48秒で処理します。
論文 参考訳(メタデータ) (2023-02-28T17:57:06Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - MOTR: End-to-End Multiple-Object Tracking with TRansformer [31.78906135775541]
初の完全エンドツーエンドのマルチオブジェクトトラッキングフレームワークであるMOTRを紹介します。
オブジェクトの長距離時間変動をモデル化することを学ぶ。
結果はMOTRが最先端の性能を達成することを示します。
論文 参考訳(メタデータ) (2021-05-07T13:27:01Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Simultaneous Detection and Tracking with Motion Modelling for Multiple
Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。
DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。
また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2020-08-20T08:05:33Z) - DMV: Visual Object Tracking via Part-level Dense Memory and Voting-based
Retrieval [61.366644088881735]
DMVと呼ばれる部分レベル高密度メモリと投票ベースの検索による新しいメモリベースのトラッカーを提案する。
また,メモリの信頼できない情報をフィルタリングする新たな投票機構を提案する。
論文 参考訳(メタデータ) (2020-03-20T10:05:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。