論文の概要: Transformer Network for Multi-Person Tracking and Re-Identification in
Unconstrained Environment
- arxiv url: http://arxiv.org/abs/2312.11929v1
- Date: Tue, 19 Dec 2023 08:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:38:45.001864
- Title: Transformer Network for Multi-Person Tracking and Re-Identification in
Unconstrained Environment
- Title(参考訳): 非拘束環境における多人数追跡・再同定のためのトランスネットワーク
- Authors: Hamza Mukhtar and Muhammad Usman Ghani Khan
- Abstract要約: マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。
我々は、オブジェクト検出とアイデンティティリンクを単一のエンドツーエンドのトレーニング可能なフレームワーク内にマージする統合MOT手法を提唱した。
本システムでは,記憶時記憶モジュールの高機能化を図り,アグリゲータを用いて効果的に記憶時記憶モジュールを符号化する。
- 参考スコア(独自算出の注目度): 0.6798775532273751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-object tracking (MOT) has profound applications in a variety of fields,
including surveillance, sports analytics, self-driving, and cooperative
robotics. Despite considerable advancements, existing MOT methodologies tend to
falter when faced with non-uniform movements, occlusions, and
appearance-reappearance scenarios of the objects. Recognizing this inadequacy,
we put forward an integrated MOT method that not only marries object detection
and identity linkage within a singular, end-to-end trainable framework but also
equips the model with the ability to maintain object identity links over long
periods of time. Our proposed model, named STMMOT, is built around four key
modules: 1) candidate proposal generation, which generates object proposals via
a vision-transformer encoder-decoder architecture that detects the object from
each frame in the video; 2) scale variant pyramid, a progressive pyramid
structure to learn the self-scale and cross-scale similarities in multi-scale
feature maps; 3) spatio-temporal memory encoder, extracting the essential
information from the memory associated with each object under tracking; and 4)
spatio-temporal memory decoder, simultaneously resolving the tasks of object
detection and identity association for MOT. Our system leverages a robust
spatio-temporal memory module that retains extensive historical observations
and effectively encodes them using an attention-based aggregator. The
uniqueness of STMMOT lies in representing objects as dynamic query embeddings
that are updated continuously, which enables the prediction of object states
with attention mechanisms and eradicates the need for post-processing.
- Abstract(参考訳): マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。
かなりの進歩にもかかわらず、既存のMOT手法は、物体の非一様運動、閉塞、出現・再出現のシナリオに直面すると混乱する傾向にある。
これを認識したmot法では,特異なエンドツーエンドのトレーニング可能なフレームワーク内でオブジェクト検出とアイデンティティのリンクをマージするだけでなく,長期間にわたってオブジェクトのアイデンティティリンクを維持できるモデルも備えている。
提案するSTMMOTは,4つのモジュールを中心に構築されている。
1) 映像中の各フレームからオブジェクトを検出する視覚変換器エンコーダデコーダアーキテクチャを介してオブジェクト提案を生成する候補提案生成
2)スケール変動ピラミッドは,マルチスケール特徴マップにおける自己スケールとクロススケールの類似性を学ぶための,進歩的ピラミッド構造である。
3)時空間メモリエンコーダ,追跡中の各オブジェクトに関連付けられたメモリから必須情報を抽出する。
4) 時空間メモリデコーダは、motのオブジェクト検出とアイデンティティアソシエーションのタスクを同時に解決する。
本システムでは,時空間記憶モジュールを強固に活用し,広範な歴史的観察を保ち,注意に基づくアグリゲータを用いて効果的にエンコードする。
stmmotのユニーク性は、連続的に更新される動的クエリ埋め込みとしてオブジェクトを表現することにある。
関連論文リスト
- STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。
MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文 参考訳(メタデータ) (2022-03-31T02:33:20Z) - Looking Beyond Two Frames: End-to-End Multi-Object Tracking Using
Spatial and Temporal Transformers [20.806348407522083]
MO3TRはエンドツーエンドのオンラインマルチオブジェクトトラッキングフレームワークです。
オブジェクトの相互作用を長期の時間的埋め込みにエンコードする。
明示的なデータアソシエーションモジュールを必要とせずに、開始と終了を追跡する。
論文 参考訳(メタデータ) (2021-03-27T07:23:38Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - MoreFusion: Multi-object Reasoning for 6D Pose Estimation from
Volumetric Fusion [19.034317851914725]
本稿では,複数の既知の物体の接触と隠蔽の正確なポーズを,リアルタイムな多視点視から推定するシステムを提案する。
提案手法は,1枚のRGB-Dビューからの3Dオブジェクトのポーズ提案を行い,カメラが移動すると,複数のビューからのポーズ推定と非パラメトリック占有情報を蓄積する。
提案手法の精度とロバスト性を2つのオブジェクトデータセット(YCB-Video)で実験的に検証する。
論文 参考訳(メタデータ) (2020-04-09T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。