論文の概要: Multi-Object Tracking as Attention Mechanism
- arxiv url: http://arxiv.org/abs/2307.05874v1
- Date: Wed, 12 Jul 2023 02:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:27:38.086446
- Title: Multi-Object Tracking as Attention Mechanism
- Title(参考訳): 注意機構としてのマルチオブジェクト追跡
- Authors: Hiroshi Fukui and Taiki Miyagawa and Yusuke Morishita
- Abstract要約: 本稿では,モジュールの付加を必要としない概念的にシンプルで高速なマルチオブジェクト追跡(MOT)モデルを提案する。
提案するエンドツーエンドMOTモデルである textitTicrossNet は,ベース検出器とクロスアテンションモジュールのみで構成されている。
- 参考スコア(独自算出の注目度): 5.9852047593627455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a conceptually simple and thus fast multi-object tracking (MOT)
model that does not require any attached modules, such as the Kalman filter,
Hungarian algorithm, transformer blocks, or graph networks. Conventional MOT
models are built upon the multi-step modules listed above, and thus the
computational cost is high. Our proposed end-to-end MOT model,
\textit{TicrossNet}, is composed of a base detector and a cross-attention
module only. As a result, the overhead of tracking does not increase
significantly even when the number of instances ($N_t$) increases. We show that
TicrossNet runs \textit{in real-time}; specifically, it achieves 32.6 FPS on
MOT17 and 31.0 FPS on MOT20 (Tesla V100), which includes as many as $>$100
instances per frame. We also demonstrate that TicrossNet is robust to $N_t$;
thus, it does not have to change the size of the base detector, depending on
$N_t$, as is often done by other models for real-time processing.
- Abstract(参考訳): 本稿では,カルマンフィルタ,ハンガリーアルゴリズム,トランスフォーマーブロック,グラフネットワークなどの付加モジュールを必要としない,概念的に単純かつ高速なマルチオブジェクト追跡(MOT)モデルを提案する。
従来のMOTモデルは上記のマルチステップモジュール上に構築されており、計算コストが高い。
提案するエンドツーエンドMOTモデルである \textit{TicrossNet} は,ベース検出器とクロスアテンションモジュールのみで構成されている。
その結果、インスタンス数(N_t$)が増加しても、トラッキングのオーバーヘッドは大幅に増加しない。
具体的には、mot17では32.6 fps、mot20(tesla v100)では31.0 fpsを実現し、1フレームあたり最大$100のインスタンスを含む。
また、TicrossNetは$N_t$に対して堅牢であるため、リアルタイム処理の他のモデルでよく行われているように、$N_t$に依存するため、ベース検出器のサイズを変更する必要はない。
関連論文リスト
- Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - Simple Cues Lead to a Strong Multi-Object Tracker [3.7189423451031356]
マルチオブジェクト追跡のための新しいタイプのトラッキング・バイ・ディテクト(TbD)を提案する。
単純な動作モデルと外観特徴を組み合わせることで,強い追跡結果が得られることを示す。
私たちのトラッカーは、MOT17、MOT20、BDD100k、DanceTrackの4つの公開データセットに一般化され、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-06-09T17:55:51Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - ByteTrack: Multi-Object Tracking by Associating Every Detection Box [51.93588012109943]
マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
ほとんどの方法は、スコアがしきい値よりも高い検出ボックスを連想させることでアイデンティティを得る。
本稿では,BYTEと呼ばれるシンプルで効果的で汎用的なアソシエーション手法を提案する。
論文 参考訳(メタデータ) (2021-10-13T17:01:26Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - MOTR: End-to-End Multiple-Object Tracking with TRansformer [31.78906135775541]
初の完全エンドツーエンドのマルチオブジェクトトラッキングフレームワークであるMOTRを紹介します。
オブジェクトの長距離時間変動をモデル化することを学ぶ。
結果はMOTRが最先端の性能を達成することを示します。
論文 参考訳(メタデータ) (2021-05-07T13:27:01Z) - Object Tracking by Detection with Visual and Motion Cues [1.7818230914983044]
自動運転車は、カメラ画像中の物体を検出し、追跡する必要がある。
本稿では,カルマンフィルタを用いた定速度運動モデルに基づく簡易オンライン追跡アルゴリズムを提案する。
課題のあるBDD100データセットに対するアプローチを評価します。
論文 参考訳(メタデータ) (2021-01-19T10:29:16Z) - MODNet: Real-Time Trimap-Free Portrait Matting via Objective
Decomposition [39.60219801564855]
既存のポートレート・マッティング法では、計算コストのかかる複数のステージを取得または含むのに費用がかかる補助的な入力が必要となる。
ポートレート・マッティングを1つの入力画像でリアルタイムに行うための軽量なマッティング客観分解ネットワーク(MODNet)を提案する。
論文 参考訳(メタデータ) (2020-11-24T08:38:36Z) - Simultaneous Detection and Tracking with Motion Modelling for Multiple
Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。
DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。
また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2020-08-20T08:05:33Z) - Chained-Tracker: Chaining Paired Attentive Regression Results for
End-to-End Joint Multiple-Object Detection and Tracking [102.31092931373232]
そこで我々は,3つのサブタスク全てをエンド・ツー・エンドのソリューションに統合する簡単なオンラインモデルである Chained-Tracker (CTracker) を提案する。
鎖状構造と対の注意的回帰という2つの大きな特徴は、CTrackerをシンプルに、速く、効果的にする。
論文 参考訳(メタデータ) (2020-07-29T02:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。