論文の概要: MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR
- arxiv url: http://arxiv.org/abs/2310.17170v1
- Date: Thu, 26 Oct 2023 05:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 21:53:24.235137
- Title: MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR
- Title(参考訳): MO-YOLO:YOLOとMOTRを用いたエンドツーエンド多目的追跡手法
- Authors: Liao Pan and Yang Feng and Wu Di and Liu Bo and Zhang Xingle
- Abstract要約: そこで本研究では,MO-YOLOという,効率的かつ計算効率のよいマルチオブジェクト追跡モデルを提案する。
MOT17データセットでは、MOTRcitezeng2022motrは8GeForce 2080 Ti GPUを4日間トレーニングして満足な結果を得る必要があり、MO-YOLOは1GeForce 2080 Ti GPUと12時間のトレーニングしか必要としない。
- 参考スコア(独自算出の注目度): 11.607495101616353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to address critical issues in the field of Multi-Object
Tracking (MOT) by proposing an efficient and computationally resource-efficient
end-to-end multi-object tracking model, named MO-YOLO. Traditional MOT methods
typically involve two separate steps: object detection and object tracking,
leading to computational complexity and error propagation issues. Recent
research has demonstrated outstanding performance in end-to-end MOT models
based on Transformer architectures, but they require substantial hardware
support. MO-YOLO combines the strengths of YOLO and RT-DETR models to construct
a high-efficiency, lightweight, and resource-efficient end-to-end multi-object
tracking network, offering new opportunities in the multi-object tracking
domain. On the MOT17 dataset, MOTR\cite{zeng2022motr} requires training with 8
GeForce 2080 Ti GPUs for 4 days to achieve satisfactory results, while MO-YOLO
only requires 1 GeForce 2080 Ti GPU and 12 hours of training to achieve
comparable performance.
- Abstract(参考訳): 本稿では,MO-YOLO(MO-YOLO)と呼ばれる,効率的な資源効率の高いエンドツーエンドのマルチオブジェクト追跡モデルを提案する。
従来のmotメソッドでは、オブジェクト検出とオブジェクト追跡の2つのステップがあり、計算の複雑さとエラー伝播の問題を引き起こす。
最近の研究は、トランスフォーマーアーキテクチャに基づくエンドツーエンドのmotモデルで優れた性能を示しているが、それらは実質的なハードウェアサポートを必要としている。
MO-YOLOは、YOLOモデルとRT-DETRモデルの長所を組み合わせて、高効率で軽量でリソース効率のマルチオブジェクトトラッキングネットワークを構築し、マルチオブジェクトトラッキングドメインで新たな機会を提供する。
MOT17データセットでは、MOTR\cite{zeng2022motr}は8GeForce 2080 Ti GPUを4日間トレーニングして満足な結果を得る必要があり、MO-YOLOは1GeForce 2080 Ti GPUと12時間のトレーニングしか必要としない。
関連論文リスト
- Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。
アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文 参考訳(メタデータ) (2024-06-05T17:07:24Z) - 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - NASH: A Simple Unified Framework of Structured Pruning for Accelerating
Encoder-Decoder Language Models [29.468888611690346]
本稿では、エンコーダを狭め、エンコーダ-デコーダモデルのデコーダネットワークを短縮する、シンプルで効果的なフレームワークNASHを提案する。
その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。
論文 参考訳(メタデータ) (2023-10-16T04:27:36Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。