論文の概要: MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and
Decoder
- arxiv url: http://arxiv.org/abs/2310.17170v2
- Date: Thu, 25 Jan 2024 12:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 17:52:15.786891
- Title: MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and
Decoder
- Title(参考訳): MO-YOLO: YOLOとデコーダを用いた複数物体追跡手法
- Authors: Liao Pan and Yang Feng and Wu Di and Liu Bo and Zhang Xingle
- Abstract要約: 提案するMO-YOLO(MO-YOLO)は,効率的かつ計算力に富んだエンドツーエンドMOTモデルである。
RT-DETRのデコーダとYOLOv8のアーキテクチャコンポーネントを活用することで、MO-YOLOは高速で、トレーニング時間も短く、MOT性能も優れている。
ダンストラックでは、MO-YOLOはMOTRのパフォーマンスにマッチするだけでなく、それを上回り、毎秒2倍のフレームを達成している。
- 参考スコア(独自算出の注目度): 11.607495101616353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of multi-object tracking (MOT), recent Transformer based
end-to-end models like MOTR have demonstrated exceptional performance on
datasets such as DanceTracker. However, the computational demands of these
models present challenges in training and deployment. Drawing inspiration from
successful models like GPT, we present MO-YOLO, an efficient and
computationally frugal end-to-end MOT model. MO-YOLO integrates principles from
You Only Look Once (YOLO) and RT-DETR, adopting a decoder-only approach. By
leveraging the decoder from RT-DETR and architectural components from YOLOv8,
MO-YOLO achieves high speed, shorter training times, and proficient MOT
performance. On the Dancetrack, MO-YOLO not only matches MOTR's performance but
also surpasses it, achieving over twice the frames per second (MOTR 9.5 FPS,
MO-YOLO 19.6 FPS). Furthermore, MO-YOLO demonstrates significantly reduced
training times and lower hardware requirements compared to MOTR. This research
introduces a promising paradigm for efficient end-to-end MOT, emphasizing
enhanced performance and resource efficiency.
- Abstract(参考訳): マルチオブジェクトトラッキング(MOT)の分野では、最近のTransformerベースのMOTRのようなエンドツーエンドモデルは、DanceTrackerのようなデータセットでは例外的なパフォーマンスを示している。
しかし、これらのモデルの計算要求は、訓練と展開において困難を呈している。
GPTのような成功したモデルからインスピレーションを得たMO-YOLOは、効率的で計算力豊かなエンドツーエンドMOTモデルである。
MO-YOLOはYou Only Look Once (YOLO)とRT-DETRの原則を統合し、デコーダのみのアプローチを採用する。
RT-DETRのデコーダとYOLOv8のアーキテクチャコンポーネントを活用することで、MO-YOLOは高速で、トレーニング時間も短く、MOT性能も優れている。
ダンストラックでは、MO-YOLOはMOTRのパフォーマンスに匹敵するだけでなく、毎秒2倍のフレーム(MOTR 9.5 FPS、MO-YOLO 19.6 FPS)を達成した。
さらに、MO-YOLOはMOTRと比較してトレーニング時間を大幅に短縮し、ハードウェアの要求を小さくする。
本研究は,性能向上と資源効率の向上を重視した,効率的なエンドツーエンドMOTのための有望なパラダイムを提案する。
関連論文リスト
- MODIPHY: Multimodal Obscured Detection for IoT using PHantom
Convolution-Enabled Faster YOLO [11.445187704250033]
YOLOファントム(YOLO Phantom)は、世界最小のYOLOモデルの一つ。
最新の YOLOv8n モデルに匹敵する精度を実現している。
パラメータとモデルサイズを同時に43%削減します。
論文 参考訳(メタデータ) (2024-02-12T18:56:53Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism [40.31805155724484]
Gold-YOLOと名付けられた新しい設計モデルは、マルチスケールの機能融合能力を向上する。
YOLOシリーズにMAEスタイルの事前トレーニングを初めて実装し、YOLOシリーズモデルが教師なし事前トレーニングの恩恵を受けることができるようにした。
論文 参考訳(メタデータ) (2023-09-20T14:03:47Z) - SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices [48.47320494918925]
この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
論文 参考訳(メタデータ) (2023-09-04T13:15:01Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - MIMONet: Multi-Input Multi-Output On-Device Deep Learning [12.501994313621475]
近年の研究では、マルチ入出力シングルアウトプットディープニューラルネットワーク(DNN)が従来のシングルアウトプットシングルアウトプット(SISO)モデルより優れていることが示されている。
デバイス上でのマルチインプット・マルチアウトプット(MIMO)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-22T02:38:03Z) - DAMO-YOLO : A Report on Real-Time Object Detection Design [19.06518351354291]
本稿では,最新のYOLOシリーズよりも高速かつ高精度なオブジェクト検出手法であるDAMO-YOLOを提案する。
我々は最大エントロピーの原理で導かれるMAE-NASを用いて検出バックボーンを探索する。
「首と首のデザインでは、大首と小首の規則に従っている。」
論文 参考訳(メタデータ) (2022-11-23T17:59:12Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。