論文の概要: MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR
- arxiv url: http://arxiv.org/abs/2310.17170v1
- Date: Thu, 26 Oct 2023 05:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 21:53:24.235137
- Title: MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR
- Title(参考訳): MO-YOLO:YOLOとMOTRを用いたエンドツーエンド多目的追跡手法
- Authors: Liao Pan and Yang Feng and Wu Di and Liu Bo and Zhang Xingle
- Abstract要約: そこで本研究では,MO-YOLOという,効率的かつ計算効率のよいマルチオブジェクト追跡モデルを提案する。
MOT17データセットでは、MOTRcitezeng2022motrは8GeForce 2080 Ti GPUを4日間トレーニングして満足な結果を得る必要があり、MO-YOLOは1GeForce 2080 Ti GPUと12時間のトレーニングしか必要としない。
- 参考スコア(独自算出の注目度): 11.607495101616353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to address critical issues in the field of Multi-Object
Tracking (MOT) by proposing an efficient and computationally resource-efficient
end-to-end multi-object tracking model, named MO-YOLO. Traditional MOT methods
typically involve two separate steps: object detection and object tracking,
leading to computational complexity and error propagation issues. Recent
research has demonstrated outstanding performance in end-to-end MOT models
based on Transformer architectures, but they require substantial hardware
support. MO-YOLO combines the strengths of YOLO and RT-DETR models to construct
a high-efficiency, lightweight, and resource-efficient end-to-end multi-object
tracking network, offering new opportunities in the multi-object tracking
domain. On the MOT17 dataset, MOTR\cite{zeng2022motr} requires training with 8
GeForce 2080 Ti GPUs for 4 days to achieve satisfactory results, while MO-YOLO
only requires 1 GeForce 2080 Ti GPU and 12 hours of training to achieve
comparable performance.
- Abstract(参考訳): 本稿では,MO-YOLO(MO-YOLO)と呼ばれる,効率的な資源効率の高いエンドツーエンドのマルチオブジェクト追跡モデルを提案する。
従来のmotメソッドでは、オブジェクト検出とオブジェクト追跡の2つのステップがあり、計算の複雑さとエラー伝播の問題を引き起こす。
最近の研究は、トランスフォーマーアーキテクチャに基づくエンドツーエンドのmotモデルで優れた性能を示しているが、それらは実質的なハードウェアサポートを必要としている。
MO-YOLOは、YOLOモデルとRT-DETRモデルの長所を組み合わせて、高効率で軽量でリソース効率のマルチオブジェクトトラッキングネットワークを構築し、マルチオブジェクトトラッキングドメインで新たな機会を提供する。
MOT17データセットでは、MOTR\cite{zeng2022motr}は8GeForce 2080 Ti GPUを4日間トレーニングして満足な結果を得る必要があり、MO-YOLOは1GeForce 2080 Ti GPUと12時間のトレーニングしか必要としない。
関連論文リスト
- MODIPHY: Multimodal Obscured Detection for IoT using PHantom
Convolution-Enabled Faster YOLO [11.445187704250033]
YOLOファントム(YOLO Phantom)は、世界最小のYOLOモデルの一つ。
最新の YOLOv8n モデルに匹敵する精度を実現している。
パラメータとモデルサイズを同時に43%削減します。
論文 参考訳(メタデータ) (2024-02-12T18:56:53Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism [40.31805155724484]
Gold-YOLOと名付けられた新しい設計モデルは、マルチスケールの機能融合能力を向上する。
YOLOシリーズにMAEスタイルの事前トレーニングを初めて実装し、YOLOシリーズモデルが教師なし事前トレーニングの恩恵を受けることができるようにした。
論文 参考訳(メタデータ) (2023-09-20T14:03:47Z) - SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices [48.47320494918925]
この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
論文 参考訳(メタデータ) (2023-09-04T13:15:01Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - MIMONet: Multi-Input Multi-Output On-Device Deep Learning [12.501994313621475]
近年の研究では、マルチ入出力シングルアウトプットディープニューラルネットワーク(DNN)が従来のシングルアウトプットシングルアウトプット(SISO)モデルより優れていることが示されている。
デバイス上でのマルチインプット・マルチアウトプット(MIMO)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-22T02:38:03Z) - DAMO-YOLO : A Report on Real-Time Object Detection Design [19.06518351354291]
本稿では,最新のYOLOシリーズよりも高速かつ高精度なオブジェクト検出手法であるDAMO-YOLOを提案する。
我々は最大エントロピーの原理で導かれるMAE-NASを用いて検出バックボーンを探索する。
「首と首のデザインでは、大首と小首の規則に従っている。」
論文 参考訳(メタデータ) (2022-11-23T17:59:12Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。