論文の概要: MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR
- arxiv url: http://arxiv.org/abs/2310.17170v1
- Date: Thu, 26 Oct 2023 05:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-27 21:53:24.235137
- Title: MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR
- Title(参考訳): MO-YOLO:YOLOとMOTRを用いたエンドツーエンド多目的追跡手法
- Authors: Liao Pan and Yang Feng and Wu Di and Liu Bo and Zhang Xingle
- Abstract要約: そこで本研究では,MO-YOLOという,効率的かつ計算効率のよいマルチオブジェクト追跡モデルを提案する。
MOT17データセットでは、MOTRcitezeng2022motrは8GeForce 2080 Ti GPUを4日間トレーニングして満足な結果を得る必要があり、MO-YOLOは1GeForce 2080 Ti GPUと12時間のトレーニングしか必要としない。
- 参考スコア(独自算出の注目度): 11.607495101616353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to address critical issues in the field of Multi-Object
Tracking (MOT) by proposing an efficient and computationally resource-efficient
end-to-end multi-object tracking model, named MO-YOLO. Traditional MOT methods
typically involve two separate steps: object detection and object tracking,
leading to computational complexity and error propagation issues. Recent
research has demonstrated outstanding performance in end-to-end MOT models
based on Transformer architectures, but they require substantial hardware
support. MO-YOLO combines the strengths of YOLO and RT-DETR models to construct
a high-efficiency, lightweight, and resource-efficient end-to-end multi-object
tracking network, offering new opportunities in the multi-object tracking
domain. On the MOT17 dataset, MOTR\cite{zeng2022motr} requires training with 8
GeForce 2080 Ti GPUs for 4 days to achieve satisfactory results, while MO-YOLO
only requires 1 GeForce 2080 Ti GPU and 12 hours of training to achieve
comparable performance.
- Abstract(参考訳): 本稿では,MO-YOLO(MO-YOLO)と呼ばれる,効率的な資源効率の高いエンドツーエンドのマルチオブジェクト追跡モデルを提案する。
従来のmotメソッドでは、オブジェクト検出とオブジェクト追跡の2つのステップがあり、計算の複雑さとエラー伝播の問題を引き起こす。
最近の研究は、トランスフォーマーアーキテクチャに基づくエンドツーエンドのmotモデルで優れた性能を示しているが、それらは実質的なハードウェアサポートを必要としている。
MO-YOLOは、YOLOモデルとRT-DETRモデルの長所を組み合わせて、高効率で軽量でリソース効率のマルチオブジェクトトラッキングネットワークを構築し、マルチオブジェクトトラッキングドメインで新たな機会を提供する。
MOT17データセットでは、MOTR\cite{zeng2022motr}は8GeForce 2080 Ti GPUを4日間トレーニングして満足な結果を得る必要があり、MO-YOLOは1GeForce 2080 Ti GPUと12時間のトレーニングしか必要としない。
関連論文リスト
- DELTAv2: Accelerating Dense 3D Tracking [79.63990337419514]
本稿では,ビデオ中の高密度3次元点追跡を高速化するための新しいアルゴリズムを提案する。
極小点の小さな部分集合で追跡を開始し、トラックされた軌道の集合を段階的に拡大する粗大な戦略を導入する。
新たに追加されたトラジェクトリは学習可能なモジュールを使用しており、トラッキングネットワークとともにエンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2025-08-02T03:15:47Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - OneTrack-M: A multitask approach to transformer-based MOT models [0.0]
マルチオブジェクト追跡(MOT)はコンピュータビジョンにおいて重要な問題である。
OneTrack-Mは、計算効率と精度のトラッキングを強化するために設計されたトランスフォーマーベースのMOTモデルである。
論文 参考訳(メタデータ) (2025-02-06T20:02:06Z) - FastTrackTr:Towards Fast Multi-Object Tracking with Transformers [33.60043236101685]
トランスフォーマーベースのマルチオブジェクト追跡(MOT)モデルは、しばしば構造や他の問題によって推論速度が遅くなる。
本稿では,高速かつ斬新なJDT型MOTフレームワークであるFastTrackTrを構築し,DETR上のフレーム間の情報伝達を効率的に行う手法を提案する。
この情報伝達手法の優位性により,本手法はトラッキング時に要求されるクエリ数を削減できるだけでなく,ネットワーク構造が過度に導入されるのを避けることができる。
論文 参考訳(メタデータ) (2024-11-24T12:34:02Z) - MCTrack: A Unified 3D Multi-Object Tracking Framework for Autonomous Driving [10.399817864597347]
本稿では,KITTI, nuScenes, データセット間でのSOTA(State-of-the-art)性能を実現する3Dマルチオブジェクトトラッキング手法であるMCTrackを紹介する。
論文 参考訳(メタデータ) (2024-09-23T11:26:01Z) - Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。
アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文 参考訳(メタデータ) (2024-06-05T17:07:24Z) - 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - NASH: A Simple Unified Framework of Structured Pruning for Accelerating
Encoder-Decoder Language Models [29.468888611690346]
本稿では、エンコーダを狭め、エンコーダ-デコーダモデルのデコーダネットワークを短縮する、シンプルで効果的なフレームワークNASHを提案する。
その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。
論文 参考訳(メタデータ) (2023-10-16T04:27:36Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - Collaborative Tracking Learning for Frame-Rate-Insensitive Multi-Object
Tracking [3.781471919731034]
低フレームレートのマルチオブジェクトトラッキング(MOT)は、エッジデバイスの制約を満たすために、計算、ストレージ、電力オーバーヘッドを削減できる。
本稿では,コラボレーティブ・トラッキング・ラーニング(ColTrack)によるフレームレート非感性MOTを,問合せに基づくエンドツーエンドで探索することを提案する。
論文 参考訳(メタデータ) (2023-08-11T02:25:58Z) - Sparse Message Passing Network with Feature Integration for Online
Multiple Object Tracking [6.510588721127479]
これらの2つのコントリビューションを持つ単純なオンラインMPNは、多くの最先端手法よりも優れた性能を発揮することを示す実験結果が得られた。
相関法はよく一般化され,私的検出に基づく手法の結果も改善できる。
論文 参考訳(メタデータ) (2022-12-06T14:10:57Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。
本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文 参考訳(メタデータ) (2021-04-30T16:19:07Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。