Fugu-MT 論文翻訳(概要): MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR

論文の概要: MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR

arxiv url: http://arxiv.org/abs/2310.17170v1
Date: Thu, 26 Oct 2023 05:49:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 21:53:24.235137
Title: MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR
Title（参考訳）: MO-YOLO:YOLOとMOTRを用いたエンドツーエンド多目的追跡手法
Authors: Liao Pan and Yang Feng and Wu Di and Liu Bo and Zhang Xingle
Abstract要約: そこで本研究では,MO-YOLOという,効率的かつ計算効率のよいマルチオブジェクト追跡モデルを提案する。 MOT17データセットでは、MOTRcitezeng2022motrは8GeForce 2080 Ti GPUを4日間トレーニングして満足な結果を得る必要があり、MO-YOLOは1GeForce 2080 Ti GPUと12時間のトレーニングしか必要としない。
参考スコア（独自算出の注目度）: 11.607495101616353
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper aims to address critical issues in the field of Multi-Object Tracking (MOT) by proposing an efficient and computationally resource-efficient end-to-end multi-object tracking model, named MO-YOLO. Traditional MOT methods typically involve two separate steps: object detection and object tracking, leading to computational complexity and error propagation issues. Recent research has demonstrated outstanding performance in end-to-end MOT models based on Transformer architectures, but they require substantial hardware support. MO-YOLO combines the strengths of YOLO and RT-DETR models to construct a high-efficiency, lightweight, and resource-efficient end-to-end multi-object tracking network, offering new opportunities in the multi-object tracking domain. On the MOT17 dataset, MOTR\cite{zeng2022motr} requires training with 8 GeForce 2080 Ti GPUs for 4 days to achieve satisfactory results, while MO-YOLO only requires 1 GeForce 2080 Ti GPU and 12 hours of training to achieve comparable performance.
Abstract（参考訳）: 本稿では,MO-YOLO(MO-YOLO)と呼ばれる,効率的な資源効率の高いエンドツーエンドのマルチオブジェクト追跡モデルを提案する。従来のmotメソッドでは、オブジェクト検出とオブジェクト追跡の2つのステップがあり、計算の複雑さとエラー伝播の問題を引き起こす。最近の研究は、トランスフォーマーアーキテクチャに基づくエンドツーエンドのmotモデルで優れた性能を示しているが、それらは実質的なハードウェアサポートを必要としている。 MO-YOLOは、YOLOモデルとRT-DETRモデルの長所を組み合わせて、高効率で軽量でリソース効率のマルチオブジェクトトラッキングネットワークを構築し、マルチオブジェクトトラッキングドメインで新たな機会を提供する。 MOT17データセットでは、MOTR\cite{zeng2022motr}は8GeForce 2080 Ti GPUを4日間トレーニングして満足な結果を得る必要があり、MO-YOLOは1GeForce 2080 Ti GPUと12時間のトレーニングしか必要としない。

関連論文リスト

DELTAv2: Accelerating Dense 3D Tracking [79.63990337419514]
本稿では,ビデオ中の高密度3次元点追跡を高速化するための新しいアルゴリズムを提案する。極小点の小さな部分集合で追跡を開始し、トラックされた軌道の集合を段階的に拡大する粗大な戦略を導入する。新たに追加されたトラジェクトリは学習可能なモジュールを使用しており、トラッキングネットワークとともにエンドツーエンドでトレーニングされている。
論文参考訳（メタデータ） (2025-08-02T03:15:47Z)
Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文参考訳（メタデータ） (2025-03-09T06:16:49Z)
OneTrack-M: A multitask approach to transformer-based MOT models [0.0]
マルチオブジェクト追跡(MOT)はコンピュータビジョンにおいて重要な問題である。 OneTrack-Mは、計算効率と精度のトラッキングを強化するために設計されたトランスフォーマーベースのMOTモデルである。
論文参考訳（メタデータ） (2025-02-06T20:02:06Z)
FastTrackTr:Towards Fast Multi-Object Tracking with Transformers [33.60043236101685]
トランスフォーマーベースのマルチオブジェクト追跡(MOT)モデルは、しばしば構造や他の問題によって推論速度が遅くなる。本稿では,高速かつ斬新なJDT型MOTフレームワークであるFastTrackTrを構築し,DETR上のフレーム間の情報伝達を効率的に行う手法を提案する。この情報伝達手法の優位性により,本手法はトラッキング時に要求されるクエリ数を削減できるだけでなく,ネットワーク構造が過度に導入されるのを避けることができる。
論文参考訳（メタデータ） (2024-11-24T12:34:02Z)
MCTrack: A Unified 3D Multi-Object Tracking Framework for Autonomous Driving [10.399817864597347]
本稿では,KITTI, nuScenes, データセット間でのSOTA(State-of-the-art)性能を実現する3Dマルチオブジェクトトラッキング手法であるMCTrackを紹介する。
論文参考訳（メタデータ） (2024-09-23T11:26:01Z)
Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文参考訳（メタデータ） (2024-07-07T14:10:04Z)
LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文参考訳（メタデータ） (2024-06-05T17:07:24Z)
4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。 4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-05T05:18:20Z)
Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。 DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文参考訳（メタデータ） (2024-03-26T12:31:58Z)
Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。 CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文参考訳（メタデータ） (2023-12-27T21:04:26Z)
NASH: A Simple Unified Framework of Structured Pruning for Accelerating Encoder-Decoder Language Models [29.468888611690346]
本稿では、エンコーダを狭め、エンコーダ-デコーダモデルのデコーダネットワークを短縮する、シンプルで効果的なフレームワークNASHを提案する。その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。
論文参考訳（メタデータ） (2023-10-16T04:27:36Z)
DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-09-09T04:40:01Z)
Collaborative Tracking Learning for Frame-Rate-Insensitive Multi-Object Tracking [3.781471919731034]
低フレームレートのマルチオブジェクトトラッキング(MOT)は、エッジデバイスの制約を満たすために、計算、ストレージ、電力オーバーヘッドを削減できる。本稿では,コラボレーティブ・トラッキング・ラーニング(ColTrack)によるフレームレート非感性MOTを,問合せに基づくエンドツーエンドで探索することを提案する。
論文参考訳（メタデータ） (2023-08-11T02:25:58Z)
Sparse Message Passing Network with Feature Integration for Online Multiple Object Tracking [6.510588721127479]
これらの2つのコントリビューションを持つ単純なオンラインMPNは、多くの最先端手法よりも優れた性能を発揮することを示す実験結果が得られた。相関法はよく一般化され,私的検出に基づく手法の結果も改善できる。
論文参考訳（メタデータ） (2022-12-06T14:10:57Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。 Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。これは、他のトランスモデルよりも最大8倍高速である。
論文参考訳（メタデータ） (2021-12-17T18:57:54Z)
Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文参考訳（メタデータ） (2021-04-30T16:19:07Z)
Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-03-31T15:19:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。