論文の概要: DiffusionTrack: Diffusion Model For Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2308.09905v1
- Date: Sat, 19 Aug 2023 04:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:08:25.628206
- Title: DiffusionTrack: Diffusion Model For Multi-Object Tracking
- Title(参考訳): DiffusionTrack:マルチオブジェクト追跡のための拡散モデル
- Authors: Run Luo, Zikai Song, Lintao Ma, Jinlin Wei, Wei Yang, Min Yang
- Abstract要約: マルチオブジェクトトラッキング(MOT)は、単一のフレーム内の個々のオブジェクトを検出し、それらを複数のフレーム間で関連付けることを目的とした、難しい視覚タスクである。
近年のMOT法は,2段階追跡検出法(TBD)と1段階関節検出追跡法(JDT)に分類できる。
本稿では,オブジェクト検出と結合を一貫した認知拡散過程として定式化する,単純だが堅牢なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.025051933538043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-object tracking (MOT) is a challenging vision task that aims to detect
individual objects within a single frame and associate them across multiple
frames. Recent MOT approaches can be categorized into two-stage
tracking-by-detection (TBD) methods and one-stage joint detection and tracking
(JDT) methods. Despite the success of these approaches, they also suffer from
common problems, such as harmful global or local inconsistency, poor trade-off
between robustness and model complexity, and lack of flexibility in different
scenes within the same video. In this paper we propose a simple but robust
framework that formulates object detection and association jointly as a
consistent denoising diffusion process from paired noise boxes to paired
ground-truth boxes. This novel progressive denoising diffusion strategy
substantially augments the tracker's effectiveness, enabling it to discriminate
between various objects. During the training stage, paired object boxes diffuse
from paired ground-truth boxes to random distribution, and the model learns
detection and tracking simultaneously by reversing this noising process. In
inference, the model refines a set of paired randomly generated boxes to the
detection and tracking results in a flexible one-step or multi-step denoising
diffusion process. Extensive experiments on three widely used MOT benchmarks,
including MOT17, MOT20, and Dancetrack, demonstrate that our approach achieves
competitive performance compared to the current state-of-the-art methods.
- Abstract(参考訳): マルチオブジェクトトラッキング(MOT)は、単一のフレーム内の個々のオブジェクトを検出し、それらを複数のフレーム間で関連付けることを目的とした、難しい視覚タスクである。
近年のMOT法は,2段階追跡検出法(TBD)と1段階関節検出追跡法(JDT)に分類できる。
これらのアプローチの成功にもかかわらず、それらはまた、有害なグローバルまたはローカルの矛盾、堅牢性とモデルの複雑さの間の不利なトレードオフ、同じビデオ内の異なるシーンでの柔軟性の欠如など、共通の問題も抱えている。
本稿では,物体検出と相関を,一対の雑音箱から一対の地中箱への一貫した分節拡散過程として定式化する,単純かつ頑健な枠組みを提案する。
このプログレッシブデノナイジング拡散戦略は、トラッカーの有効性を大幅に向上させ、様々な物体の識別を可能にする。
トレーニング期間中、ペア化されたオブジェクトボックスは、ペア化された接地木箱からランダムな分布へと拡散し、このノイズ発生過程を逆転させて検出と追跡を同時に学習する。
推論において、モデルはペア化されたランダムに生成されたボックスの集合を改良し、フレキシブルなワンステップまたはマルチステップのデノナイズ拡散過程における検出および追跡結果を生成する。
MOT17,MOT20,Dancetrackなど,広く使用されている3つのMOTベンチマークに対する大規模な実験により,現在の最先端手法と比較して,我々のアプローチが競争性能を達成することを示した。
関連論文リスト
- DINTR: Tracking via Diffusion-based Interpolation [12.130669304428565]
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。
我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
論文 参考訳(メタデータ) (2024-10-14T00:41:58Z) - ConsistencyTrack: A Robust Multi-Object Tracker with a Generation Strategy of Consistency Model [20.259334882471574]
マルチオブジェクトトラッキング(MOT)は、コンピュータビジョンにおいて重要な技術であり、ビデオシーケンス内の複数のターゲットを検出し、各ターゲットにフレーム毎にユニークなIDを割り当てるように設計されている。
既存のMOTメソッドは、様々なシナリオでリアルタイムで複数のオブジェクトを正確に追跡する。
本稿では,境界ボックス上の拡散過程として検出と関連を定式化するための新しいConsistencyTrack, Joint Detection and Tracking (JDT) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-28T05:53:30Z) - Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark [19.376814754500625]
複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。
本稿では,マグネシウム溶融プロセスにおける視覚特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスを提案する。
本稿では, マグネシウム溶融プロセスの先駆的なクロスモーダルベンチマークを行い, 同期的に取得したビデオデータと電流データを220万以上のサンプルで分析した。
論文 参考訳(メタデータ) (2024-06-13T11:40:06Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Multiple Object Tracking based on Occlusion-Aware Embedding Consistency
Learning [46.726678333518066]
Occlusion Prediction Module (OPM)とOcclusion-Aware Association Module (OAAM)
OPMは、真の検出毎に閉塞情報を予測し、トラックの視覚埋め込みの一貫性学習のための有効なサンプルの選択を容易にする。
OAAMは各トラックに対して2つの別々の埋め込みを生成し、非閉塞検出と非閉塞検出の両方で一貫性を保証する。
論文 参考訳(メタデータ) (2023-11-05T06:08:58Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。