論文の概要: DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions
- arxiv url: http://arxiv.org/abs/2309.04682v1
- Date: Sat, 9 Sep 2023 04:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:11:01.668272
- Title: DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions
- Title(参考訳): Denoising-MOT:重度閉塞を伴う複数物体追跡を目指して
- Authors: Teng Fu, Xiaocong Wang, Haiyang Yu, Ke Niu, Bin Li, Xiangyang Xue
- Abstract要約: DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
- 参考スコア(独自算出の注目度): 52.63323657077447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple object tracking (MOT) tends to become more challenging when severe
occlusions occur. In this paper, we analyze the limitations of traditional
Convolutional Neural Network-based methods and Transformer-based methods in
handling occlusions and propose DNMOT, an end-to-end trainable DeNoising
Transformer for MOT. To address the challenge of occlusions, we explicitly
simulate the scenarios when occlusions occur. Specifically, we augment the
trajectory with noises during training and make our model learn the denoising
process in an encoder-decoder architecture, so that our model can exhibit
strong robustness and perform well under crowded scenes. Additionally, we
propose a Cascaded Mask strategy to better coordinate the interaction between
different types of queries in the decoder to prevent the mutual suppression
between neighboring trajectories under crowded scenes. Notably, the proposed
method requires no additional modules like matching strategy and motion state
estimation in inference. We conduct extensive experiments on the MOT17, MOT20,
and DanceTrack datasets, and the experimental results show that our method
outperforms previous state-of-the-art methods by a clear margin.
- Abstract(参考訳): 複数の物体追跡(MOT)は、重度の閉塞が発生すると困難になる傾向がある。
本稿では,従来の畳み込みニューラルネットワークとトランスフォーマーを用いたオクルージョン処理手法の限界を分析し,MOTのためのエンドツーエンドトレーニング可能なデノイングトランスであるDNMOTを提案する。
咬合の課題に対処するため,咬合発生時のシナリオを明示的にシミュレートする。
具体的には、トレーニング中のノイズを伴う軌道を補強し、モデルがエンコーダ・デコーダアーキテクチャでデノージングプロセスを学ぶようにし、このモデルが強い堅牢性を示し、混み合ったシーンでうまく動作できるようにします。
さらに,デコーダ内の異なる種類の問合せ間の相互作用をよりよく調整し,混み合った場面における隣り合うトラジェクタ間の相互抑圧を防止するためのカスケードマスク戦略を提案する。
特に,提案手法では,マッチング戦略や推定時の動作状態推定などの追加モジュールは不要である。
我々は,mot17,mot20,dancetrackデータセットを広範囲に実験し,本手法が従来の最先端手法よりも明確なマージンで優れていることを示す。
関連論文リスト
- ConsistencyTrack: A Robust Multi-Object Tracker with a Generation Strategy of Consistency Model [20.259334882471574]
マルチオブジェクトトラッキング(MOT)は、コンピュータビジョンにおいて重要な技術であり、ビデオシーケンス内の複数のターゲットを検出し、各ターゲットにフレーム毎にユニークなIDを割り当てるように設計されている。
既存のMOTメソッドは、様々なシナリオでリアルタイムで複数のオブジェクトを正確に追跡する。
本稿では,境界ボックス上の拡散過程として検出と関連を定式化するための新しいConsistencyTrack, Joint Detection and Tracking (JDT) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-28T05:53:30Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - DiffusionTrack: Diffusion Model For Multi-Object Tracking [15.025051933538043]
マルチオブジェクトトラッキング(MOT)は、単一のフレーム内の個々のオブジェクトを検出し、それらを複数のフレーム間で関連付けることを目的とした、難しい視覚タスクである。
近年のMOT法は,2段階追跡検出法(TBD)と1段階関節検出追跡法(JDT)に分類できる。
本稿では,オブジェクト検出と結合を一貫した認知拡散過程として定式化する,単純だが堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-19T04:48:41Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - Disentangling Object Motion and Occlusion for Unsupervised Multi-frame
Monocular Depth [37.021579239596164]
既存の動的対象に焦点をあてた手法は、トレーニング損失レベルのミスマッチ問題を部分的に解決しただけである。
本稿では,これらの問題を予測レベルと監督損失レベルの両方で解くために,新しい多フレーム単眼深度予測法を提案する。
我々の手法はDynamicDepthと呼ばれ、自己教師付きサイクル一貫性学習スキームによって訓練された新しいフレームワークである。
論文 参考訳(メタデータ) (2022-03-29T01:36:11Z) - Robust Unsupervised Multi-Object Tracking in Noisy Environments [5.409476600348953]
頑健なマルチオブジェクト追跡(MOT)モデルである AttU-Net を導入する。
提案したシングルヘッドアテンションモデルは、異なるセグメントスケールでの視覚的表現を学習することで、ノイズの負の影響を制限するのに役立つ。
本手法をMNISTとAtariゲームビデオベンチマークで評価する。
論文 参考訳(メタデータ) (2021-05-20T19:38:03Z) - Learning to Generate Noise for Multi-Attack Robustness [126.23656251512762]
対人学習は、対人摂動に対する既存の方法の感受性を回避できる手法の1つとして登場した。
安全クリティカルなアプリケーションでは、攻撃者は様々な敵を採用してシステムを騙すことができるため、これらの手法は極端に便利である。
本稿では,複数種類の攻撃に対するモデルの堅牢性を改善するために,ノイズ発生を明示的に学習するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T10:44:05Z) - Perturbing Across the Feature Hierarchy to Improve Standard and Strict
Blackbox Attack Transferability [100.91186458516941]
我々は、ディープニューラルネットワーク(DNN)画像分類器の領域におけるブラックボックス転送に基づく敵攻撃脅威モデルを検討する。
我々は,多層摂動が可能なフレキシブルアタックフレームワークを設計し,最先端のターゲット転送性能を示す。
提案手法が既存の攻撃戦略より優れている理由を解析し,ブラックボックスモデルに対する限られたクエリが許された場合に,メソッドの拡張を示す。
論文 参考訳(メタデータ) (2020-04-29T16:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。