論文の概要: Robust Unsupervised Multi-Object Tracking in Noisy Environments
- arxiv url: http://arxiv.org/abs/2105.10005v1
- Date: Thu, 20 May 2021 19:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 13:31:23.127984
- Title: Robust Unsupervised Multi-Object Tracking in Noisy Environments
- Title(参考訳): 雑音環境におけるロバスト非教師なしマルチオブジェクトトラッキング
- Authors: C.-H. Huck Yang, Mohit Chhabra, Y.-C. Liu, Quan Kong, Tomoaki
Yoshinaga, Tomokazu Murakam
- Abstract要約: 頑健なマルチオブジェクト追跡(MOT)モデルである AttU-Net を導入する。
提案したシングルヘッドアテンションモデルは、異なるセグメントスケールでの視覚的表現を学習することで、ノイズの負の影響を制限するのに役立つ。
本手法をMNISTとAtariゲームビデオベンチマークで評価する。
- 参考スコア(独自算出の注目度): 5.409476600348953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera movement and unpredictable environmental conditions like dust and wind
induce noise into video feeds. We observe that popular unsupervised MOT methods
are dependent on noise-free conditions. We show that the addition of a small
amount of artificial random noise causes a sharp degradation in model
performance on benchmark metrics. We resolve this problem by introducing a
robust unsupervised multi-object tracking (MOT) model: AttU-Net. The proposed
single-head attention model helps limit the negative impact of noise by
learning visual representations at different segment scales. AttU-Net shows
better unsupervised MOT tracking performance over variational inference-based
state-of-the-art baselines. We evaluate our method in the MNIST and the Atari
game video benchmark. We also provide two extended video datasets consisting of
complex visual patterns that include Kuzushiji characters and fashion images to
validate the effectiveness of the proposed method.
- Abstract(参考訳): カメラの動きや、防塵や風などの予測不能な環境は、ビデオフィードにノイズを生じさせる。
一般的な教師なしMOT法はノイズフリー条件に依存している。
本研究では,少数の人工的ランダムノイズが加わったことにより,ベンチマーク指標のモデル性能が著しく低下することを示す。
本稿では,頑健なマルチオブジェクト追跡モデルである AttU-Net を導入することで,この問題を解決する。
提案するシングルヘッドアテンションモデルは,異なるセグメントスケールで視覚的表現を学習することにより,ノイズの負の影響を制限できる。
AttU-Netは、変分推論に基づく最先端のベースラインよりも教師なしMOT追跡性能が向上している。
本手法をMNISTとAtariゲームビデオベンチマークで評価する。
提案手法の有効性を検証するために,クズシジ文字とファッション画像を含む複雑な視覚パターンからなる2つの拡張ビデオデータセットも提供する。
関連論文リスト
- MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly Detection [15.72443573134312]
本研究では,ビデオから抽出した特徴ベクトルを,固定分布を持つランダム変数の実現として扱う。
我々は、デノナイジングスコアマッチングの修正を用いて、ビデオ異常検出装置を訓練する。
5つの人気ビデオ異常検出ベンチマーク実験により,最先端の性能が示された。
論文 参考訳(メタデータ) (2024-03-21T15:46:19Z) - Robust Tiny Object Detection in Aerial Images amidst Label Noise [50.257696872021164]
本研究は,ノイズラベル管理下での微小物体検出の問題に対処する。
本稿では,DN-TOD(Denoising Tiny Object Detector)を提案する。
本手法は,1段と2段の両方のオブジェクト検出パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-01-16T02:14:33Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - DINF: Dynamic Instance Noise Filter for Occluded Pedestrian Detection [0.0]
RCNNベースの歩行者検出器は、矩形領域を使用してインスタンスの特徴を抽出する。
重なり合うオブジェクトの数とわずかに重なり合うオブジェクトの数は不均衡である。
RCNNをベースとした歩行者検知器の信号雑音比を改善するために, 繰り返し動的インスタンスノイズフィルタ (DINF) を提案する。
論文 参考訳(メタデータ) (2023-01-13T14:12:36Z) - MANet: Improving Video Denoising with a Multi-Alignment Network [72.93429911044903]
本稿では,複数フローの提案とアテンションに基づく平均化を行うマルチアライメントネットワークを提案する。
大規模ビデオデータセットを用いた実験により,本手法は調音ベースラインモデルを0.2dBで改善することを示した。
論文 参考訳(メタデータ) (2022-02-20T00:52:07Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。