Fugu-MT 論文翻訳(概要): Empirical Upper Bound, Error Diagnosis and Invariance Analysis of Modern Object Detectors

論文の概要: Empirical Upper Bound, Error Diagnosis and Invariance Analysis of Modern Object Detectors

arxiv url: http://arxiv.org/abs/2004.02877v1
Date: Sun, 5 Apr 2020 06:19:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 12:35:25.560993
Title: Empirical Upper Bound, Error Diagnosis and Invariance Analysis of Modern Object Detectors
Title（参考訳）: 現代の物体検出器の経験的上界・誤差診断・不分散解析
Authors: Ali Borji
Abstract要約: 我々は、最先端のオブジェクト検出ベンチマークを2つ採用し、4つの大規模データセット上で15モデル以上を分析します。モデルが空の領域に多くのボックスを生成し、そのコンテキストが大きな領域よりも小さなオブジェクトを検出するのに重要であることが分かりました。
参考スコア（独自算出の注目度）: 47.64219291655723
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Object detection remains as one of the most notorious open problems in computer vision. Despite large strides in accuracy in recent years, modern object detectors have started to saturate on popular benchmarks raising the question of how far we can reach with deep learning tools and tricks. Here, by employing 2 state-of-the-art object detection benchmarks, and analyzing more than 15 models over 4 large scale datasets, we I) carefully determine the upper bound in AP, which is 91.6% on VOC (test2007), 78.2% on COCO (val2017), and 58.9% on OpenImages V4 (validation), regardless of the IOU threshold. These numbers are much better than the mAP of the best model (47.9% on VOC, and 46.9% on COCO; IOUs=.5:.05:.95), II) characterize the sources of errors in object detectors, in a novel and intuitive way, and find that classification error (confusion with other classes and misses) explains the largest fraction of errors and weighs more than localization and duplicate errors, and III) analyze the invariance properties of models when surrounding context of an object is removed, when an object is placed in an incongruent background, and when images are blurred or flipped vertically. We find that models generate a lot of boxes on empty regions and that context is more important for detecting small objects than larger ones. Our work taps into the tight relationship between object detection and object recognition and offers insights for building better models. Our code is publicly available at https://github.com/aliborji/Deetctionupper bound.git.
Abstract（参考訳）: 物体検出は、コンピュータビジョンにおける最も悪名高いオープンな問題の1つである。近年、精度の大きな進歩にもかかわらず、現代のオブジェクト検出器は人気のあるベンチマークで飽和し始めており、ディープラーニングツールやトリックでどこまで到達できるかという疑問が持ち上がっている。ここでは、最先端のオブジェクト検出ベンチマークを2つ採用し、4つの大規模データセットに対して15モデル以上を解析することにより、私は、VOC(test 2007)で91.6%、COCO(val2017)で78.2%、OpenImages V4(validation)で58.9%、IOUのしきい値に関係なくAPの上限を慎重に決定する。 These numbers are much better than the mAP of the best model (47.9% on VOC, and 46.9% on COCO; IOUs=.5:.05:.95), II) characterize the sources of errors in object detectors, in a novel and intuitive way, and find that classification error (confusion with other classes and misses) explains the largest fraction of errors and weighs more than localization and duplicate errors, and III) analyze the invariance properties of models when surrounding context of an object is removed, when an object is placed in an incongruent background, and when images are blurred or flipped vertically. モデルが空の領域に多くのボックスを生成し、そのコンテキストは大きな領域よりも小さなオブジェクトを検出するために重要である。私たちの研究は、オブジェクト検出とオブジェクト認識の密接な関係を掘り下げ、より良いモデルを構築するための洞察を提供する。私たちのコードはhttps://github.com/aliborji/deetctionupperbound.gitで公開されています。

関連論文リスト

Kaputt: A Large-Scale Dataset for Visual Defect Detection [41.85463954775384]
物流環境における欠陥検出のための大規模データセットを提案する。 230,000以上の画像(および29,000以上の欠陥インスタンス)で、MVTec-ADの40倍の大きさである。
論文参考訳（メタデータ） (2025-10-07T13:13:18Z)
FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model [0.9226774742769024]
製造業界における品質検査には,少ないショット・ゼロショット異常検出が重要である。視覚言語CLIPモデルを利用したFew-shot/zero-shot Anomaly Engine Detection (FADE)を提案する。 FADEは、ゼロショットで89.6%(91.5%)、ノーマルショットで95.4%(97.5%)の異常セグメンテーションにおいて、他の最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-08-31T23:05:56Z)
FADE: A Dataset for Detecting Falling Objects around Buildings in Video [50.99708632966375]
監視カメラは、しばしば落下物を検出するために建物の周りに設置される。このような検出は、小さな大きさと高速な物体の動きのため、依然として困難である。本稿では,FADEという大規模かつ多様なビデオベンチマークデータセットを提案する。 FADEには25のシーンから2,611本のビデオがあり、8つの落下物カテゴリー、4つの気象条件、4つのビデオ解像度がある。
論文参考訳（メタデータ） (2024-08-11T11:43:56Z)
Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。 BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文参考訳（メタデータ） (2024-07-10T18:00:54Z)
YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images [33.80392696735718]
YOLC(You Only Look Clusters)は、アンカーフリーなオブジェクト検出器であるCenterNet上に構築された、効率的で効果的なフレームワークである。大規模画像や非一様オブジェクトの分布がもたらす課題を克服するため,正確な検出のためにクラスタ領域のズームインを適応的に検索するローカルスケールモジュール(LSM)を導入する。 Visdrone 2019 と UAVDT を含む2つの航空画像データセットに対する広範な実験を行い、提案手法の有効性と優位性を実証した。
論文参考訳（メタデータ） (2024-04-09T10:03:44Z)
DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文参考訳（メタデータ） (2024-03-20T15:41:32Z)
Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。提案手法は平均精度(MAP)を約45.7%向上させる。この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文参考訳（メタデータ） (2023-11-21T19:49:13Z)
Natural Adversarial Objects [10.940015831720144]
我々は,オブジェクト検出モデルの堅牢性を評価するために,新しいデータセットであるNatural Adversarial Objects (NAO)を導入する。 NAOには7,934のイメージと9,943のオブジェクトが含まれており、実際のシナリオを反映している。
論文参考訳（メタデータ） (2021-11-07T23:42:55Z)
Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。日常の状況に物を含むこと。分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20～30%の性能改善が得られます。
論文参考訳（メタデータ） (2021-03-08T23:29:59Z)
A Systematic Evaluation of Object Detection Networks for Scientific Plots [17.882932963813985]
PlotQAデータセット上で、様々なSOTAオブジェクト検出ネットワークの精度をトレーニングし比較する。 0.5の標準IOU設定では、ほとんどのネットワークはプロット内の比較的単純な物体を検出する場合、mAPスコアが80%以上である。しかし、パフォーマンスは0.9のより厳格なIOUで評価されると大幅に低下し、最高のモデルでmAPは35.70%となった。
論文参考訳（メタデータ） (2020-07-05T05:30:53Z)
Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels [128.77822070156057]
本研究では,対象物が明示的にあるいは暗黙的に複数のラベルを持つ可能性のあるラベル問題を定量的に解析する。ラベルの不均衡に対処するために,ハイブリッドトレーニングスケジューラを用いたソフトサンプリング手法を提案する。提案手法は3.34点の劇的な改善を実現し,オープンイメージの公開オブジェクト検出テストセット上で60.90mAPの最高の単一モデルを実現する。
論文参考訳（メタデータ） (2020-05-18T04:36:36Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)
Learning Gaussian Maps for Dense Object Detection [1.8275108630751844]
類似したオブジェクトが互いに近接して配置されるシーンにおいて,共通かつ高精度なオブジェクト検出手法を概説する。ガウス写像のマルチタスク学習と分類と境界ボックス回帰がベースラインの精度を大幅に向上させることを示す。提案手法は,SKU110K citesku110kデータセットの精度も向上する。
論文参考訳（メタデータ） (2020-04-24T17:01:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。