論文の概要: When does dough become a bagel? Analyzing the remaining mistakes on
ImageNet
- arxiv url: http://arxiv.org/abs/2205.04596v1
- Date: Mon, 9 May 2022 23:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 00:38:20.346250
- Title: When does dough become a bagel? Analyzing the remaining mistakes on
ImageNet
- Title(参考訳): 生地はいつベーグルになるのですか。
ImageNetの残りのミスの分析
- Authors: Vijay Vasudevan, Benjamin Caine, Raphael Gontijo-Lopes, Sara
Fridovich-Keil, Rebecca Roelofs
- Abstract要約: コンピュータビジョンにおいて最もベンチマークされたデータセットの1つで、エラーの長い範囲に関する洞察を提供するために、いくつかのトップモデルが残したすべてのエラーをレビューし、分類します。
我々の分析では、想定されるミスのほぼ半数が間違いではないことが明らかとなり、新しい有効な複数ラベルが明らかになった。
ImageNetの今後の進歩をキャリブレーションするために、更新されたマルチラベル評価セットを提供し、ImageNet-Major:68例の"major error"スライスで、今日のトップモデルによる明らかな間違いをキュレートする。
- 参考スコア(独自算出の注目度): 13.36146792987668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image classification accuracy on the ImageNet dataset has been a barometer
for progress in computer vision over the last decade. Several recent papers
have questioned the degree to which the benchmark remains useful to the
community, yet innovations continue to contribute gains to performance, with
today's largest models achieving 90%+ top-1 accuracy. To help contextualize
progress on ImageNet and provide a more meaningful evaluation for today's
state-of-the-art models, we manually review and categorize every remaining
mistake that a few top models make in order to provide insight into the
long-tail of errors on one of the most benchmarked datasets in computer vision.
We focus on the multi-label subset evaluation of ImageNet, where today's best
models achieve upwards of 97% top-1 accuracy. Our analysis reveals that nearly
half of the supposed mistakes are not mistakes at all, and we uncover new valid
multi-labels, demonstrating that, without careful review, we are significantly
underestimating the performance of these models. On the other hand, we also
find that today's best models still make a significant number of mistakes (40%)
that are obviously wrong to human reviewers. To calibrate future progress on
ImageNet, we provide an updated multi-label evaluation set, and we curate
ImageNet-Major: a 68-example "major error" slice of the obvious mistakes made
by today's top models -- a slice where models should achieve near perfection,
but today are far from doing so.
- Abstract(参考訳): imagenetデータセットの画像分類精度は、過去10年間、コンピュータビジョンの進歩のバロメーターだった。
最近のいくつかの論文は、ベンチマークがコミュニティにどのように役立つか疑問視しているが、今日の最大モデルが90%以上のtop-1精度を達成し、イノベーションはパフォーマンスの向上に貢献し続けている。
ImageNetの進捗のコンテキスト化を支援し、今日の最先端モデルに対してより有意義な評価を提供するために、コンピュータビジョンにおいて最もベンチマークされたデータセットの1つにおいて、エラーの長い範囲に関する洞察を提供するために、いくつかのトップモデルが行う残りのすべての誤りを手作業でレビューし、分類します。
我々は、imagenetのマルチラベルサブセット評価に焦点を当て、今日のベストモデルが最大97%のtop-1精度を達成する。
分析の結果、想定されるミスの半数近くは誤りではないことが判明し、新しい有効な複数ラベルを発見し、慎重にレビューすることなく、これらのモデルの性能を著しく過小評価していることが判明した。
一方で、今日の最良のモデルは、人間のレビュアーにとって明らかに間違っている、かなりの数の誤り(40%)をまだ犯していることも分かりました。
ImageNetの今後の進歩を校正するために、更新されたマルチラベル評価セットを提供し、ImageNet-Majorをキュレートします。
関連論文リスト
- Automated Classification of Model Errors on ImageNet [7.455546102930913]
モデル選択がエラー分布にどのように影響するかを研究するための自動エラー分類フレームワークを提案する。
我々は、900以上のモデルのエラー分布を網羅的に評価するために、我々のフレームワークを使用します。
特に、重大エラーの一部は、モデルの性能を過小評価しているにもかかわらず、重要なパフォーマンス指標であることを示すトップ1の精度で大幅に低下する。
論文 参考訳(メタデータ) (2023-11-13T20:41:39Z) - ImagenHub: Standardizing the evaluation of conditional image generation
models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文 参考訳(メタデータ) (2023-10-02T19:41:42Z) - Intrinsic Self-Supervision for Data Quality Audits [35.69673085324971]
コンピュータビジョンにおけるベンチマークデータセットは、しばしば、オフトピック画像、ほぼ重複、ラベルエラーを含む。
本稿では,データクリーニングの課題を再考し,ランキング問題やスコアリング問題として定式化する。
文脈認識型自己教師型表現学習と距離に基づく指標の組み合わせは, 適応バイアスのない問題発見に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-26T15:57:04Z) - Diverse, Difficult, and Odd Instances (D2O): A New Test Set for Object
Classification [47.64219291655723]
既存のテストセットと十分に異なるD2Oと呼ばれる新しいテストセットを導入します。
私たちのデータセットには、36のカテゴリにまたがる8,060のイメージが含まれており、そのうち29がImageNetに表示されています。
私たちのデータセットで最高のTop-1精度は約60%で、ImageNetで91%のTop-1精度よりもはるかに低いです。
論文 参考訳(メタデータ) (2023-01-29T19:58:32Z) - ImageNet-X: Understanding Model Mistakes with Factor of Variation
Annotations [36.348968311668564]
我々は、ポーズ、背景、照明などの要素の16の人間のアノテーションセットであるImageNet-Xを紹介する。
本稿では,現在の認識モデル2200について検討し,モデルアーキテクチャの関数としての誤りの種類について検討する。
モデルにはImageNet-Xカテゴリ全体で一貫した障害モードがある。
論文 参考訳(メタデータ) (2022-11-03T14:56:32Z) - DOMINO: Domain-aware Model Calibration in Medical Image Segmentation [51.346121016559024]
現代のディープニューラルネットワークはキャリブレーションが不十分で、信頼性と信頼性を損なう。
本稿では,クラスラベル間のセマンティック・コンフューザビリティと階層的類似性を利用したドメイン認識モデルキャリブレーション手法であるDOMINOを提案する。
その結果,DOMINOを校正したディープニューラルネットワークは,頭部画像分割における非校正モデルや最先端形態計測法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-13T15:31:52Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - High-Performance Large-Scale Image Recognition Without Normalization [34.58818094675353]
バッチ正規化は、ほとんどの画像分類モデルのキーコンポーネントであるが、多くの望ましくない性質を持っている。
我々は,これらの不安定性を克服する適応的勾配クリッピング手法を開発し,より優れた正規化自由レスネットのクラスを設計する。
大規模事前トレーニング後のImageNetの微調整では,バッチ正規化よりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2021-02-11T18:23:20Z) - How Well Do Self-Supervised Models Transfer? [92.16372657233394]
我々は、40の下流タスクにおいて、トップ13の自己教師型モデルの転送性能を評価する。
ImageNet Top-1の精度は、マルチショット認識への転送と非常に相関している。
全体としては、単一の自己監督的手法が支配的ではなく、普遍的な事前訓練がまだ未解決であることを示唆している。
論文 参考訳(メタデータ) (2020-11-26T16:38:39Z) - Are we done with ImageNet? [86.01120671361844]
我々は、ImageNetバリデーションセットの人間のアノテーションを収集するための、より堅牢な手順を開発する。
我々は最近提案されたImageNet分類器の精度を再評価し、その精度は元のラベルで報告されたものよりもかなり小さいことがわかった。
オリジナルのImageNetラベルは、もはやこの独立に収集されたセットの最良の予測者ではなく、ビジョンモデルの評価における彼らの有用性が終わりに近づいていることを示している。
論文 参考訳(メタデータ) (2020-06-12T13:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。