論文の概要: Automated Classification of Model Errors on ImageNet
- arxiv url: http://arxiv.org/abs/2401.02430v1
- Date: Mon, 13 Nov 2023 20:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:41:59.508731
- Title: Automated Classification of Model Errors on ImageNet
- Title(参考訳): ImageNetによるモデルエラーの自動分類
- Authors: Momchil Peychev, Mark Niklas M\"uller, Marc Fischer, Martin Vechev
- Abstract要約: モデル選択がエラー分布にどのように影響するかを研究するための自動エラー分類フレームワークを提案する。
我々は、900以上のモデルのエラー分布を網羅的に評価するために、我々のフレームワークを使用します。
特に、重大エラーの一部は、モデルの性能を過小評価しているにもかかわらず、重要なパフォーマンス指標であることを示すトップ1の精度で大幅に低下する。
- 参考スコア(独自算出の注目度): 7.455546102930913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the ImageNet dataset has been driving computer vision research over the
past decade, significant label noise and ambiguity have made top-1 accuracy an
insufficient measure of further progress. To address this, new label-sets and
evaluation protocols have been proposed for ImageNet showing that
state-of-the-art models already achieve over 95% accuracy and shifting the
focus on investigating why the remaining errors persist.
Recent work in this direction employed a panel of experts to manually
categorize all remaining classification errors for two selected models.
However, this process is time-consuming, prone to inconsistencies, and requires
trained experts, making it unsuitable for regular model evaluation thus
limiting its utility. To overcome these limitations, we propose the first
automated error classification framework, a valuable tool to study how modeling
choices affect error distributions. We use our framework to comprehensively
evaluate the error distribution of over 900 models. Perhaps surprisingly, we
find that across model architectures, scales, and pre-training corpora, top-1
accuracy is a strong predictor for the portion of all error types. In
particular, we observe that the portion of severe errors drops significantly
with top-1 accuracy indicating that, while it underreports a model's true
performance, it remains a valuable performance metric.
We release all our code at
https://github.com/eth-sri/automated-error-analysis .
- Abstract(参考訳): ImageNetデータセットは過去10年間コンピュータビジョンの研究を推進してきたが、重要なラベルのノイズと曖昧さにより、トップ1の精度はさらなる進歩の不十分な指標となった。
これを解決するために、ImageNetに新しいラベルセットと評価プロトコルが提案されており、現状のモデルは95%以上の精度を実現しており、残りのエラーが持続する理由に焦点を移している。
この方向の最近の研究では、2つの選択されたモデルの残りの分類エラーを手動で分類する専門家パネルが採用されている。
しかし、このプロセスは時間がかかり、矛盾しやすいため、訓練された専門家を必要とするため、通常のモデル評価には適さないため、実用性が制限される。
これらの制約を克服するために,モデル選択がエラー分布に与える影響を研究する上で有用な,最初の自動エラー分類フレームワークを提案する。
900以上のモデルのエラー分布を網羅的に評価するために,我々のフレームワークを利用する。
おそらく驚くことに、モデルアーキテクチャ、スケール、および事前トレーニングコーパスにおいて、top-1精度はすべてのエラータイプにおいて強力な予測要因である。
特に、重大エラーの一部は、モデルの性能を過小評価しているにもかかわらず、重要なパフォーマンス指標であることを示すトップ1の精度で大幅に低下する。
私たちはすべてのコードをhttps://github.com/eth-sri/automated-error- analysisでリリースします。
関連論文リスト
- Automatic Discovery and Assessment of Interpretable Systematic Errors in Semantic Segmentation [0.5242869847419834]
本稿では,セグメンテーションモデルにおける体系的誤りを発見するための新しい手法を提案する。
マルチモーダル・ファンデーション・モデルを用いてエラーを検索し、誤った性質とともに概念的リンクを用いてこれらのエラーの体系的性質を研究する。
我々の研究は、これまでセマンティックセグメンテーションで過小評価されてきたモデル分析と介入への道を開く。
論文 参考訳(メタデータ) (2024-11-16T17:31:37Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Intrinsic Self-Supervision for Data Quality Audits [35.69673085324971]
コンピュータビジョンにおけるベンチマークデータセットは、しばしば、オフトピック画像、ほぼ重複、ラベルエラーを含む。
本稿では,データクリーニングの課題を再考し,ランキング問題やスコアリング問題として定式化する。
文脈認識型自己教師型表現学習と距離に基づく指標の組み合わせは, 適応バイアスのない問題発見に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-26T15:57:04Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Crowd Density Estimation using Imperfect Labels [3.2575001434344286]
深層学習モデル(アノテータ)を用いて不完全ラベルを自動的に生成するシステムを提案する。
提案手法は,2つのクラウドカウントモデルと2つのベンチマークデータセットを用いて解析した結果,完全ラベルで訓練したモデルに近い精度が得られることがわかった。
論文 参考訳(メタデータ) (2022-12-02T21:21:40Z) - When does dough become a bagel? Analyzing the remaining mistakes on
ImageNet [13.36146792987668]
コンピュータビジョンにおいて最もベンチマークされたデータセットの1つで、エラーの長い範囲に関する洞察を提供するために、いくつかのトップモデルが残したすべてのエラーをレビューし、分類します。
我々の分析では、想定されるミスのほぼ半数が間違いではないことが明らかとなり、新しい有効な複数ラベルが明らかになった。
ImageNetの今後の進歩をキャリブレーションするために、更新されたマルチラベル評価セットを提供し、ImageNet-Major:68例の"major error"スライスで、今日のトップモデルによる明らかな間違いをキュレートする。
論文 参考訳(メタデータ) (2022-05-09T23:25:45Z) - Is the Performance of My Deep Network Too Good to Be True? A Direct
Approach to Estimating the Bayes Error in Binary Classification [86.32752788233913]
分類問題において、ベイズ誤差は、最先端の性能を持つ分類器を評価するための基準として用いられる。
我々はベイズ誤差推定器を提案する。そこでは,クラスの不確かさを示すラベルの平均値のみを評価できる。
我々の柔軟なアプローチは、弱い教師付きデータであってもベイズ誤差を推定できる。
論文 参考訳(メタデータ) (2022-02-01T13:22:26Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Defuse: Harnessing Unrestricted Adversarial Examples for Debugging
Models Beyond Test Accuracy [11.265020351747916]
Defuseは、テストデータ以外のモデルエラーを自動的に検出し、修正する手法である。
本稿では, 生成モデルを用いて, モデルによって誤分類された自然発生事例を探索する逆機械学習手法に着想を得たアルゴリズムを提案する。
Defuseはテストセットの一般化を維持しながら、微調整後のエラーを修正する。
論文 参考訳(メタデータ) (2021-02-11T18:08:42Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。