論文の概要: Understanding out-of-distribution accuracies through quantifying
difficulty of test samples
- arxiv url: http://arxiv.org/abs/2203.15100v1
- Date: Mon, 28 Mar 2022 21:13:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 11:37:33.307509
- Title: Understanding out-of-distribution accuracies through quantifying
difficulty of test samples
- Title(参考訳): 試験試料の定量化による分布外精度の理解
- Authors: Berfin Simsek, Melissa Hall, Levent Sagun
- Abstract要約: 既存の研究によると、現代のニューラルネットワークは、分布内データセット(ID)において顕著な一般化性能を達成するが、分布外データセット(OOD)では精度が著しく低下する。
トレーニングデータセットとモデルの相互作用に依存するテスト画像(IDまたはOOD)の難易度を定量化する新しい指標を提案する。
- 参考スコア(独自算出の注目度): 10.266928164137635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing works show that although modern neural networks achieve remarkable
generalization performance on the in-distribution (ID) dataset, the accuracy
drops significantly on the out-of-distribution (OOD) datasets
\cite{recht2018cifar, recht2019imagenet}. To understand why a variety of models
consistently make more mistakes in the OOD datasets, we propose a new metric to
quantify the difficulty of the test images (either ID or OOD) that depends on
the interaction of the training dataset and the model. In particular, we
introduce \textit{confusion score} as a label-free measure of image difficulty
which quantifies the amount of disagreement on a given test image based on the
class conditional probabilities estimated by an ensemble of trained models.
Using the confusion score, we investigate CIFAR-10 and its OOD derivatives.
Next, by partitioning test and OOD datasets via their confusion scores, we
predict the relationship between ID and OOD accuracies for various
architectures. This allows us to obtain an estimator of the OOD accuracy of a
given model only using ID test labels. Our observations indicate that the
biggest contribution to the accuracy drop comes from images with high confusion
scores. Upon further inspection, we report on the nature of the misclassified
images grouped by their confusion scores: \textit{(i)} images with high
confusion scores contain \textit{weak spurious correlations} that appear in
multiple classes in the training data and lack clear \textit{class-specific
features}, and \textit{(ii)} images with low confusion scores exhibit spurious
correlations that belong to another class, namely \textit{class-specific
spurious correlations}.
- Abstract(参考訳): 既存の研究によると、現代のニューラルネットワークは、In-distribution (ID)データセット上で顕著な一般化性能を達成するが、精度はout-of-distribution (OOD)データセット \cite{recht2018cifar, recht2019imagenet} で著しく低下する。
OODデータセットにおいて、様々なモデルが一貫してミスを犯す理由を理解するために、トレーニングデータセットとモデルの相互作用に依存するテストイメージ(IDまたはOOD)の難易度を定量化する新しい指標を提案する。
特に,訓練モデルのアンサンブルによって推定されるクラス条件付き確率に基づいて,与えられたテスト画像における不一致量を定量化するラベルフリーな画像難易度尺度として, \textit{confusion score}を導入する。
混乱スコアを用いて, CIFAR-10とそのOOD誘導体について検討した。
次に,テストデータセットとOODデータセットをその混乱スコアで分割することにより,各種アーキテクチャにおけるIDとOODの精度の関係を予測する。
これにより、IDテストラベルのみを用いて、与えられたモデルのOOD精度の推定値を得ることができる。
この精度低下に対する最も大きな貢献は、高い混乱スコアを持つ画像によるものであることを示す。
さらに調べると、混乱スコアによってグループ化された誤分類画像の性質について報告する。
(i) 混乱スコアの高い画像は、トレーニングデータ内の複数のクラスに出現し、明確な \textit{class-specific features} と \textit{を欠いた \textit{weak spurious correlations} を含む。
(ii) 混乱スコアの低い画像は、他のクラスに属する刺激相関、すなわち、textit{class-specific spurious correlations}を示す。
関連論文リスト
- Decompose-and-Compose: A Compositional Approach to Mitigating Spurious Correlation [2.273629240935727]
画像の要素を組み合わせることで相関シフトを改善するために,分解分解(DaC)を提案する。
経験的リスク最小化(Empirical Risk Minimization, ERM)で訓練されたモデルでは, 通常, 因果成分, あるいはラベルとの急激な相関性が高い成分のいずれかに高い関与が認められた。
トレーニング中に,グループラベルやスプリアスの特徴に関する情報を必要とせず,画像に介入してグループバランスを行う手法を提案する。
論文 参考訳(メタデータ) (2024-02-29T07:24:24Z) - Common-Sense Bias Discovery and Mitigation for Classification Tasks [16.8259488742528]
画像記述に基づいてデータセットの特徴クラスタを抽出するフレームワークを提案する。
解析された特徴と相関は人間に解釈可能であるので、我々はCommon-Sense Bias Discovery (CSBD) という手法を名づける。
実験の結果,2つのベンチマーク画像データセットに対して,複数の分類タスクに新たなバイアスが生じることがわかった。
論文 参考訳(メタデータ) (2024-01-24T03:56:07Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - EAT: Towards Long-Tailed Out-of-Distribution Detection [55.380390767978554]
本稿では,長い尾を持つOOD検出の課題に対処する。
主な困難は、尾クラスに属するサンプルとOODデータを区別することである。
本稿では,(1)複数の禁制クラスを導入して分布内クラス空間を拡大すること,(2)コンテキストリッチなOODデータに画像をオーバーレイすることでコンテキスト限定のテールクラスを拡大すること,の2つの簡単な考え方を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:47:13Z) - Estimating label quality and errors in semantic segmentation data via
any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。
これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文 参考訳(メタデータ) (2023-07-11T07:29:09Z) - Spawrious: A Benchmark for Fine Control of Spurious Correlation Biases [8.455991178281469]
我々は,クラスと背景の素早い相関関係を含む画像分類ベンチマークスイートであるベンチマーク-O2O,M2M-Easy,Medium,Hardを提案する。
得られたデータセットは高品質で、約152Kの画像を含んでいる。
論文 参考訳(メタデータ) (2023-03-09T18:22:12Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Incorporating Semi-Supervised and Positive-Unlabeled Learning for
Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。
ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。
本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文 参考訳(メタデータ) (2022-04-19T09:10:06Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Overinterpretation reveals image classification model pathologies [15.950659318117694]
人気のあるベンチマーク上の畳み込みニューラルネットワーク(CNN)は、意味論的に健全な特徴がなくても高い精度を示すことができるような、厄介な病理を示す。
我々は、CIFAR-10とImageNetでトレーニングされたニューラルネットワークが過剰解釈に悩まされていることを実証した。
これらのパターンは、現実のデプロイメントにおける潜在的なモデルの脆弱性を補うものだが、実際には、ベンチマークの統計的パターンとして、高いテスト精度を達成するのに十分である。
論文 参考訳(メタデータ) (2020-03-19T17:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。