論文の概要: A Principled Evaluation Protocol for Comparative Investigation of the
Effectiveness of DNN Classification Models on Similar-but-non-identical
Datasets
- arxiv url: http://arxiv.org/abs/2209.01848v1
- Date: Mon, 5 Sep 2022 09:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:04:12.679987
- Title: A Principled Evaluation Protocol for Comparative Investigation of the
Effectiveness of DNN Classification Models on Similar-but-non-identical
Datasets
- Title(参考訳): DNN分類モデルの類似・非同一データに対する有効性比較のための原理的評価プロトコル
- Authors: Esla Timothy Anzaku, Haohan Wang, Arnout Van Messem, Wesley De Neve
- Abstract要約: 我々は、Deep Neural Network(DNN)モデルが、レプリケーションテストデータセットの精度において、大きく、一貫性があり、ほとんど説明されていない劣化を示すことを示した。
複数のテストデータセット上でDNNモデルの精度を比較検討するのに適した,原則付き評価プロトコルを提案する。
実験結果から,確立されたベンチマークデータセットとそれらの複製の間で観測された精度の劣化が一貫して低下していることが示唆された。
- 参考スコア(独自算出の注目度): 11.735794237408427
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Neural Network (DNN) models are increasingly evaluated using new
replication test datasets, which have been carefully created to be similar to
older and popular benchmark datasets. However, running counter to expectations,
DNN classification models show significant, consistent, and largely unexplained
degradation in accuracy on these replication test datasets. While the popular
evaluation approach is to assess the accuracy of a model by making use of all
the datapoints available in the respective test datasets, we argue that doing
so hinders us from adequately capturing the behavior of DNN models and from
having realistic expectations about their accuracy. Therefore, we propose a
principled evaluation protocol that is suitable for performing comparative
investigations of the accuracy of a DNN model on multiple test datasets,
leveraging subsets of datapoints that can be selected using different criteria,
including uncertainty-related information. By making use of this new evaluation
protocol, we determined the accuracy of $564$ DNN models on both (1) the
CIFAR-10 and ImageNet datasets and (2) their replication datasets. Our
experimental results indicate that the observed accuracy degradation between
established benchmark datasets and their replications is consistently lower
(that is, models do perform better on the replication test datasets) than the
accuracy degradation reported in published works, with these published works
relying on conventional evaluation approaches that do not utilize
uncertainty-related information.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)モデルは、古い人気のあるベンチマークデータセットに類似するように慎重に作成されている新しいレプリケーションテストデータセットを使用して、ますます評価されている。
しかし、期待に反して、DNN分類モデルでは、これらのレプリケーションテストデータセットの精度が著しく、一貫性があり、ほとんど説明されていない。
一般的な評価アプローチは、各テストデータセットで利用可能なすべてのデータポイントを使用することで、モデルの正確性を評価することであるが、dnnモデルの振る舞いを適切に捉えることや、その正確性に対する現実的な期待を持つことを妨げていると主張する。
そこで本研究では,複数のテストデータセットにおけるdnnモデルの精度の比較調査に好適な原理評価プロトコルを提案し,不確実性関連情報を含む異なる基準を用いて選択可能なデータポイントのサブセットを活用する。
この新たな評価プロトコルを用いて,(1)CIFAR-10およびImageNetデータセットと(2)複製データセットの両方において,564ドルのDNNモデルの精度を決定した。
実験結果から,確立されたベンチマークデータセットとそれらの複製データの間で観測された精度劣化は,公表された論文で報告された精度劣化よりも一貫して低い(すなわち,再現テストデータセットの精度が向上する)ことが示唆された。
関連論文リスト
- Predicting Critical Heat Flux with Uncertainty Quantification and Domain Generalization Using Conditional Variational Autoencoders and Deep Neural Networks [2.517043342442487]
臨界熱流束測定データを増大させる条件付き変分オートエンコーダモデルを開発した。
微調整深層ニューラルネットワーク(DNN)回帰モデルを作成し、同じデータセットで評価した。
CVAEモデルでは, 予測的相対的標準偏差の評価後, 変動性が著しく低下し, 高い信頼度が得られた。
論文 参考訳(メタデータ) (2024-09-09T16:50:41Z) - Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Understanding and Testing Generalization of Deep Networks on
Out-of-Distribution Data [30.471871571256198]
ディープネットワークモデルは、In-Distributionデータでは優れた性能を発揮するが、Out-Of-Distributionデータでは著しく失敗する可能性がある。
本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計することを目的とする。
論文 参考訳(メタデータ) (2021-11-17T15:29:07Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。