論文の概要: Identifying Statistical Bias in Dataset Replication
- arxiv url: http://arxiv.org/abs/2005.09619v2
- Date: Wed, 2 Sep 2020 06:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:03:22.837179
- Title: Identifying Statistical Bias in Dataset Replication
- Title(参考訳): データ複製における統計的バイアスの同定
- Authors: Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras,
Jacob Steinhardt, Aleksander Madry
- Abstract要約: モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
- 参考スコア(独自算出の注目度): 102.92137353938388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset replication is a useful tool for assessing whether improvements in
test accuracy on a specific benchmark correspond to improvements in models'
ability to generalize reliably. In this work, we present unintuitive yet
significant ways in which standard approaches to dataset replication introduce
statistical bias, skewing the resulting observations. We study ImageNet-v2, a
replication of the ImageNet dataset on which models exhibit a significant
(11-14%) drop in accuracy, even after controlling for a standard
human-in-the-loop measure of data quality. We show that after correcting for
the identified statistical bias, only an estimated $3.6\% \pm 1.5\%$ of the
original $11.7\% \pm 1.0\%$ accuracy drop remains unaccounted for. We conclude
with concrete recommendations for recognizing and avoiding bias in dataset
replication. Code for our study is publicly available at
http://github.com/MadryLab/dataset-replication-analysis .
- Abstract(参考訳): データセットレプリケーション(dataset replication)は、特定のベンチマークにおけるテスト精度の向上がモデルの信頼性向上に対応するかどうかを評価する上で有用なツールである。
本研究では、データセット複製の標準的な手法が統計的バイアスを導入し、結果の観測をスクーリングする非直観的かつ重要な方法を示す。
ImageNet-v2は、標準的なデータ品質の人為的測定を制御した後でも、モデルが11-14%の精度で大幅に低下する画像Netデータセットの複製である。
同定された統計バイアスを補正した後、推定3.6\% \pm 1.5\%$で、最初の11.7\% \pm 1.0\%$精度低下は未確認のままである。
データセットの複製におけるバイアスを認識し回避するための具体的な推奨事項で締めくくる。
私たちの研究のコードはhttp://github.com/MadryLab/dataset-replication-analysis で公開されています。
関連論文リスト
- TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - A Principled Evaluation Protocol for Comparative Investigation of the
Effectiveness of DNN Classification Models on Similar-but-non-identical
Datasets [11.735794237408427]
我々は、Deep Neural Network(DNN)モデルが、レプリケーションテストデータセットの精度において、大きく、一貫性があり、ほとんど説明されていない劣化を示すことを示した。
複数のテストデータセット上でDNNモデルの精度を比較検討するのに適した,原則付き評価プロトコルを提案する。
実験結果から,確立されたベンチマークデータセットとそれらの複製の間で観測された精度の劣化が一貫して低下していることが示唆された。
論文 参考訳(メタデータ) (2022-09-05T09:14:43Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - CrossAug: A Contrastive Data Augmentation Method for Debiasing Fact
Verification Models [14.75693099720436]
そこで本研究では,事実検証モデルのデバイアス化のためのデータ拡張手法であるCrossAugを提案する。
既存のサンプルから新たなクレームやエビデンスを生成するために、2段階拡張パイプラインを使用します。
生成されたサンプルは、元のペアとクロスワイズにペアリングされ、対照的なサンプルを形成します。
論文 参考訳(メタデータ) (2021-09-30T13:19:19Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Are Labels Always Necessary for Classifier Accuracy Evaluation? [28.110519483540482]
ラベルなしテストデータセットの分類精度を推定することを目的としている。
元の画像から生成されたデータセットからなるメタデータセットを構築する。
各サンプル(データセット)上のモデルの分類精度は、元のデータセットラベルから知られているので、回帰によってそのタスクを解くことができる。
論文 参考訳(メタデータ) (2020-07-06T17:45:39Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。