論文の概要: Statistical Challenges with Dataset Construction: Why You Will Never Have Enough Images
- arxiv url: http://arxiv.org/abs/2408.11160v1
- Date: Tue, 20 Aug 2024 19:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 21:16:53.875901
- Title: Statistical Challenges with Dataset Construction: Why You Will Never Have Enough Images
- Title(参考訳): データセット構築に関する統計的課題:なぜ十分な画像が得られないのか
- Authors: Josh Goldman, John K. Tsotsos,
- Abstract要約: 近年、ディープニューラルネットワークは多くのコンピュータビジョンベンチマークで顕著なパフォーマンスを達成している。
ベンチマークにおける印象的なパフォーマンスが、現実の環境での強いパフォーマンスに変換されると確信していますか?
我々は、統計理論と経験的証拠の両方を通して、モデルをテストするための代表的な画像データセットを選択することは、多くの領域で不可能であると主張している。
- 参考スコア(独自算出の注目度): 6.706498666260308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have achieved impressive performance on many computer vision benchmarks in recent years. However, can we be confident that impressive performance on benchmarks will translate to strong performance in real-world environments? Many environments in the real world are safety critical, and even slight model failures can be catastrophic. Therefore, it is crucial to test models rigorously before deployment. We argue, through both statistical theory and empirical evidence, that selecting representative image datasets for testing a model is likely implausible in many domains. Furthermore, performance statistics calculated with non-representative image datasets are highly unreliable. As a consequence, we cannot guarantee that models which perform well on withheld test images will also perform well in the real world. Creating larger and larger datasets will not help, and bias aware datasets cannot solve this problem either. Ultimately, there is little statistical foundation for evaluating models using withheld test sets. We recommend that future evaluation methodologies focus on assessing a model's decision-making process, rather than metrics such as accuracy.
- Abstract(参考訳): 近年、ディープニューラルネットワークは多くのコンピュータビジョンベンチマークで顕著なパフォーマンスを達成している。
しかし、ベンチマークにおける印象的なパフォーマンスが、現実の環境での強いパフォーマンスに変換されると確信しているだろうか?
現実世界の多くの環境は安全に重要であり、わずかながらのモデル故障でさえ破滅的だ。
そのため、デプロイ前にモデルを厳格にテストすることが重要です。
我々は、統計理論と経験的証拠の両方を通して、モデルをテストするための代表的な画像データセットを選択することは、多くの領域で不可能であると主張している。
さらに、非表現的画像データセットを用いて計算された性能統計は信頼性が低い。
その結果、保持されていないテスト画像でも良好に動作するモデルが実世界でも良好に機能することを保証できない。
より大きなデータセットを作成することは役に立たないし、バイアス対応データセットもこの問題を解決できない。
最終的に、持たないテストセットを使用してモデルを評価するための統計的基盤はほとんどない。
今後の評価手法は、精度などの指標ではなく、モデルの意思決定プロセスを評価することに焦点を当てることを推奨する。
関連論文リスト
- Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Uncertainty in AI: Evaluating Deep Neural Networks on
Out-of-Distribution Images [0.0]
本稿では、摂動データを扱う際に、ResNet-50、VGG16、DenseNet121、AlexNet、GoogleNetなど様々なディープニューラルネットワークの不確実性について検討する。
ResNet-50はOODイメージの最も正確なシングルモデルであったが、アンサンブルはより良く、すべてのイメージを正しく分類した。
論文 参考訳(メタデータ) (2023-09-04T22:46:59Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z) - MDN-VO: Estimating Visual Odometry with Confidence [34.8860186009308]
視覚オドメトリー(VO)は、ロボット工学や自律システムを含む多くのアプリケーションで使われている。
本研究では、6-DoFのポーズを推定する深層学習に基づくVOモデルと、これらの推定に対する信頼度モデルを提案する。
本実験は,本モデルが故障事例の検出に加えて,最先端の性能を上回ることを示す。
論文 参考訳(メタデータ) (2021-12-23T19:26:04Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。