論文の概要: Standardness Clouds Meaning: A Position Regarding the Informed Usage of Standard Datasets
- arxiv url: http://arxiv.org/abs/2406.13552v2
- Date: Tue, 07 Jan 2025 10:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:46:21.055403
- Title: Standardness Clouds Meaning: A Position Regarding the Informed Usage of Standard Datasets
- Title(参考訳): 標準クラウドの意味:標準データセットのインフォームド使用に関する立場
- Authors: Tim Cech, Ole Wegen, Daniel Atzberger, Rico Richter, Willy Scheibel, Jürgen Döllner,
- Abstract要約: 我々は、標準データセットの非批判的な使用に反対し、代わりに彼らの批判的な試験を提唱する。
MNISTデータセットに対して、ラベルが適切に定義されていることを実証する。
- 参考スコア(独自算出の注目度): 0.5497663232622965
- License:
- Abstract: Standard datasets are frequently used to train and evaluate Machine Learning models. However, the assumed standardness of these datasets leads to a lack of in-depth discussion on how their labels match the derived categories for the respective use case, which we demonstrate by reviewing recent literature that employs standard datasets. We find that the standardness of the datasets seems to cloud their actual coherency and applicability, thus impeding the trust in Machine Learning models trained on these datasets. Therefore, we argue against the uncritical use of standard datasets and advocate for their critical examination instead. For this, we suggest to use Grounded Theory in combination with Hypotheses Testing through Visualization as methods to evaluate the match between use case, derived categories, and labels. We exemplify this approach by applying it to the 20 Newsgroups dataset and the MNIST dataset, both considered standard datasets in their respective domain. The results show that the labels of the 20 Newsgroups dataset are imprecise, which implies that neither a Machine Learning model can learn a meaningful abstraction of derived categories nor one can draw conclusions from achieving high accuracy on this dataset. For the MNIST dataset, we demonstrate that the labels can be confirmed to be defined well. We conclude that also for datasets that are considered to be standard, quality and suitability have to be assessed in order to learn meaningful abstractions and, thus, improve trust in Machine Learning models.
- Abstract(参考訳): 標準データセットは機械学習モデルのトレーニングと評価に頻繁に使用される。
しかし、これらのデータセットの標準性について仮定すると、それらのラベルがそれぞれのユースケースの派生カテゴリとどのように一致しているかについての詳細な議論の欠如につながる。
データセットの標準化は、実際の一貫性と適用性をクラウド化するように見えるため、これらのデータセットでトレーニングされた機械学習モデルの信頼性を損なうことになります。
したがって、標準データセットの非批判的使用に反対し、代わりに彼らの批判的検査を提唱する。
そこで本研究では,実例,派生カテゴリ,ラベルの一致を評価する手法として,グラウンドド理論とビジュアライゼーションによる仮説テストを組み合わせることを提案する。
我々は、これを20のNewsgroupsデータセットとMNISTデータセットに適用することで、このアプローチを実証する。
その結果、20のNewsgroupsデータセットのラベルは不正確であることが示され、機械学習モデルが派生したカテゴリの意味ある抽象化を学習することも、このデータセットで高い精度で結論を導き出すこともできないことが示唆された。
MNISTデータセットに対して、ラベルが適切に定義されていることを実証する。
我々は、標準であると考えられるデータセットについても、意味のある抽象化を学習するためには、品質と適合性を評価し、機械学習モデルの信頼性を向上させる必要があると結論付けている。
関連論文リスト
- A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - Addressing Shortcomings in Fair Graph Learning Datasets: Towards a New Benchmark [26.233696733521757]
我々は,幅広い要件を満たす合成,半合成,実世界のデータセット群を開発し,導入する。
これらのデータセットは、関連するグラフ構造や、モデルの公正な評価に不可欠なバイアス情報を含むように設計されている。
データセット全体にわたるグラフ学習手法による広範な実験結果から,これらの手法の性能をベンチマークする上での有効性が示された。
論文 参考訳(メタデータ) (2024-03-09T21:33:26Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Are Labels Always Necessary for Classifier Accuracy Evaluation? [28.110519483540482]
ラベルなしテストデータセットの分類精度を推定することを目的としている。
元の画像から生成されたデータセットからなるメタデータセットを構築する。
各サンプル(データセット)上のモデルの分類精度は、元のデータセットラベルから知られているので、回帰によってそのタスクを解くことができる。
論文 参考訳(メタデータ) (2020-07-06T17:45:39Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。