論文の概要: Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics
- arxiv url: http://arxiv.org/abs/2009.10795v2
- Date: Thu, 15 Oct 2020 05:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 22:35:22.963738
- Title: Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics
- Title(参考訳): Dataset Cartography:トレーニングダイナミクスを用いたデータセットのマッピングと診断
- Authors: Swabha Swayamdipta, Roy Schwartz, Nicholas Lourie, Yizhong Wang,
Hannaneh Hajishirzi, Noah A. Smith, Yejin Choi
- Abstract要約: 我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
- 参考スコア(独自算出の注目度): 118.75207687144817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large datasets have become commonplace in NLP research. However, the
increased emphasis on data quantity has made it challenging to assess the
quality of data. We introduce Data Maps---a model-based tool to characterize
and diagnose datasets. We leverage a largely ignored source of information: the
behavior of the model on individual instances during training (training
dynamics) for building data maps. This yields two intuitive measures for each
example---the model's confidence in the true class, and the variability of this
confidence across epochs---obtained in a single run of training. Experiments
across four datasets show that these model-dependent measures reveal three
distinct regions in the data map, each with pronounced characteristics. First,
our data maps show the presence of "ambiguous" regions with respect to the
model, which contribute the most towards out-of-distribution generalization.
Second, the most populous regions in the data are "easy to learn" for the
model, and play an important role in model optimization. Finally, data maps
uncover a region with instances that the model finds "hard to learn"; these
often correspond to labeling errors. Our results indicate that a shift in focus
from quantity to quality of data could lead to robust models and improved
out-of-distribution generalization.
- Abstract(参考訳): NLP研究では大規模なデータセットが一般的になっている。
しかし,データ量への注目が高まり,データ品質の評価が困難になっている。
データマップ - データセットの特徴付けと診断を行うモデルベースのツール。
データマップを構築するためのトレーニング(トレーニングダイナミクス)中の個々のインスタンスにおけるモデルの振る舞いです。
これにより、モデルの真のクラスに対する信頼度と、エポック全体の信頼度の変化という、それぞれの例に対する直感的な尺度が2つ生まれます。
4つのデータセットにわたる実験により、これらのモデルに依存した測定により、データマップ内の3つの異なる領域が明らかになる。
まず,データマップは,分布の一般化に最も寄与するモデルに関して「曖昧」な領域の存在を示す。
第二に、データの最も人口の多い領域はモデルの"学習が容易"であり、モデルの最適化において重要な役割を果たす。
最後に、データマップは、モデルが"学習しにくい"と判断するインスタンスを持つ領域を明らかにする。
その結果,データ量から品質への焦点シフトはロバストなモデルにつながり,アウトオブディストリビューションの一般化が改善される可能性が示唆された。
関連論文リスト
- Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Exploring the Effects of Data Augmentation for Drivable Area
Segmentation [0.0]
既存の画像データセットを解析することで、データ拡張の利点を調べることに重点を置いている。
以上の結果から,既存技術(SOTA)モデルの性能とロバスト性は劇的に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-06T03:39:37Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - On the Composition and Limitations of Publicly Available COVID-19 X-Ray
Imaging Datasets [0.0]
データ不足、トレーニングとターゲット人口のミスマッチ、グループ不均衡、ドキュメントの欠如は、バイアスの重要な原因である。
本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
論文 参考訳(メタデータ) (2020-08-26T14:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。