論文の概要: Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics
- arxiv url: http://arxiv.org/abs/2009.10795v2
- Date: Thu, 15 Oct 2020 05:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 22:35:22.963738
- Title: Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics
- Title(参考訳): Dataset Cartography:トレーニングダイナミクスを用いたデータセットのマッピングと診断
- Authors: Swabha Swayamdipta, Roy Schwartz, Nicholas Lourie, Yizhong Wang,
Hannaneh Hajishirzi, Noah A. Smith, Yejin Choi
- Abstract要約: 我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
- 参考スコア(独自算出の注目度): 118.75207687144817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large datasets have become commonplace in NLP research. However, the
increased emphasis on data quantity has made it challenging to assess the
quality of data. We introduce Data Maps---a model-based tool to characterize
and diagnose datasets. We leverage a largely ignored source of information: the
behavior of the model on individual instances during training (training
dynamics) for building data maps. This yields two intuitive measures for each
example---the model's confidence in the true class, and the variability of this
confidence across epochs---obtained in a single run of training. Experiments
across four datasets show that these model-dependent measures reveal three
distinct regions in the data map, each with pronounced characteristics. First,
our data maps show the presence of "ambiguous" regions with respect to the
model, which contribute the most towards out-of-distribution generalization.
Second, the most populous regions in the data are "easy to learn" for the
model, and play an important role in model optimization. Finally, data maps
uncover a region with instances that the model finds "hard to learn"; these
often correspond to labeling errors. Our results indicate that a shift in focus
from quantity to quality of data could lead to robust models and improved
out-of-distribution generalization.
- Abstract(参考訳): NLP研究では大規模なデータセットが一般的になっている。
しかし,データ量への注目が高まり,データ品質の評価が困難になっている。
データマップ - データセットの特徴付けと診断を行うモデルベースのツール。
データマップを構築するためのトレーニング(トレーニングダイナミクス)中の個々のインスタンスにおけるモデルの振る舞いです。
これにより、モデルの真のクラスに対する信頼度と、エポック全体の信頼度の変化という、それぞれの例に対する直感的な尺度が2つ生まれます。
4つのデータセットにわたる実験により、これらのモデルに依存した測定により、データマップ内の3つの異なる領域が明らかになる。
まず,データマップは,分布の一般化に最も寄与するモデルに関して「曖昧」な領域の存在を示す。
第二に、データの最も人口の多い領域はモデルの"学習が容易"であり、モデルの最適化において重要な役割を果たす。
最後に、データマップは、モデルが"学習しにくい"と判断するインスタンスを持つ領域を明らかにする。
その結果,データ量から品質への焦点シフトはロバストなモデルにつながり,アウトオブディストリビューションの一般化が改善される可能性が示唆された。
関連論文リスト
- Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Automated Text Identification Using CNN and Training Dynamics [0.0]
信頼性,変動性,正当性という3つの次元にまたがるサンプルを特徴付ける。
これは3つの領域の存在を示している: 簡単に学習できる、曖昧で、学習しにくい例である。
あいまいな例のサブセットでのみモデルをトレーニングすることで、モデルのアウト・オブ・ディストリビューションの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-05-18T07:37:17Z) - Model Selection with Model Zoo via Graph Learning [45.30615308692713]
本稿では,グラフ学習問題としてモデル選択を再構成する新しいフレームワークであるTransferGraphを紹介する。
我々は,TransferGraphが本質的なモデル-データセット関係を捕捉し,予測性能と実際の微調整結果との相関性を最大32%向上させる効果を,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-04-05T09:50:00Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - On the Composition and Limitations of Publicly Available COVID-19 X-Ray
Imaging Datasets [0.0]
データ不足、トレーニングとターゲット人口のミスマッチ、グループ不均衡、ドキュメントの欠如は、バイアスの重要な原因である。
本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
論文 参考訳(メタデータ) (2020-08-26T14:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。