Fugu-MT 論文翻訳(概要): Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics

論文の概要: Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics

arxiv url: http://arxiv.org/abs/2009.10795v2
Date: Thu, 15 Oct 2020 05:53:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-15 22:35:22.963738
Title: Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics
Title（参考訳）: Dataset Cartography:トレーニングダイナミクスを用いたデータセットのマッピングと診断
Authors: Swabha Swayamdipta, Roy Schwartz, Nicholas Lourie, Yizhong Wang, Hannaneh Hajishirzi, Noah A. Smith, Yejin Choi
Abstract要約: 我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
参考スコア（独自算出の注目度）: 118.75207687144817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large datasets have become commonplace in NLP research. However, the increased emphasis on data quantity has made it challenging to assess the quality of data. We introduce Data Maps---a model-based tool to characterize and diagnose datasets. We leverage a largely ignored source of information: the behavior of the model on individual instances during training (training dynamics) for building data maps. This yields two intuitive measures for each example---the model's confidence in the true class, and the variability of this confidence across epochs---obtained in a single run of training. Experiments across four datasets show that these model-dependent measures reveal three distinct regions in the data map, each with pronounced characteristics. First, our data maps show the presence of "ambiguous" regions with respect to the model, which contribute the most towards out-of-distribution generalization. Second, the most populous regions in the data are "easy to learn" for the model, and play an important role in model optimization. Finally, data maps uncover a region with instances that the model finds "hard to learn"; these often correspond to labeling errors. Our results indicate that a shift in focus from quantity to quality of data could lead to robust models and improved out-of-distribution generalization.
Abstract（参考訳）: NLP研究では大規模なデータセットが一般的になっている。しかし,データ量への注目が高まり,データ品質の評価が困難になっている。データマップ - データセットの特徴付けと診断を行うモデルベースのツール。データマップを構築するためのトレーニング(トレーニングダイナミクス)中の個々のインスタンスにおけるモデルの振る舞いです。これにより、モデルの真のクラスに対する信頼度と、エポック全体の信頼度の変化という、それぞれの例に対する直感的な尺度が2つ生まれます。 4つのデータセットにわたる実験により、これらのモデルに依存した測定により、データマップ内の3つの異なる領域が明らかになる。まず,データマップは,分布の一般化に最も寄与するモデルに関して「曖昧」な領域の存在を示す。第二に、データの最も人口の多い領域はモデルの"学習が容易"であり、モデルの最適化において重要な役割を果たす。最後に、データマップは、モデルが"学習しにくい"と判断するインスタンスを持つ領域を明らかにする。その結果,データ量から品質への焦点シフトはロバストなモデルにつながり,アウトオブディストリビューションの一般化が改善される可能性が示唆された。

関連論文リスト

Small-to-Large Generalization: Data Influences Models Consistently Across Scale [76.87199303408161]
小規模および大規模言語モデル予測(一般的には)は、トレーニングデータの選択に非常に相関している。また、データ属性とデータセット選択という2つの下流プロキシモデルアプリケーションにおいて、プロキシスケールが有効性にどのように影響するかを特徴付ける。
論文参考訳（メタデータ） (2025-05-22T05:50:19Z)
Core-Set Selection for Data-efficient Land Cover Segmentation [16.89537279044251]
リモートセンシング画像セグメンテーションデータセットからサンプルの重要なサブセットを選択するための6つの新しいコアセット選択手法を提案する。本手法は,3つの土地被覆分類データセットのランダム選択ベースラインに対して,これらのアプローチをベンチマークする。この結果は,リモートセンシング領域におけるデータ中心学習の重要性と可能性を示している。
論文参考訳（メタデータ） (2025-05-02T12:22:08Z)
Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training [1.3980986259786223]
データセットの多様性が視覚モデルの性能に影響を及ぼすことを示す。本研究は,テストセットの精度とデータの多様性との間に正の相関関係を示す。これらの結果は我々の仮説を支持し、形式的なデータの多様性がモデルの性能にどのように影響するかをより深く探究するための有望な方法を示す。
論文参考訳（メタデータ） (2025-01-15T00:56:59Z)
Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文参考訳（メタデータ） (2024-07-20T17:14:31Z)
Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文参考訳（メタデータ） (2024-05-30T20:10:24Z)
Automated Text Identification Using CNN and Training Dynamics [0.0]
信頼性,変動性,正当性という3つの次元にまたがるサンプルを特徴付ける。これは3つの領域の存在を示している: 簡単に学習できる、曖昧で、学習しにくい例である。あいまいな例のサブセットでのみモデルをトレーニングすることで、モデルのアウト・オブ・ディストリビューションの一般化が向上することがわかった。
論文参考訳（メタデータ） (2024-05-18T07:37:17Z)
Model Selection with Model Zoo via Graph Learning [45.30615308692713]
本稿では,グラフ学習問題としてモデル選択を再構成する新しいフレームワークであるTransferGraphを紹介する。我々は,TransferGraphが本質的なモデル-データセット関係を捕捉し,予測性能と実際の微調整結果との相関性を最大32%向上させる効果を,最先端の手法と比較した。
論文参考訳（メタデータ） (2024-04-05T09:50:00Z)
Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文参考訳（メタデータ） (2023-06-03T20:12:27Z)
CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文参考訳（メタデータ） (2022-05-30T13:34:46Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
On the Composition and Limitations of Publicly Available COVID-19 X-Ray Imaging Datasets [0.0]
データ不足、トレーニングとターゲット人口のミスマッチ、グループ不均衡、ドキュメントの欠如は、バイアスの重要な原因である。本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
論文参考訳（メタデータ） (2020-08-26T14:16:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。