論文の概要: Metadata Archaeology: Unearthing Data Subsets by Leveraging Training
Dynamics
- arxiv url: http://arxiv.org/abs/2209.10015v1
- Date: Tue, 20 Sep 2022 21:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:23:19.481669
- Title: Metadata Archaeology: Unearthing Data Subsets by Leveraging Training
Dynamics
- Title(参考訳): メタデータ考古学: トレーニングダイナミクスを活用したデータサブセットの発掘
- Authors: Shoaib Ahmed Siddiqui, Nitarshan Rajkumar, Tegan Maharaj, David
Krueger, Sara Hooker
- Abstract要約: メタデータ考古学のための統一的で効率的なフレームワークを提供することに注力する。
データセットに存在する可能性のあるデータのさまざまなサブセットをキュレートします。
これらのプローブスイート間の学習力学の相違を利用して、関心のメタデータを推測する。
- 参考スコア(独自算出の注目度): 3.9627732117855414
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern machine learning research relies on relatively few carefully curated
datasets. Even in these datasets, and typically in `untidy' or raw data,
practitioners are faced with significant issues of data quality and diversity
which can be prohibitively labor intensive to address. Existing methods for
dealing with these challenges tend to make strong assumptions about the
particular issues at play, and often require a priori knowledge or metadata
such as domain labels. Our work is orthogonal to these methods: we instead
focus on providing a unified and efficient framework for Metadata Archaeology
-- uncovering and inferring metadata of examples in a dataset. We curate
different subsets of data that might exist in a dataset (e.g. mislabeled,
atypical, or out-of-distribution examples) using simple transformations, and
leverage differences in learning dynamics between these probe suites to infer
metadata of interest. Our method is on par with far more sophisticated
mitigation methods across different tasks: identifying and correcting
mislabeled examples, classifying minority-group samples, prioritizing points
relevant for training and enabling scalable human auditing of relevant
examples.
- Abstract(参考訳): 現代の機械学習の研究は、比較的慎重にキュレートされたデータセットに頼っている。
これらのデータセットでさえも、通常 ‘untidy’ や raw data では、実践者はデータ品質と多様性の重大な問題に直面しており、それは強制的に対処しなければならない。
これらの課題に対処する既存の方法は、特定の問題に対して強い前提を定め、ドメインラベルのような事前知識やメタデータを必要とすることが多い。
代わりに、メタデータ考古学のための統一的で効率的なフレームワーク -- データセットのサンプルのメタデータを発見して推論する -- を提供することに重点を置いています。
データセットに存在する可能性のあるデータの異なるサブセット(例えば、誤ったラベル付き、非定型的、あるいは分散的例)を単純な変換を使ってキュレートし、これらのプローブスイート間の学習ダイナミクスの違いを利用して、関心のあるメタデータを推測します。
提案手法は, ミスラベル付きサンプルの識別と修正, マイノリティグループサンプルの分類, トレーニングに関連するポイントの優先順位付け, 関連事例のスケーラブルな人間監査の実現など, さまざまなタスクにわたる高度な緩和手法と同等である。
関連論文リスト
- Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - Improve Meta-learning for Few-Shot Text Classification with All You Can Acquire from the Tasks [10.556477506959888]
既存の手法は、しばしばサポートセットのサンプルから正確なクラスプロトタイプを描くのに困難に遭遇する。
近年のアプローチでは、外部知識や事前訓練された言語モデルを組み込んでデータを拡張しようとするが、追加のリソースが必要になる。
本稿では,タスク自体の情報を適切に活用した新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-14T12:47:11Z) - What is different between these datasets? [23.271594219577185]
同じドメイン内の2つの同等のデータセットは、異なる分布を持つ可能性がある。
本稿では,2つのデータセットを比較するための解釈可能な手法(ツールボックス)を提案する。
我々の手法は、説明品質と正確性の観点から比較および関連するアプローチよりも優れているだけでなく、データセットの違いを効果的に理解し軽減するための実用的な補完的な洞察を提供する。
論文 参考訳(メタデータ) (2024-03-08T19:52:39Z) - Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - BAMLD: Bayesian Active Meta-Learning by Disagreement [39.59987601426039]
本稿では,メタトレーニングタスクのラベル付け要求数を削減するための情報理論アクティブタスク選択機構を提案する。
本稿では,既存の取得メカニズムと比較した実験結果について報告する。
論文 参考訳(メタデータ) (2021-10-19T13:06:51Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - On Cross-Dataset Generalization in Automatic Detection of Online Abuse [7.163723138100273]
Wikipedia Detoxデータセットの良質な例は、プラットフォーム固有のトピックに偏っていることを示す。
教師なしトピックモデリングとトピックのキーワードの手動検査を用いてこれらの例を同定する。
頑健なデータセット設計のために、収集したデータを検査し、一般化不可能なコンテンツを小さくするために、安価な教師なし手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-10-14T21:47:03Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。