論文の概要: Comprehensive Benchmarking of Entropy and Margin Based Scoring Metrics
for Data Selection
- arxiv url: http://arxiv.org/abs/2311.16302v1
- Date: Mon, 27 Nov 2023 20:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:02:31.034496
- Title: Comprehensive Benchmarking of Entropy and Margin Based Scoring Metrics
for Data Selection
- Title(参考訳): データ選択のためのエントロピーとマージンに基づくスコーリングメトリクスの総合ベンチマーク
- Authors: Anusha Sabbineni and Nikhil Anand and Maria Minakova
- Abstract要約: 我々は,「有用性」や「難易度」について,将来的なトレーニング事例を評価する方法を提案する。
主にエントロピーとError L2-Norm(EL2N)のスコアを実験した。
次に、これらの非同定データセットを用いてトレーニングデータ拡張実験を行い、スコアベースの選択が、ランダム選択のベースライン技術と比較して、意味的誤り率2%、ドメイン分類エラー率4%-7%の減少をもたらすことを示した。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While data selection methods have been studied extensively in active
learning, data pruning, and data augmentation settings, there is little
evidence for the efficacy of these methods in industry scale settings,
particularly in low-resource languages. Our work presents ways of assessing
prospective training examples in those settings for their "usefulness" or
"difficulty". We also demonstrate how these measures can be used in selecting
important examples for training supervised machine learning models. We
primarily experiment with entropy and Error L2-Norm (EL2N) scores. We use these
metrics to curate high quality datasets from a large pool of \textit{Weak
Signal Labeled} data, which assigns no-defect high confidence hypotheses during
inference as ground truth labels. We then conduct training data augmentation
experiments using these de-identified datasets and demonstrate that score-based
selection can result in a 2% decrease in semantic error rate and 4%-7% decrease
in domain classification error rate when compared to the baseline technique of
random selection.
- Abstract(参考訳): データ選択法は、アクティブラーニング、データプルーニング、データ拡張設定で広く研究されてきたが、業界規模、特に低リソース言語において、これらの方法の有効性を示す証拠はほとんどない。
本研究は,これらの場面における「使い勝手」や「ディフューチャリティ」の予測訓練例を評価する方法を提案する。
また,教師付き機械学習モデルのトレーニングにおける重要な例を選択する上で,これらの尺度をどのように利用できるかを示す。
主にエントロピーとエラーL2-Norm(EL2N)のスコアを実験した。
提案手法は,提案手法を用いて,大容量のtextit{Weak Signal Labeled} データから高品質なデータセットを算出し,推論中に不完全な高信頼仮説を基底真理ラベルとして割り当てる。
次に,これらの非同定データセットを用いた訓練データ拡張実験を行い,スコアに基づく選択は,ランダム選択のベースライン手法と比較して,意味的誤り率2%,ドメイン分類誤り率4%-7%の低下をもたらすことを実証した。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Improve Cost Efficiency of Active Learning over Noisy Dataset [1.3846014191157405]
本稿では,正のインスタンスの取得が負のインスタンスに比べて著しくコストがかかる二項分類の事例について考察する。
本研究では,典型的な不確実性サンプリングよりも広い範囲からサンプルをサンプリングする正規分布サンプリング関数を提案する。
我々のシミュレーションは,提案したサンプリング関数がノイズと正のラベル選択を制限し,20%から32%のコスト効率が異なるテストデータセットよりも向上したことを示している。
論文 参考訳(メタデータ) (2024-03-02T23:53:24Z) - Overcoming Overconfidence for Active Learning [1.2776312584227847]
本稿では,アクティブな学習シナリオで発生する過信の問題に対処する2つの新しい手法を提案する。
1つ目はCross-Mix-and-Mix(CMaM)と呼ばれる拡張戦略で、限られたトレーニング分布を拡張してモデルを校正することを目的としている。
2つ目は Ranked Margin Sampling (RankedMS) という選択戦略である。
論文 参考訳(メタデータ) (2023-08-21T09:04:54Z) - Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T09:18:46Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。