論文の概要: On the Importance of Adaptive Data Collection for Extremely Imbalanced
Pairwise Tasks
- arxiv url: http://arxiv.org/abs/2010.05103v1
- Date: Sat, 10 Oct 2020 21:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 22:37:36.090079
- Title: On the Importance of Adaptive Data Collection for Extremely Imbalanced
Pairwise Tasks
- Title(参考訳): 極不均衡課題に対する適応データ収集の重要性について
- Authors: Stephen Mussmann, Robin Jia, Percy Liang
- Abstract要約: 我々は、QQPとWikiQAでトレーニングされた最先端技術モデルが、現実的に不均衡なテストデータで評価された場合、それぞれ平均精度が2.4%しか持たないことを示した。
より有益なネガティブな例でバランスのとれたトレーニングデータを作成することで、アクティブラーニングは平均精度をQQPで32.5%、WikiQAで20.1%に大幅に改善する。
- 参考スコア(独自算出の注目度): 94.23884467360521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many pairwise classification tasks, such as paraphrase detection and
open-domain question answering, naturally have extreme label imbalance (e.g.,
$99.99\%$ of examples are negatives). In contrast, many recent datasets
heuristically choose examples to ensure label balance. We show that these
heuristics lead to trained models that generalize poorly: State-of-the art
models trained on QQP and WikiQA each have only $2.4\%$ average precision when
evaluated on realistically imbalanced test data. We instead collect training
data with active learning, using a BERT-based embedding model to efficiently
retrieve uncertain points from a very large pool of unlabeled utterance pairs.
By creating balanced training data with more informative negative examples,
active learning greatly improves average precision to $32.5\%$ on QQP and
$20.1\%$ on WikiQA.
- Abstract(参考訳): パラフレーズ検出やオープンドメイン質問応答のような多くのペアワイズ分類タスクは、当然極端にラベルの不均衡を持つ(例の99.99\%$は負である)。
対照的に、最近のデータセットの多くはラベルバランスを確保するために例をヒューリスティックに選択している。
QQPとWikiQAでトレーニングされた最先端のモデルはそれぞれ、現実的に不均衡なテストデータで評価された場合の平均精度が2.4\%しかありません。
その代わりに、BERTベースの埋め込みモデルを用いて、活発な学習でトレーニングデータを収集し、ラベルなし発話対の非常に大きなプールから不確実点を効率的に検索する。
より有益なネガティブな例でバランスの取れたトレーニングデータを作成することで、アクティブラーニングは平均精度をQQPで32.5\%、WikiQAで20.1\%に大幅に改善する。
関連論文リスト
- Conformal-in-the-Loop for Learning with Imbalanced Noisy Data [5.69777817429044]
大規模なデータセットでは、クラス不均衡とラベルノイズが広まっています。
機械学習の研究の多くは、よくラベル付けされたバランスの取れたデータを前提としている。
コンフォーマル・イン・ザ・ループ(Conformal-in-the-Loop, CitL)は,コンフォーマルな予測に基づく手法を用いて,両課題に対処する新しいトレーニングフレームワークである。
論文 参考訳(メタデータ) (2024-11-04T17:09:58Z) - Learning in the Wild: Towards Leveraging Unlabeled Data for Effectively
Tuning Pre-trained Code Models [38.7352992942213]
我々は,大規模な未ラベルデータセットを用いた事前学習型コードモデルを改善するために,HINTという新しいアプローチを提案する。
HINTには、HybrId擬似ラベル付きデータ選択とノイズ耐性トレーニングの2つの主要なモジュールが含まれている。
実験の結果、HINTはタスク固有の方法でラベル付けされていないデータをうまく活用できることがわかった。
論文 参考訳(メタデータ) (2024-01-02T06:39:00Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Adaptive Ranking-based Sample Selection for Weakly Supervised
Class-imbalanced Text Classification [4.151073288078749]
本稿では、適応ランク付けに基づくサンプル選択(ARS2)を提案し、弱い監視(WS)パラダイムにおけるデータ不均衡問題を緩和する。
ARS2は、現在のモデルの出力に基づいて確率的マージンスコアを算出し、各データポイントの清潔度を測定し、ランク付けする。
実験の結果、ARS2は最先端の非バランスな学習方法やWSメソッドよりも優れており、F1スコアの2%-57.8%の改善につながった。
論文 参考訳(メタデータ) (2022-10-06T17:49:22Z) - BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced
Datasets [14.739359755029353]
現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベルなしデータセットの両方で、各クラスで利用可能なデータポイントの数の間のバランスを前提としている。
本研究では,サブモジュール相互情報(SMI)関数をクラスごとに最適化し,アクティブな学習ループにおけるバランスの取れたデータセットを徐々に選択するアルゴリズムであるBASILを提案する。
論文 参考訳(メタデータ) (2022-03-10T21:34:08Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Active learning for online training in imbalanced data streams under
cold start [0.8155575318208631]
本稿では,クラス不均衡の桁数を持つデータセットに対するアクティブラーニング(AL)アノテーションシステムを提案する。
本稿では,計算効率のよい Outlier-based Discriminative AL approach (ODAL) を提案する。
その結果,提案手法は標準ALポリシーよりも高速に高性能なモデルに到達できることが示唆された。
論文 参考訳(メタデータ) (2021-07-16T06:49:20Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。