論文の概要: Adaptive Ranking-based Sample Selection for Weakly Supervised
Class-imbalanced Text Classification
- arxiv url: http://arxiv.org/abs/2210.03092v2
- Date: Fri, 7 Oct 2022 15:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 10:20:47.197507
- Title: Adaptive Ranking-based Sample Selection for Weakly Supervised
Class-imbalanced Text Classification
- Title(参考訳): 弱教師付きクラス不均衡テキスト分類のための適応的ランキングに基づくサンプル選択
- Authors: Linxin Song, Jieyu Zhang, Tianxiang Yang, Masayuki Goto
- Abstract要約: 本稿では、適応ランク付けに基づくサンプル選択(ARS2)を提案し、弱い監視(WS)パラダイムにおけるデータ不均衡問題を緩和する。
ARS2は、現在のモデルの出力に基づいて確率的マージンスコアを算出し、各データポイントの清潔度を測定し、ランク付けする。
実験の結果、ARS2は最先端の非バランスな学習方法やWSメソッドよりも優れており、F1スコアの2%-57.8%の改善につながった。
- 参考スコア(独自算出の注目度): 4.151073288078749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To obtain a large amount of training labels inexpensively, researchers have
recently adopted the weak supervision (WS) paradigm, which leverages labeling
rules to synthesize training labels rather than using individual annotations to
achieve competitive results for natural language processing (NLP) tasks.
However, data imbalance is often overlooked in applying the WS paradigm,
despite being a common issue in a variety of NLP tasks. To address this
challenge, we propose Adaptive Ranking-based Sample Selection (ARS2), a
model-agnostic framework to alleviate the data imbalance issue in the WS
paradigm. Specifically, it calculates a probabilistic margin score based on the
output of the current model to measure and rank the cleanliness of each data
point. Then, the ranked data are sampled based on both class-wise and
rule-aware ranking. In particular, the two sample strategies corresponds to our
motivations: (1) to train the model with balanced data batches to reduce the
data imbalance issue and (2) to exploit the expertise of each labeling rule for
collecting clean samples. Experiments on four text classification datasets with
four different imbalance ratios show that ARS2 outperformed the
state-of-the-art imbalanced learning and WS methods, leading to a 2%-57.8%
improvement on their F1-score.
- Abstract(参考訳): 大量のトレーニングラベルを安価に得るために、研究者らは最近、自然言語処理(nlp)タスクの競争結果を達成するために個別のアノテーションを使うのではなく、トレーニングラベルを合成するためにラベル規則を利用する弱い監督(ws)パラダイムを採用した。
しかし、様々なNLPタスクでよくある問題であるにもかかわらず、WSパラダイムを適用する際にデータ不均衡がしばしば見過ごされる。
この課題に対処するために、WSパラダイムにおけるデータ不均衡問題を緩和するモデルに依存しないフレームワークであるAdaptive Ranking-based Sample Selection (ARS2)を提案する。
具体的には、現在のモデルの出力に基づいて確率的マージンスコアを算出し、各データポイントの清潔度を測定しランク付けする。
そして、クラス別およびルール対応のランキングに基づいてランキングデータをサンプリングする。
特に2つのサンプル戦略は,(1)バランスのとれたデータバッチでモデルを訓練し,データの不均衡問題を軽減し,(2)クリーンなサンプルを集めるためのラベル付けルールの専門知識を活用する,というモチベーションに対応している。
4つの異なる不均衡比を持つ4つのテキスト分類データセットの実験は、ARS2が最先端の不均衡学習とWSメソッドより優れており、F1スコアの2%-57.8%改善につながったことを示している。
関連論文リスト
- Conformal-in-the-Loop for Learning with Imbalanced Noisy Data [5.69777817429044]
大規模なデータセットでは、クラス不均衡とラベルノイズが広まっています。
機械学習の研究の多くは、よくラベル付けされたバランスの取れたデータを前提としている。
コンフォーマル・イン・ザ・ループ(Conformal-in-the-Loop, CitL)は,コンフォーマルな予測に基づく手法を用いて,両課題に対処する新しいトレーニングフレームワークである。
論文 参考訳(メタデータ) (2024-11-04T17:09:58Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Debiased Sample Selection for Combating Noisy Labels [24.296451733127956]
サンプル選択におけるバイアス学習のためのnoIse-Tolerant Expert Model (ITEM)を提案する。
具体的には、トレーニングバイアスを軽減するために、複数の専門家と統合した堅牢なネットワークアーキテクチャを設計します。
2つのクラス識別型ミニバッチの混合によるトレーニングにより、モデルが不均衡なトレーニングセットの効果を緩和する。
論文 参考訳(メタデータ) (2024-01-24T10:37:28Z) - Twice Class Bias Correction for Imbalanced Semi-Supervised Learning [59.90429949214134]
textbfTwice textbfClass textbfBias textbfCorrection (textbfTCBC) と呼ばれる新しいアプローチを導入する。
トレーニング過程におけるモデルパラメータのクラスバイアスを推定する。
非ラベル標本に対してモデルの擬似ラベルに二次補正を適用する。
論文 参考訳(メタデータ) (2023-12-27T15:06:36Z) - Bias Amplification Enhances Minority Group Performance [10.380812738348899]
本稿では,新しい2段階学習アルゴリズムであるBAMを提案する。
第1段階では、各トレーニングサンプルに対して学習可能な補助変数を導入することにより、バイアス増幅方式を用いてモデルを訓練する。
第2段階では、バイアス増幅モデルが誤分類したサンプルを重み付けし、その後、再重み付けされたデータセット上で同じモデルをトレーニングし続けます。
論文 参考訳(メタデータ) (2023-09-13T04:40:08Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。