論文の概要: A Survey of Methods for Addressing Class Imbalance in Deep-Learning
Based Natural Language Processing
- arxiv url: http://arxiv.org/abs/2210.04675v1
- Date: Mon, 10 Oct 2022 13:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:40:57.055885
- Title: A Survey of Methods for Addressing Class Imbalance in Deep-Learning
Based Natural Language Processing
- Title(参考訳): ディープラーニングに基づく自然言語処理におけるクラス不均衡解消手法の検討
- Authors: Sophie Henning, William H. Beluch, Alexander Fraser, Annemarie
Friedrich
- Abstract要約: 非バランスなデータを扱うNLP研究者や実践者に対してガイダンスを提供する。
まず、制御および実世界のクラス不均衡の様々なタイプについて論じる。
サンプリング,データ拡張,損失関数の選択,ステージ学習,モデル設計に基づく手法を整理する。
- 参考スコア(独自算出の注目度): 68.37496795076203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many natural language processing (NLP) tasks are naturally imbalanced, as
some target categories occur much more frequently than others in the real
world. In such scenarios, current NLP models still tend to perform poorly on
less frequent classes. Addressing class imbalance in NLP is an active research
topic, yet, finding a good approach for a particular task and imbalance
scenario is difficult.
With this survey, the first overview on class imbalance in deep-learning
based NLP, we provide guidance for NLP researchers and practitioners dealing
with imbalanced data. We first discuss various types of controlled and
real-world class imbalance. Our survey then covers approaches that have been
explicitly proposed for class-imbalanced NLP tasks or, originating in the
computer vision community, have been evaluated on them. We organize the methods
by whether they are based on sampling, data augmentation, choice of loss
function, staged learning, or model design. Finally, we discuss open problems
such as dealing with multi-label scenarios, and propose systematic benchmarking
and reporting in order to move forward on this problem as a community.
- Abstract(参考訳): 多くの自然言語処理(NLP)タスクは、現実世界の他のタスクよりもはるかに頻繁に発生するため、自然に不均衡である。
このようなシナリオでは、現在のNLPモデルは、あまり頻度の低いクラスではパフォーマンスが良くない傾向にある。
NLPにおけるクラス不均衡に対処することは活発な研究課題であるが、特定のタスクに適したアプローチを見つけることは困難である。
本調査では,深層学習に基づくNLPにおける授業不均衡に関する第1報として,NLPの研究者や実践者が不均衡データを扱うためのガイダンスを提供する。
まず,様々な種類の制御型および実世界のクラス不均衡について論じる。
そこで本研究では,NLPタスクのクラス不均衡化や,コンピュータビジョンコミュニティを起源とする手法について検討した。
提案手法は,サンプリング,データ拡張,損失関数の選択,段階学習,モデル設計に基づいて構成する。
最後に,マルチラベルシナリオを扱うようなオープンな問題について議論し,この問題をコミュニティとして前進させるために,体系的なベンチマークとレポートを提案する。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.01588131136101]
大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。
イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。
GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
論文 参考訳(メタデータ) (2023-09-27T13:02:06Z) - Uncertainty in Natural Language Processing: Sources, Quantification, and
Applications [56.130945359053776]
NLP分野における不確実性関連作業の総合的なレビューを行う。
まず、自然言語の不確実性の原因を、入力、システム、出力の3つのタイプに分類する。
我々は,NLPにおける不確実性推定の課題について論じ,今後の方向性について論じる。
論文 参考訳(メタデータ) (2023-06-05T06:46:53Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Adaptive Ranking-based Sample Selection for Weakly Supervised
Class-imbalanced Text Classification [4.151073288078749]
本稿では、適応ランク付けに基づくサンプル選択(ARS2)を提案し、弱い監視(WS)パラダイムにおけるデータ不均衡問題を緩和する。
ARS2は、現在のモデルの出力に基づいて確率的マージンスコアを算出し、各データポイントの清潔度を測定し、ランク付けする。
実験の結果、ARS2は最先端の非バランスな学習方法やWSメソッドよりも優れており、F1スコアの2%-57.8%の改善につながった。
論文 参考訳(メタデータ) (2022-10-06T17:49:22Z) - Class-Imbalanced Complementary-Label Learning via Weighted Loss [8.934943507699131]
補完ラベル学習(Complementary-label Learning, CLL)は、弱い教師付き分類において広く用いられている。
クラス不均衡のトレーニングサンプルに直面すると、現実世界のデータセットでは大きな課題に直面します。
多クラス分類のためのクラス不均衡補完ラベルからの学習を可能にする新しい問題設定を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:02:42Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Fairness-aware Class Imbalanced Learning [57.45784950421179]
つぶやきの感情と職業分類のロングテール学習手法を評価する。
フェアネスを強制する手法により、マージンロスに基づくアプローチを拡張します。
論文 参考訳(メタデータ) (2021-09-21T22:16:30Z) - Low-Resource Adaptation of Neural NLP Models [0.30458514384586405]
本論文は,情報抽出と自然言語理解における低リソースシナリオを扱う手法について考察する。
ニューラルNLPモデルを開発し,学習データを最小限にしたNLPタスクに関する多くの研究課題を探索する。
論文 参考訳(メタデータ) (2020-11-09T12:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。