論文の概要: Majority or Minority: Data Imbalance Learning Method for Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2401.11431v3
- Date: Mon, 20 Jan 2025 08:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:11.199511
- Title: Majority or Minority: Data Imbalance Learning Method for Named Entity Recognition
- Title(参考訳): 多数派・少数派:名前付きエンティティ認識のためのデータ不均衡学習法
- Authors: Sota Nemoto, Shunsuke Kitada, Hitoshi Iyatomi,
- Abstract要約: 本稿では,多数派・少数派(MoM)学習という,シンプルで効果的な学習手法を提案する。
MoM学習は、基礎的真理が多数派であるサンプルのみに計算された損失を従来のMLモデルの損失に組み込む。
マイノリティクラスの性能を犠牲にすることなく,MoM学習がマイノリティクラスの予測性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 4.062316786853382
- License:
- Abstract: Data imbalance presents a significant challenge in various machine learning (ML) tasks, particularly named entity recognition (NER) within natural language processing (NLP). NER exhibits a data imbalance with a long-tail distribution, featuring numerous minority classes (i.e., entity classes) and a single majority class (i.e., O-class). This imbalance leads to misclassifications of the entity classes as the O-class. To tackle this issue, we propose a simple and effective learning method named majority or minority (MoM) learning. MoM learning incorporates the loss computed only for samples whose ground truth is the majority class into the loss of the conventional ML model. Evaluation experiments on four NER datasets (Japanese and English) showed that MoM learning improves prediction performance of the minority classes without sacrificing the performance of the majority class and is more effective than widely known and state-of-the-art methods. We also evaluated MoM learning using frameworks as sequential labeling and machine reading comprehension, which are commonly used in NER. Furthermore, MoM learning has achieved consistent performance improvements regardless of language or framework.
- Abstract(参考訳): データ不均衡は、機械学習(ML)タスク、特に自然言語処理(NLP)におけるエンティティ認識(NER)において重要な課題となる。
NERは、多数のマイノリティクラス(エンティティクラス)と1つのマジョリティクラス(Oクラス)を特徴とする、長いテール分布とデータ不均衡を示す。
この不均衡は、Oクラスとしてエンティティクラスを誤って分類する。
この問題に対処するために,多数派あるいは少数派(MoM)学習という,シンプルで効果的な学習手法を提案する。
MoM学習は、基礎的真理が多数派であるサンプルのみに計算された損失を従来のMLモデルの損失に組み込む。
4つのNERデータセット(日本語と英語)に対する評価実験により,MoM学習は多数派のパフォーマンスを犠牲にすることなくマイノリティクラスの予測性能を向上し,最先端の手法よりも有効であることが示された。
また,NERで一般的に使用されるシーケンシャルラベリングや機械読影理解として,フレームワークを用いたMoM学習の評価を行った。
さらに、MoM学習は言語やフレームワークに関わらず、一貫したパフォーマンス向上を実現している。
関連論文リスト
- CLLMFS: A Contrastive Learning enhanced Large Language Model Framework for Few-Shot Named Entity Recognition [3.695767900907561]
CLLMFSは、Few-Shot Named Entity RecognitionのためのContrastive LearningEnhanced Large Language Modelフレームワークである。
Low-Rank Adaptation (LoRA)と、数発のNER用に特別に調整された対照的な学習メカニズムを統合している。
提案手法は,F1スコアの現行性能を2.58%から97.74%まで向上させた。
論文 参考訳(メタデータ) (2024-08-23T04:44:05Z) - Exploring Vacant Classes in Label-Skewed Federated Learning [113.65301899666645]
クライアント間の局所的なラベル分布の相違を特徴とするラベルスキューは、連合学習において大きな課題となる。
本稿では, ラベルスキュード・フェデレート学習における新しい手法であるFedVLSについて紹介する。
論文 参考訳(メタデータ) (2024-01-04T16:06:31Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Discrimination and Class Imbalance Aware Online Naive Bayes [5.065947993017157]
ストリーム学習アルゴリズムは、人間を重要な意思決定ポイントで置き換えるために使用される。
近年の識別認識学習法は総合的精度に基づいて最適化されている。
本研究では,ストリームに埋め込まれた識別を緩和するために,Na"ive Bayes"の新たな適応を提案する。
論文 参考訳(メタデータ) (2022-11-09T11:20:19Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Class-Wise Difficulty-Balanced Loss for Solving Class-Imbalance [6.875312133832079]
そこで本研究では,クラスワイド・バランサード・ロスと呼ばれる新しい損失関数を提案する。
サンプルが属するクラスの難易度に応じて、各サンプルに動的に重みを分配する。
その結果、CDB損失はクラス不均衡データセットにおける最近提案された損失関数よりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-10-05T07:19:19Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。