論文の概要: Augmenting NER Datasets with LLMs: Towards Automated and Refined Annotation
- arxiv url: http://arxiv.org/abs/2404.01334v1
- Date: Sat, 30 Mar 2024 12:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:06:49.614531
- Title: Augmenting NER Datasets with LLMs: Towards Automated and Refined Annotation
- Title(参考訳): LLMによるNERデータセットの強化:自動および精製アノテーションを目指して
- Authors: Yuji Naraki, Ryosuke Yamaki, Yoshikazu Ikeda, Takafumi Horie, Hiroki Naganuma,
- Abstract要約: 本研究では,Large Language Models(LLMs)の能力と人間の努力を相乗化する,新しいハイブリッドアノテーション手法を提案する。
ラベルミキシング戦略を用いることで、LCMベースのアノテーションで遭遇するクラス不均衡の問題に対処する。
本研究は,LLMを活用してデータセットの品質を向上する可能性を照らし,クラス不均衡を緩和する新しい手法を導入し,高性能なNERを低コストで実現可能であることを示す。
- 参考スコア(独自算出の注目度): 1.6893691730575022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of Natural Language Processing (NLP), Named Entity Recognition (NER) is recognized as a critical technology, employed across a wide array of applications. Traditional methodologies for annotating datasets for NER models are challenged by high costs and variations in dataset quality. This research introduces a novel hybrid annotation approach that synergizes human effort with the capabilities of Large Language Models (LLMs). This approach not only aims to ameliorate the noise inherent in manual annotations, such as omissions, thereby enhancing the performance of NER models, but also achieves this in a cost-effective manner. Additionally, by employing a label mixing strategy, it addresses the issue of class imbalance encountered in LLM-based annotations. Through an analysis across multiple datasets, this method has been consistently shown to provide superior performance compared to traditional annotation methods, even under constrained budget conditions. This study illuminates the potential of leveraging LLMs to improve dataset quality, introduces a novel technique to mitigate class imbalances, and demonstrates the feasibility of achieving high-performance NER in a cost-effective way.
- Abstract(参考訳): 自然言語処理(NLP)の分野では、名前付きエンティティ認識(NER)は、幅広いアプリケーションにまたがる重要な技術として認識されている。
NERモデルのデータセットにアノテートする従来の手法は、データセットの品質の高コストとばらつきによって挑戦されている。
本研究では,Large Language Models (LLMs) の能力と人間の努力を相乗化するための,新しいハイブリッドアノテーション手法を提案する。
このアプローチは、省略などの手動アノテーション固有のノイズを改善することを目的としているだけでなく、NERモデルの性能を向上させるだけでなく、コスト効率のよい方法でも実現している。
さらに、ラベルミキシング戦略を用いることで、LLMベースのアノテーションで遭遇するクラス不均衡の問題に対処する。
複数のデータセットをまたいだ分析により、制約のある予算条件下であっても、従来のアノテーション手法よりも優れた性能が得られることが一貫して示されている。
本研究は,LLMを活用してデータセットの品質を向上する可能性を照らし,クラス不均衡を緩和する新しい手法を導入し,高性能NERを低コストで実現可能であることを示す。
関連論文リスト
- Enhancing Few-Shot Learning with Integrated Data and GAN Model Approaches [35.431340001608476]
本稿では,データ拡張とモデルファインチューニングを融合することで,少数ショット学習を向上するための革新的なアプローチを提案する。
薬物発見、ターゲット認識、悪意のあるトラフィック検出などの分野で、小さなサンプルデータによって引き起こされる課題に対処することを目的としている。
その結果,本研究で開発されたMhERGANアルゴリズムは,数発の学習に極めて有効であることが確認された。
論文 参考訳(メタデータ) (2024-11-25T16:51:11Z) - Skill-LLM: Repurposing General-Purpose LLMs for Skill Extraction [2.5069344340760717]
本稿では,スキル抽出の精度と品質を向上させるために,特殊スキルLLMと軽量モデルの微調整を提案する。
提案手法は既存のSOTA技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-15T20:41:18Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models [25.68491572293656]
大規模言語モデルは、名前付きエンティティ認識のような構造化された知識抽出タスクにおいて不足する。
本稿では,より優れたNERデータセットを生成するため,LCMを質素なNER能力で活用するための革新的で費用効率のよい戦略について検討する。
論文 参考訳(メタデータ) (2024-03-17T06:12:43Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。