論文の概要: An Experimental Study on Data Augmentation Techniques for Named Entity Recognition on Low-Resource Domains
- arxiv url: http://arxiv.org/abs/2411.14551v1
- Date: Thu, 21 Nov 2024 19:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:18.676602
- Title: An Experimental Study on Data Augmentation Techniques for Named Entity Recognition on Low-Resource Domains
- Title(参考訳): 低リソース領域における名前付きエンティティ認識のためのデータ拡張手法に関する実験的研究
- Authors: Arthur Elwing Torres, Edleno Silva de Moura, Altigran Soares da Silva, Mario A. Nascimento, Filipe Mesquita,
- Abstract要約: 広範に使われている2つのNERモデル(Bi-LSTM+CRFとBERT)において、メンション・リプレースメントとコンテキスト・ワード・リプレースメントという2つの顕著なテキスト拡張手法の有効性を評価する。
低リソース領域からの4つのデータセットについて実験を行い、トレーニングサブセットサイズと拡張例の数による様々な組み合わせの影響について検討する。
- 参考スコア(独自算出の注目度): 0.9903198600681908
- License:
- Abstract: Named Entity Recognition (NER) is a machine learning task that traditionally relies on supervised learning and annotated data. Acquiring such data is often a challenge, particularly in specialized fields like medical, legal, and financial sectors. Those are commonly referred to as low-resource domains, which comprise long-tail entities, due to the scarcity of available data. To address this, data augmentation techniques are increasingly being employed to generate additional training instances from the original dataset. In this study, we evaluate the effectiveness of two prominent text augmentation techniques, Mention Replacement and Contextual Word Replacement, on two widely-used NER models, Bi-LSTM+CRF and BERT. We conduct experiments on four datasets from low-resource domains, and we explore the impact of various combinations of training subset sizes and number of augmented examples. We not only confirm that data augmentation is particularly beneficial for smaller datasets, but we also demonstrate that there is no universally optimal number of augmented examples, i.e., NER practitioners must experiment with different quantities in order to fine-tune their projects.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、伝統的に教師付き学習と注釈付きデータに依存する機械学習タスクである。
このようなデータを取得することは、特に医療、法律、金融などの専門分野において、しばしば困難である。
これらは一般に、利用可能なデータが不足しているため、ロングテールエンティティで構成される低リソースドメインと呼ばれる。
これを解決するために、元のデータセットから追加のトレーニングインスタンスを生成するために、データ拡張技術がますます採用されている。
本研究では,広く使われている2つのNERモデルであるBi-LSTM+CRFとBERTにおいて,メンション・リプレースメントとコンテクスト・ワード・リプレースメントという2つの顕著なテキスト拡張手法の有効性を評価する。
低リソース領域からの4つのデータセットについて実験を行い、トレーニングサブセットサイズと拡張例の数による様々な組み合わせの影響について検討する。
我々は、データ拡張がより小さなデータセットに特に有益であることを確認するだけでなく、NER実践者はプロジェクトを微調整するために異なる量で実験する必要があるという、普遍的に最適な拡張例が存在しないことも示している。
関連論文リスト
- Generate to Discriminate: Expert Routing for Continual Learning [59.71853576559306]
Generate to Discriminate (G2D) は、合成データを利用してドメイン識別器を訓練する連続学習手法である。
我々は、G2Dが視覚と言語の両方におけるタスクにおいて、競争力のあるドメイン・インクリメンタル・ラーニング手法より優れていることを観察する。
論文 参考訳(メタデータ) (2024-12-22T13:16:28Z) - A Multi-Format Transfer Learning Model for Event Argument Extraction via
Variational Information Bottleneck [68.61583160269664]
イベント引数抽出(EAE)は、テキストから所定の役割を持つ引数を抽出することを目的としている。
変動情報のボトルネックを考慮したマルチフォーマット変換学習モデルを提案する。
3つのベンチマークデータセットに対して広範な実験を行い、EAE上での新たな最先端性能を得る。
論文 参考訳(メタデータ) (2022-08-27T13:52:01Z) - Using Domain Knowledge for Low Resource Named Entity Recognition [2.749726993052939]
低リソース領域における名前付きエンティティ認識の性能向上のためにドメイン知識を利用することを提案する。
提案モデルでは、低リソースで名前付きエンティティ認識を処理しながら、異なるドメインでの大規模データ調整を回避する。
論文 参考訳(メタデータ) (2022-03-28T13:26:47Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - An Analysis of Simple Data Augmentation for Named Entity Recognition [21.013836715832564]
名前付きエンティティ認識のためのデータ拡張の設計と比較を行う。
簡単な拡張により、リカレントモデルとトランスフォーマーモデルの両方のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-10-22T13:21:03Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。