論文の概要: Entity-to-Text based Data Augmentation for various Named Entity
Recognition Tasks
- arxiv url: http://arxiv.org/abs/2210.10343v2
- Date: Fri, 26 May 2023 16:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:37:56.953171
- Title: Entity-to-Text based Data Augmentation for various Named Entity
Recognition Tasks
- Title(参考訳): さまざまな名前付きエンティティ認識タスクのためのエンティティからテキストへのデータ拡張
- Authors: Xuming Hu, Yong Jiang, Aiwei Liu, Zhongqiang Huang, Pengjun Xie, Fei
Huang, Lijie Wen, Philip S. Yu
- Abstract要約: 本稿では,Entity-to-Textベースの新しいデータ拡張手法であるEnTDAを提案する。
テキスト生成過程における多様性を高めるために,多様性ビーム探索を導入する。
- 参考スコア(独自算出の注目度): 96.52649319569535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation techniques have been used to alleviate the problem of
scarce labeled data in various NER tasks (flat, nested, and discontinuous NER
tasks). Existing augmentation techniques either manipulate the words in the
original text that break the semantic coherence of the text, or exploit
generative models that ignore preserving entities in the original text, which
impedes the use of augmentation techniques on nested and discontinuous NER
tasks. In this work, we propose a novel Entity-to-Text based data augmentation
technique named EnTDA to add, delete, replace or swap entities in the entity
list of the original texts, and adopt these augmented entity lists to generate
semantically coherent and entity preserving texts for various NER tasks.
Furthermore, we introduce a diversity beam search to increase the diversity
during the text generation process. Experiments on thirteen NER datasets across
three tasks (flat, nested, and discontinuous NER tasks) and two settings (full
data and low resource settings) show that EnTDA could bring more performance
improvements compared to the baseline augmentation techniques.
- Abstract(参考訳): データ拡張技術は、様々なNERタスク(フラット、ネスト、不連続なNERタスク)におけるラベル付きデータの不足の問題を軽減するために使われてきた。
既存の拡張技法は、テキストの意味的一貫性を損なう原文の単語を操作するか、原文のエンティティを無視する生成モデルを利用するかのどちらかであり、これはネストしたnerタスクや不連続なnerタスクでの拡張技術の使用を妨げる。
本稿では,原文のエンティティリストにおけるエンティティの追加,削除,置換,交換を行うためのentdaと呼ばれる新しいエンティティ間データ拡張手法を提案し,これらの拡張エンティティリストを用いて,様々なnerタスクに対して意味的に一貫性のあるエンティティ保存テキストを生成する。
さらに,テキスト生成過程における多様性を高めるために,多様性ビーム探索を導入する。
3つのタスク(フラット、ネスト、不連続なNERタスク)にわたる13のNERデータセットと2つの設定(フルデータとリソース設定の低い)に対する実験は、EnTDAがベースライン拡張技術よりもパフォーマンスの向上をもたらすことを示している。
関連論文リスト
- Leveraging large language models for efficient representation learning for entity resolution [2.035773073690598]
TriBERTaは、エンティティマッチングのための表現を学習する教師付きエンティティ解決システムである。
提案手法は最先端の表現を3~19%のマージンで上回る。
論文 参考訳(メタデータ) (2024-11-15T23:24:07Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Hypertext Entity Extraction in Webpage [112.56734676713721]
textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。
また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
論文 参考訳(メタデータ) (2024-03-04T03:21:40Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-26T06:21:01Z) - Entity Aware Syntax Tree Based Data Augmentation for Natural Language
Understanding [5.02493891738617]
本研究では,木構造,エンティティ・アウェア・シンタクス・ツリー (EAST) を応用した新しいNLPデータ拡張手法を提案する。
我々のEADA技術は、少量の注釈付きデータからEASTを自動的に構築し、インテント検出とスロットフィリングのための多数のトレーニングインスタンスを生成する。
4つのデータセットに対する実験結果から,提案手法は,精度と一般化能力の両方の観点から,既存のデータ拡張手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-09-06T07:34:10Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z) - Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations [12.394777121890925]
本稿では、過去のデータセット作成の取り組みを再考し、大幅に拡張する。
拡張版では、複数のドキュメントタスクにもっと代表的なテキストを使用し、より大きく、より多様なトレーニングセットを提供しています。
論文 参考訳(メタデータ) (2021-10-09T09:15:05Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。