論文の概要: EnTDA: Entity-to-Text based Data Augmentation Approach for Named Entity
Recognition Tasks
- arxiv url: http://arxiv.org/abs/2210.10343v1
- Date: Wed, 19 Oct 2022 07:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:51:23.626822
- Title: EnTDA: Entity-to-Text based Data Augmentation Approach for Named Entity
Recognition Tasks
- Title(参考訳): EnTDA: 名前付きエンティティ認識タスクのためのEntity-to-Textベースのデータ拡張アプローチ
- Authors: Xuming Hu, Yong Jiang, Aiwei Liu, Zhongqiang Huang, Pengjun Xie, Fei
Huang, Lijie Wen, Philip S. Yu
- Abstract要約: 本研究では,テキスト・トゥ・エンタリティに基づくデータ拡張手法であるEnTDAを用いて,エンティティ・トゥ・テキストを開発する。
拡張データの多様性を高めるために、ダイバーシティビームサーチを導入する。
- 参考スコア(独自算出の注目度): 96.52649319569535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation techniques have been used to improve the generalization
capability of models in the named entity recognition (NER) tasks. Existing
augmentation methods either manipulate the words in the original text that
require hand-crafted in-domain knowledge, or leverage generative models which
solicit dependency order among entities. To alleviate the excessive reliance on
the dependency order among entities in existing augmentation paradigms, we
develop an entity-to-text instead of text-to-entity based data augmentation
method named: EnTDA to decouple the dependencies between entities by adding,
deleting, replacing and swapping entities, and adopt these augmented data to
bootstrap the generalization ability of the NER model. Furthermore, we
introduce a diversity beam search to increase the diversity of the augmented
data. Experiments on thirteen NER datasets across three tasks (flat NER, nested
NER, and discontinuous NER) and two settings (full data NER and low resource
NER) show that EnTDA could consistently outperform the baselines.
- Abstract(参考訳): データ拡張技術は、名前付きエンティティ認識(NER)タスクにおけるモデルの一般化能力を改善するために使われてきた。
既存の拡張手法は、手作りのドメイン内知識を必要とする原文で単語を操作するか、エンティティ間の依存関係の順序を求める生成モデルを活用する。
既存の拡張パラダイムにおけるエンティティ間の依存関係順序への過度な依存を軽減するため、エンティティ間の依存関係を分離するために、エンティティの追加、削除、置換、交換を行い、それらの拡張データを用いて、NERモデルの一般化能力をブートストラップする。
さらに,拡張データの多様性を高めるために,ダイバーシティビーム探索を導入する。
13のNERデータセット(フラットなNER、ネストされたNER、不連続なNER)と2つの設定(フルデータNERと低リソースのNER)による実験は、EnTDAがベースラインを一貫して上回ることを示した。
関連論文リスト
- Leveraging large language models for efficient representation learning for entity resolution [2.035773073690598]
TriBERTaは、エンティティマッチングのための表現を学習する教師付きエンティティ解決システムである。
提案手法は最先端の表現を3~19%のマージンで上回る。
論文 参考訳(メタデータ) (2024-11-15T23:24:07Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Hypertext Entity Extraction in Webpage [112.56734676713721]
textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。
また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
論文 参考訳(メタデータ) (2024-03-04T03:21:40Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-26T06:21:01Z) - Entity Aware Syntax Tree Based Data Augmentation for Natural Language
Understanding [5.02493891738617]
本研究では,木構造,エンティティ・アウェア・シンタクス・ツリー (EAST) を応用した新しいNLPデータ拡張手法を提案する。
我々のEADA技術は、少量の注釈付きデータからEASTを自動的に構築し、インテント検出とスロットフィリングのための多数のトレーニングインスタンスを生成する。
4つのデータセットに対する実験結果から,提案手法は,精度と一般化能力の両方の観点から,既存のデータ拡張手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-09-06T07:34:10Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z) - Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations [12.394777121890925]
本稿では、過去のデータセット作成の取り組みを再考し、大幅に拡張する。
拡張版では、複数のドキュメントタスクにもっと代表的なテキストを使用し、より大きく、より多様なトレーニングセットを提供しています。
論文 参考訳(メタデータ) (2021-10-09T09:15:05Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。