論文の概要: Entity Aware Syntax Tree Based Data Augmentation for Natural Language
Understanding
- arxiv url: http://arxiv.org/abs/2209.02267v1
- Date: Tue, 6 Sep 2022 07:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:21:19.336643
- Title: Entity Aware Syntax Tree Based Data Augmentation for Natural Language
Understanding
- Title(参考訳): 自然言語理解のためのEntity Aware Syntax Treeに基づくデータ拡張
- Authors: Jiaxing Xu, Jianbin Cui, Jiangneng Li, Wenge Rong and Noboru Matsuda
- Abstract要約: 本研究では,木構造,エンティティ・アウェア・シンタクス・ツリー (EAST) を応用した新しいNLPデータ拡張手法を提案する。
我々のEADA技術は、少量の注釈付きデータからEASTを自動的に構築し、インテント検出とスロットフィリングのための多数のトレーニングインスタンスを生成する。
4つのデータセットに対する実験結果から,提案手法は,精度と一般化能力の両方の観点から,既存のデータ拡張手法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 5.02493891738617
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding the intention of the users and recognizing the semantic
entities from their sentences, aka natural language understanding (NLU), is the
upstream task of many natural language processing tasks. One of the main
challenges is to collect a sufficient amount of annotated data to train a
model. Existing research about text augmentation does not abundantly consider
entity and thus performs badly for NLU tasks. To solve this problem, we propose
a novel NLP data augmentation technique, Entity Aware Data Augmentation (EADA),
which applies a tree structure, Entity Aware Syntax Tree (EAST), to represent
sentences combined with attention on the entity. Our EADA technique
automatically constructs an EAST from a small amount of annotated data, and
then generates a large number of training instances for intent detection and
slot filling. Experimental results on four datasets showed that the proposed
technique significantly outperforms the existing data augmentation methods in
terms of both accuracy and generalization ability.
- Abstract(参考訳): ユーザの意図を理解し、文から意味的エンティティを認識することは、自然言語理解(nlu)と呼ばれ、多くの自然言語処理タスクの上流タスクである。
主な課題のひとつは、モデルのトレーニングに十分な量の注釈データを集めることだ。
テキスト増補に関する既存の研究は、エンティティを十分に考慮していないため、NLUタスクに悪影響を及ぼす。
この問題を解決するために,木構造を適用した新しいNLPデータ拡張手法であるEntity Aware Data Augmentation (EADA) ,Entity Aware Syntax Tree (EAST) を提案する。
我々のEADA技術は、少量の注釈付きデータからEASTを自動的に構築し、インテント検出とスロットフィリングのための多数のトレーニングインスタンスを生成する。
4つのデータセットの実験結果から,提案手法は,精度と一般化能力の両方の観点から,既存のデータ拡張手法よりも有意に優れていた。
関連論文リスト
- Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension [4.164728134421114]
Referring Expression(REC)は、自然言語表現によってシーン内の特定のオブジェクトを識別することを目的としており、視覚言語理解において重要なトピックである。
このタスクの最先端のメソッドは、一般的に高価で手動でラベル付けされたアノテーションを必要とするディープラーニングに基づいている。
テキストと視覚の両方を考慮したRECタスクのための人工データを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:08:36Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - LaiDA: Linguistics-aware In-context Learning with Data Augmentation for Metaphor Components Identification [0.07989135005592125]
大規模言語モデル(LLM)は、複雑な自然言語テキストの正確な理解のための新しい道を提供する。
LLMベースの新しいフレームワークが提案され、Lingguistics-aware In-context Learning with Data Augmentation (LaiDA) と名付けられた。
グラフアテンションネットワークエンコーダは言語的にリッチな特徴表現を生成し、同様の例を検索する。
論文 参考訳(メタデータ) (2024-08-10T02:02:26Z) - GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-26T06:21:01Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - Unified BERT for Few-shot Natural Language Understanding [7.352338840651369]
本稿では,BERTフレームワークに基づく双方向言語理解モデルであるUBERTを提案する。
UBERTは、様々な側面から事前知識を符号化し、複数のNLUタスクにまたがる学習表現を均一に構築する。
実験によると、UBERTは7つのNLUタスク、14のデータセット、ほとんどショットやゼロショットの設定で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-24T06:10:53Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z) - LUKE: Deep Contextualized Entity Representations with Entity-aware
Self-attention [37.111204321059084]
両方向変換器に基づく単語と実体の事前学習した文脈表現を提案する。
我々のモデルは、BERTのマスキング言語モデルに基づく新しい事前訓練タスクを用いて訓練される。
また,変換器の自己認識機構の拡張である自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-02T15:38:03Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。