論文の概要: Data Augmentation for Low-Resource Named Entity Recognition Using
Backtranslation
- arxiv url: http://arxiv.org/abs/2108.11703v1
- Date: Thu, 26 Aug 2021 10:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:07:25.809012
- Title: Data Augmentation for Low-Resource Named Entity Recognition Using
Backtranslation
- Title(参考訳): backtranslationを用いた低リソース名前付きエンティティ認識のためのデータ拡張
- Authors: Usama Yaseen, Stefan Langer
- Abstract要約: 低リソースなエンティティ認識のための高品質で言語学的に多様な合成データを生成するために、バックトランスレーションを適用する。
材料科学(MaSciP)と生物医学領域(S800)の2つのデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 1.195496689595016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state of art natural language processing systems relies on sizable
training datasets to achieve high performance. Lack of such datasets in the
specialized low resource domains lead to suboptimal performance. In this work,
we adapt backtranslation to generate high quality and linguistically diverse
synthetic data for low-resource named entity recognition. We perform
experiments on two datasets from the materials science (MaSciP) and biomedical
domains (S800). The empirical results demonstrate the effectiveness of our
proposed augmentation strategy, particularly in the low-resource scenario.
- Abstract(参考訳): state of art自然言語処理システムは、高いパフォーマンスを達成するために、かなりのトレーニングデータセットに依存している。
特殊な低リソースドメインにおけるそのようなデータセットの欠如は、最適でないパフォーマンスをもたらす。
本研究では,低リソースなエンティティ認識のための高品質で言語学的に多様な合成データを生成するために,逆翻訳を適用する。
材料科学(MaSciP)と生物医学領域(S800)の2つのデータセットについて実験を行った。
その結果,提案する拡張戦略,特に低リソースシナリオの有効性が実証された。
関連論文リスト
- Curating Grounded Synthetic Data with Global Perspectives for Equitable AI [0.5120567378386615]
我々は,実世界の多様性を基盤として,戦略的多様化を通じて充実した合成データセットを作成するための新しいアプローチを導入する。
我々は12の言語と125の国にまたがる包括的なニュース記事の集合を用いてデータを合成し、言語的・文化的表現の広さを確実にする。
予備的な結果は、従来のNERベンチマークのパフォーマンスが最大7.3%向上したことを示している。
論文 参考訳(メタデータ) (2024-06-10T17:59:11Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - High-Resource Methodological Bias in Low-Resource Investigations [27.419604203739052]
我々は、高リソース言語からのダウンサンプリングの結果、低リソースのデータセットとは異なる特性のデータセットが得られることを示した。
結論として,データセットの簡易サンプリングは,これらのシステムが低リソースシナリオでどのように動作するかというバイアスのかかる見方をもたらす。
論文 参考訳(メタデータ) (2022-11-14T17:04:38Z) - Style Transfer as Data Augmentation: A Case Study on Named Entity
Recognition [17.892385961143173]
本稿では,テキストを高リソース領域から低リソース領域へ変換する手法を提案する。
我々は、データ選択のための重要な要素のセットとともに制約付き復号アルゴリズムを設計し、有効かつ一貫性のあるデータの生成を保証する。
我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。
論文 参考訳(メタデータ) (2022-10-14T16:02:03Z) - A Survey on Low-Resource Neural Machine Translation [106.51056217748388]
我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。
私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文 参考訳(メタデータ) (2021-07-09T06:26:38Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Exploiting News Article Structure for Automatic Corpus Generation of
Entailment Datasets [1.859931123372708]
本稿では,低リソース言語を対象としたベンチマークデータセットの自動生成手法を提案する。
第2に,フィリピンの資源不足を緩和するため,ELECTRA技術に基づく事前学習型トランスフォーマを新たに作成する。
第3に,低データ領域で動作する場合の真の性能に光を当てるために,転送学習手法の分析を行う。
論文 参考訳(メタデータ) (2020-10-22T10:09:10Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。