論文の概要: An Analysis of Simple Data Augmentation for Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2010.11683v1
- Date: Thu, 22 Oct 2020 13:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:42:24.257917
- Title: An Analysis of Simple Data Augmentation for Named Entity Recognition
- Title(参考訳): 名前付きエンティティ認識のための簡易データ拡張の解析
- Authors: Xiang Dai and Heike Adel
- Abstract要約: 名前付きエンティティ認識のためのデータ拡張の設計と比較を行う。
簡単な拡張により、リカレントモデルとトランスフォーマーモデルの両方のパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 21.013836715832564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simple yet effective data augmentation techniques have been proposed for
sentence-level and sentence-pair natural language processing tasks. Inspired by
these efforts, we design and compare data augmentation for named entity
recognition, which is usually modeled as a token-level sequence labeling
problem. Through experiments on two data sets from the biomedical and materials
science domains (i2b2-2010 and MaSciP), we show that simple augmentation can
boost performance for both recurrent and transformer-based models, especially
for small training sets.
- Abstract(参考訳): 文レベルの自然言語処理タスクには,単純かつ効果的なデータ拡張手法が提案されている。
これらの取り組みに触発されて、通常トークンレベルのシーケンスラベリング問題としてモデル化される名前付きエンティティ認識のためのデータ拡張を設計し比較する。
バイオメディカル・マテリアル・サイエンス領域(i2b2-2010とMaSciP)の2つのデータセットの実験を通して、単純な拡張により、特に小さなトレーニングセットにおいて、リカレントモデルとトランスフォーマーモデルの両方のパフォーマンスが向上することを示した。
関連論文リスト
- An Experimental Study on Data Augmentation Techniques for Named Entity Recognition on Low-Resource Domains [0.9903198600681908]
広範に使われている2つのNERモデル(Bi-LSTM+CRFとBERT)において、メンション・リプレースメントとコンテキスト・ワード・リプレースメントという2つの顕著なテキスト拡張手法の有効性を評価する。
低リソース領域からの4つのデータセットについて実験を行い、トレーニングサブセットサイズと拡張例の数による様々な組み合わせの影響について検討する。
論文 参考訳(メタデータ) (2024-11-21T19:45:48Z) - Syntax-driven Data Augmentation for Named Entity Recognition [3.0603554929274908]
低リソース設定では、データ拡張戦略が一般的に活用され、パフォーマンスが向上する。
名前付きエンティティ認識を改善するために,簡易なマスク付き言語モデル置換法と選択木変異を用いた拡張法を比較した。
論文 参考訳(メタデータ) (2022-08-15T01:24:55Z) - Hierarchical Transformer Model for Scientific Named Entity Recognition [0.20646127669654832]
名前付きエンティティ認識のためのシンプルで効果的なアプローチを提案する。
提案手法の主な考え方は、入力サブワードシーケンスをBERTのような事前学習された変換器で符号化することである。
科学的NERのための3つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-03-28T12:59:06Z) - Investigation on Data Adaptation Techniques for Neural Named Entity
Recognition [51.88382864759973]
一般的な実践は、大きなモノリンガルなラベルなしコーパスを使用することである。
もう一つの一般的なテクニックは、オリジナルのラベル付きデータから合成データを作成することである。
本研究では,これらの2つの手法が3つの異なる名前付きエンティティ認識タスクの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2021-10-12T11:06:03Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - PHICON: Improving Generalization of Clinical Text De-identification
Models via Data Augmentation [5.462226912969162]
一般化問題を緩和するために,単純で効果的なデータ拡張手法PHICONを提案する。
PHICONは、PHI拡張とContext拡張で構成され、強化トレーニングコーパスを生成する。
2006年と2014年のi2b2の非識別課題データセットの実験結果から、PHICONは3つの選択された非識別モデルがデータセット間のテスト設定においてF1スコア(少なくとも8.6%)を高めるのに役立つことが示された。
論文 参考訳(メタデータ) (2020-10-11T02:57:11Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。