論文の概要: Investigation on Data Adaptation Techniques for Neural Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2110.05892v1
- Date: Tue, 12 Oct 2021 11:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 12:35:18.138194
- Title: Investigation on Data Adaptation Techniques for Neural Named Entity
Recognition
- Title(参考訳): ニューラルネーム付きエンティティ認識のためのデータ適応手法の検討
- Authors: Evgeniia Tokarchuk, David Thulke, Weiyue Wang, Christian Dugast,
Hermann Ney
- Abstract要約: 一般的な実践は、大きなモノリンガルなラベルなしコーパスを使用することである。
もう一つの一般的なテクニックは、オリジナルのラベル付きデータから合成データを作成することである。
本研究では,これらの2つの手法が3つの異なる名前付きエンティティ認識タスクの性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 51.88382864759973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data processing is an important step in various natural language processing
tasks. As the commonly used datasets in named entity recognition contain only a
limited number of samples, it is important to obtain additional labeled data in
an efficient and reliable manner. A common practice is to utilize large
monolingual unlabeled corpora. Another popular technique is to create synthetic
data from the original labeled data (data augmentation). In this work, we
investigate the impact of these two methods on the performance of three
different named entity recognition tasks.
- Abstract(参考訳): データ処理は、自然言語処理タスクにおいて重要なステップである。
名前付きエンティティ認識でよく使われるデータセットは限られた数のサンプルしか含まないため、効率的かつ信頼性の高いラベル付きデータを取得することが重要である。
一般的な実践は、大きなモノリンガルなラベルなしコーパスを使用することである。
もう一つの一般的なテクニックは、オリジナルのラベル付きデータ(データ拡張)から合成データを作成することである。
本研究では,これらの2つの手法が3つの異なるエンティティ認識タスクの性能に与える影響について検討する。
関連論文リスト
- Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Using Domain Knowledge for Low Resource Named Entity Recognition [2.749726993052939]
低リソース領域における名前付きエンティティ認識の性能向上のためにドメイン知識を利用することを提案する。
提案モデルでは、低リソースで名前付きエンティティ認識を処理しながら、異なるドメインでの大規模データ調整を回避する。
論文 参考訳(メタデータ) (2022-03-28T13:26:47Z) - Hierarchical Transformer Model for Scientific Named Entity Recognition [0.20646127669654832]
名前付きエンティティ認識のためのシンプルで効果的なアプローチを提案する。
提案手法の主な考え方は、入力サブワードシーケンスをBERTのような事前学習された変換器で符号化することである。
科学的NERのための3つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-03-28T12:59:06Z) - An Analysis of Simple Data Augmentation for Named Entity Recognition [21.013836715832564]
名前付きエンティティ認識のためのデータ拡張の設計と比較を行う。
簡単な拡張により、リカレントモデルとトランスフォーマーモデルの両方のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-10-22T13:21:03Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。