論文の概要: Using Domain Knowledge for Low Resource Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2203.14738v1
- Date: Mon, 28 Mar 2022 13:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:46:30.738575
- Title: Using Domain Knowledge for Low Resource Named Entity Recognition
- Title(参考訳): ドメイン知識を低リソースのエンティティ認識に活用する
- Authors: Yuan Shi
- Abstract要約: 低リソース領域における名前付きエンティティ認識の性能向上のためにドメイン知識を利用することを提案する。
提案モデルでは、低リソースで名前付きエンティティ認識を処理しながら、異なるドメインでの大規模データ調整を回避する。
- 参考スコア(独自算出の注目度): 2.749726993052939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, named entity recognition has always been a popular research
in the field of natural language processing, while traditional deep learning
methods require a large amount of labeled data for model training, which makes
them not suitable for areas where labeling resources are scarce. In addition,
the existing cross-domain knowledge transfer methods need to adjust the entity
labels for different fields, so as to increase the training cost. To solve
these problems, enlightened by a processing method of Chinese named entity
recognition, we propose to use domain knowledge to improve the performance of
named entity recognition in areas with low resources. The domain knowledge
mainly applied by us is domain dictionary and domain labeled data. We use
dictionary information for each word to strengthen its word embedding and
domain labeled data to reinforce the recognition effect. The proposed model
avoids large-scale data adjustments in different domains while handling named
entities recognition with low resources. Experiments demonstrate the
effectiveness of our method, which has achieved impressive results on the data
set in the field of scientific and technological equipment, and the F1 score
has been significantly improved compared with many other baseline methods.
- Abstract(参考訳): 近年、名前付きエンティティ認識は自然言語処理の分野で常にポピュラーな研究であり、従来のディープラーニング手法ではモデルトレーニングに大量のラベル付きデータを必要とするため、ラベル付け資源が不足している分野には適さない。
さらに、既存のクロスドメイン知識転送手法では、トレーニングコストを増加させるために、異なるフィールドに対するエンティティラベルを調整する必要がある。
これらの問題を解決するために,中国におけるエンティティ認識の処理手法を取り入れたドメイン知識を用いて,低リソース領域におけるエンティティ認識の性能を向上させることを提案する。
私たちが主に応用するドメイン知識は、ドメイン辞書とドメインラベルデータである。
各単語に対する辞書情報を用いて単語埋め込みの強化とドメインラベルデータによる認識効果の強化を行う。
提案モデルは、名前付きエンティティ認識を低リソースで処理しながら、異なるドメインにおける大規模データ調整を回避する。
本手法の有効性を実証する実験は,科学・技術系機器のデータセットにおいて印象的な結果を示し,f1スコアは,他の多くのベースライン法と比較して有意に向上した。
関連論文リスト
- An Experimental Study on Data Augmentation Techniques for Named Entity Recognition on Low-Resource Domains [0.9903198600681908]
広範に使われている2つのNERモデル(Bi-LSTM+CRFとBERT)において、メンション・リプレースメントとコンテキスト・ワード・リプレースメントという2つの顕著なテキスト拡張手法の有効性を評価する。
低リソース領域からの4つのデータセットについて実験を行い、トレーニングサブセットサイズと拡張例の数による様々な組み合わせの影響について検討する。
論文 参考訳(メタデータ) (2024-11-21T19:45:48Z) - Adapting to Distribution Shift by Visual Domain Prompt Generation [34.19066857066073]
いくつかのラベルのないデータを使って、テスト時にモデルを適応し、分散シフトに対処する。
ソースドメインから移行可能な知識を学ぶための知識銀行を構築します。
提案手法は,WILDSやDomainNetを含む5つの大規模ベンチマークにおいて,従来よりも優れている。
論文 参考訳(メタデータ) (2024-05-05T02:44:04Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Named Entity Recognition Under Domain Shift via Metric Learning for Life Sciences [55.185456382328674]
名前付きエンティティ認識モデルの拡張のための転写学習の適用性について検討する。
本モデルでは,(1)アノテートイベントからの知識を付加してエンティティ間の関係を確立するソースドメインにおけるエンティティグループ化,2) 対象ドメインにおけるエンティティの識別を擬似ラベリングとコントラスト学習に頼って,2つのドメイン内のエンティティ間の識別を強化する,という2つの段階で構成されている。
論文 参考訳(メタデータ) (2024-01-19T03:49:28Z) - Style Transfer as Data Augmentation: A Case Study on Named Entity
Recognition [17.892385961143173]
本稿では,テキストを高リソース領域から低リソース領域へ変換する手法を提案する。
我々は、データ選択のための重要な要素のセットとともに制約付き復号アルゴリズムを設計し、有効かつ一貫性のあるデータの生成を保証する。
我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。
論文 参考訳(メタデータ) (2022-10-14T16:02:03Z) - Investigation on Data Adaptation Techniques for Neural Named Entity
Recognition [51.88382864759973]
一般的な実践は、大きなモノリンガルなラベルなしコーパスを使用することである。
もう一つの一般的なテクニックは、オリジナルのラベル付きデータから合成データを作成することである。
本研究では,これらの2つの手法が3つの異なる名前付きエンティティ認識タスクの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2021-10-12T11:06:03Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Domain Adaption for Knowledge Tracing [65.86619804954283]
本稿では,DAKT問題に対処するための新しい適応型フレームワーク,すなわち知識追跡(AKT)を提案する。
まず,Deep Knowledge Trace(DKT)に基づく教育的特徴(スリップ,推測,質問文など)を取り入れ,優れた知識追跡モデルを得る。
第2の側面として、3つのドメイン適応プロセスを提案し、採用する。まず、ターゲットモデルトレーニングに有用なソースインスタンスを選択するために、自動エンコーダを事前訓練する。
論文 参考訳(メタデータ) (2020-01-14T15:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。