論文の概要: Soft Gazetteers for Low-Resource Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2005.01866v1
- Date: Mon, 4 May 2020 21:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 01:05:53.614339
- Title: Soft Gazetteers for Low-Resource Named Entity Recognition
- Title(参考訳): 低リソースエンティティ認識のためのソフトガゼッタ
- Authors: Shruti Rijhwani, Shuyan Zhou, Graham Neubig, Jaime Carbonell
- Abstract要約: 本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
- 参考スコア(独自算出の注目度): 78.00856159473393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional named entity recognition models use gazetteers (lists of
entities) as features to improve performance. Although modern neural network
models do not require such hand-crafted features for strong performance, recent
work has demonstrated their utility for named entity recognition on English
data. However, designing such features for low-resource languages is
challenging, because exhaustive entity gazetteers do not exist in these
languages. To address this problem, we propose a method of "soft gazetteers"
that incorporates ubiquitously available information from English knowledge
bases, such as Wikipedia, into neural named entity recognition models through
cross-lingual entity linking. Our experiments on four low-resource languages
show an average improvement of 4 points in F1 score. Code and data are
available at https://github.com/neulab/soft-gazetteers.
- Abstract(参考訳): 従来の名前付きエンティティ認識モデルは、パフォーマンスを改善する機能としてガゼッタ(エンティティのリスト)を使用する。
現代のニューラルネットワークモデルは、強いパフォーマンスのためにこのような手作りの特徴を必要としないが、最近の研究は、英語データ上で名前付きエンティティ認識の実用性を実証している。
しかし,これらの言語には包括的エンティティガゼッタが存在しないため,そのような機能を低リソース言語向けに設計することは困難である。
この問題に対処するために,ウィキペディアなどの英語知識ベースからユビキタスに利用可能な情報を,言語間エンティティリンクを通じてニューラルな名前付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1スコアの平均4点改善が得られた。
コードとデータはhttps://github.com/neulab/soft-gazetteersで入手できる。
関連論文リスト
- Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - Tik-to-Tok: Translating Language Models One Token at a Time: An
Embedding Initialization Strategy for Efficient Language Adaptation [19.624330093598996]
低級および中級の言語を対象としたモノリンガル言語モデルのトレーニングは、限定的かつしばしば不十分な事前学習データによって難しい。
ソース言語とターゲット言語の両方を含む単語翻訳辞書を一般化することにより、ターゲットトークン化者からのトークンをソース言語トークン化者からの意味的に類似したトークンにマッピングする。
我々は、高リソースモデルから中・低リソース言語、すなわちオランダ語とフリシアン語への変換実験を行っている。
論文 参考訳(メタデータ) (2023-10-05T11:45:29Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Neurals Networks for Projecting Named Entities from English to Ewondo [6.058868817939519]
本稿では、リッチ言語から低リソース言語へ名前付きエンティティを投影するための新しい単語分布表現を提案する。
提案手法は良好な結果を得たが, 使用したニューラルネットワークのサイズが大きすぎた。
本稿では,より小さなニューラルネットワークを用いて,同じ結果が得られることを示す。
論文 参考訳(メタデータ) (2020-03-29T22:05:30Z) - Improving Neural Named Entity Recognition with Gazetteers [6.292153194561472]
本稿では,Wikidataナレッジグラフからガゼッタを生成する方法と,その情報をニューラルNERシステムに統合する方法について述べる。
実験の結果、このアプローチは2つの異なる言語のパフォーマンス向上をもたらすことが明らかになった。
論文 参考訳(メタデータ) (2020-03-06T08:29:37Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。