論文の概要: Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields
- arxiv url: http://arxiv.org/abs/2404.09383v1
- Date: Sun, 14 Apr 2024 23:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:18:53.639914
- Title: Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields
- Title(参考訳): 言語横断的, 文字レベルニューラル条件付きランダムフィールドを用いた低音源名前付きエンティティ認識
- Authors: Ryan Cotterell, Kevin Duh,
- Abstract要約: 低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
- 参考スコア(独自算出の注目度): 68.17213992395041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-resource named entity recognition is still an open problem in NLP. Most state-of-the-art systems require tens of thousands of annotated sentences in order to obtain high performance. However, for most of the world's languages, it is unfeasible to obtain such annotation. In this paper, we present a transfer learning scheme, whereby we train character-level neural CRFs to predict named entities for both high-resource languages and low resource languages jointly. Learning character representations for multiple related languages allows transfer among the languages, improving F1 by up to 9.8 points over a loglinear CRF baseline.
- Abstract(参考訳): 低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
ほとんどの最先端システムは、高い性能を得るために数万の注釈付き文を必要とする。
しかし、世界のほとんどの言語において、そのような注釈を得ることは不可能である。
本稿では,高リソース言語と低リソース言語の両方で名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練するトランスファーラーニング手法を提案する。
複数の関連言語の文字表現を学習することで、F1を対数CRFベースラインで最大9.8ポイント改善することができる。
関連論文リスト
- The Zeno's Paradox of `Low-Resource' Languages [20.559416975723142]
いくつかの相互作用する軸が、言語の低リソース化にどのように寄与するかを示す。
私たちの研究は、論文で使われている用語の明確な定義を導き出すことを願っています。
論文 参考訳(メタデータ) (2024-10-28T08:05:34Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z) - Distant Supervision and Noisy Label Learning for Low Resource Named
Entity Recognition: A Study on Hausa and Yor\`ub\'a [23.68953940000046]
遠隔監視や弱い監視といった技術は、ラベル付きデータを(セミ)自動で作成するために使用することができる。
我々は,異なる埋め込み手法を評価し,現実的な低リソースシナリオにおいて遠隔監視をうまく活用できることを示す。
論文 参考訳(メタデータ) (2020-03-18T17:48:35Z) - LSCP: Enhanced Large Scale Colloquial Persian Language Understanding [2.7249643773851724]
ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。
提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
論文 参考訳(メタデータ) (2020-03-13T22:24:14Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。