論文の概要: Distant Supervision and Noisy Label Learning for Low Resource Named
Entity Recognition: A Study on Hausa and Yor\`ub\'a
- arxiv url: http://arxiv.org/abs/2003.08370v2
- Date: Tue, 31 Mar 2020 13:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 09:31:37.209838
- Title: Distant Supervision and Noisy Label Learning for Low Resource Named
Entity Recognition: A Study on Hausa and Yor\`ub\'a
- Title(参考訳): 低リソース固有認識のための距離スーパービジョンと雑音ラベル学習 : HausaとYor\ub\'aについて
- Authors: David Ifeoluwa Adelani, Michael A. Hedderich, Dawei Zhu, Esther van
den Berg, Dietrich Klakow
- Abstract要約: 遠隔監視や弱い監視といった技術は、ラベル付きデータを(セミ)自動で作成するために使用することができる。
我々は,異なる埋め込み手法を評価し,現実的な低リソースシナリオにおいて遠隔監視をうまく活用できることを示す。
- 参考スコア(独自算出の注目度): 23.68953940000046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of labeled training data has limited the development of natural
language processing tools, such as named entity recognition, for many languages
spoken in developing countries. Techniques such as distant and weak supervision
can be used to create labeled data in a (semi-) automatic way. Additionally, to
alleviate some of the negative effects of the errors in automatic annotation,
noise-handling methods can be integrated. Pretrained word embeddings are
another key component of most neural named entity classifiers. With the advent
of more complex contextual word embeddings, an interesting trade-off between
model size and performance arises. While these techniques have been shown to
work well in high-resource settings, we want to study how they perform in
low-resource scenarios. In this work, we perform named entity recognition for
Hausa and Yor\`ub\'a, two languages that are widely spoken in several
developing countries. We evaluate different embedding approaches and show that
distant supervision can be successfully leveraged in a realistic low-resource
scenario where it can more than double a classifier's performance.
- Abstract(参考訳): ラベル付きトレーニングデータの欠如は、発展途上国で話されている多くの言語に対して、名前付きエンティティ認識などの自然言語処理ツールの開発を制限している。
遠隔監視や弱い監視といった技術は、ラベル付きデータを(セミ)自動で作成するために使用することができる。
さらに、自動アノテーションにおけるエラーの悪影響を緩和するために、ノイズハンドリング手法を統合することができる。
事前学習された単語埋め込みは、ほとんどのニューラルネットワーク名前付きエンティティ分類器の重要なコンポーネントである。
より複雑な文脈の単語埋め込みが出現すると、モデルサイズとパフォーマンスの興味深いトレードオフが発生する。
これらのテクニックは、高リソース設定でうまく機能することが示されているが、低リソースシナリオでどのように機能するかを研究したい。
本研究では,いくつかの発展途上国で広く話されている2つの言語であるHausaとYor\ub\'aのエンティティ認識を行う。
我々は,異なる埋め込み手法の評価を行い,遠隔監視を実例の低リソースシナリオでうまく活用できることを示し,分類器の性能を2倍以上に抑えることができた。
関連論文リスト
- Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Learning from Language Description: Low-shot Named Entity Recognition
via Decomposed Framework [23.501276952950366]
本研究では,自然言語の監視から学習し,目に見えないエンティティクラスの識別を可能にする新しいNERフレームワークであるSpanNERを提案する。
筆者らは5つのベンチマークデータセットについて広範な実験を行い、提案手法を数ショットの学習、ドメイン転送、ゼロショットの学習設定で評価した。
実験結果から,提案手法は, 最良ベースラインの10%, 23%, 26%を, 最良ベースライン, ドメイン転送, ゼロショット学習設定でそれぞれ改善できることがわかった。
論文 参考訳(メタデータ) (2021-09-11T19:52:09Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。
また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。
パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文 参考訳(メタデータ) (2021-05-30T12:09:59Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Multilingual acoustic word embedding models for processing zero-resource
languages [37.78342106714364]
我々は,複数言語からのラベル付きデータに対して,単一の教師付き埋め込みモデルを訓練する。
次に、見知らぬゼロリソース言語に適用します。
論文 参考訳(メタデータ) (2020-02-06T05:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。