論文の概要: Building Low-Resource NER Models Using Non-Speaker Annotation
- arxiv url: http://arxiv.org/abs/2006.09627v2
- Date: Mon, 26 Apr 2021 16:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 20:55:38.656559
- Title: Building Low-Resource NER Models Using Non-Speaker Annotation
- Title(参考訳): 非スピーカアノテーションを用いた低リソースNERモデルの構築
- Authors: Tatiana Tsygankova, Francesca Marini, Stephen Mayhew, Dan Roth
- Abstract要約: 言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
- 参考スコア(独自算出の注目度): 58.78968578460793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In low-resource natural language processing (NLP), the key problems are a
lack of target language training data, and a lack of native speakers to create
it. Cross-lingual methods have had notable success in addressing these
concerns, but in certain common circumstances, such as insufficient
pre-training corpora or languages far from the source language, their
performance suffers. In this work we propose a complementary approach to
building low-resource Named Entity Recognition (NER) models using
``non-speaker'' (NS) annotations, provided by annotators with no prior
experience in the target language. We recruit 30 participants in a carefully
controlled annotation experiment with Indonesian, Russian, and Hindi. We show
that use of NS annotators produces results that are consistently on par or
better than cross-lingual methods built on modern contextual representations,
and have the potential to outperform with additional effort. We conclude with
observations of common annotation patterns and recommended implementation
practices, and motivate how NS annotations can be used in addition to prior
methods for improved performance. For more details,
http://cogcomp.org/page/publication_view/941
- Abstract(参考訳): 低リソース自然言語処理(NLP)では、ターゲット言語トレーニングデータの欠如と、それを作成するネイティブスピーカーの欠如が大きな問題となっている。
言語横断の手法はこれらの懸念に対処することに顕著な成功を収めてきたが、訓練済みのコーパスやソース言語から遠く離れた言語など、いくつかの一般的な状況では、その性能が低下する。
本稿では,対象言語での経験のないアノテーションによって提供される`non-speaker'(ns)アノテーションを用いて,低リソースのエンティティ認識(ner)モデルを構築するための補完的アプローチを提案する。
インドネシア語、ロシア語、ヒンディー語の注意統制型アノテーション実験に30名の参加者を募集した。
NSアノテータの使用は、現代の文脈表現上に構築された言語横断的手法よりも、一貫した結果が得られ、さらなる努力により性能が向上する可能性があることを示す。
我々は、共通アノテーションパターンと推奨実装プラクティスの観察から締めくくり、NSアノテーションがパフォーマンスを改善するための先行メソッドに加えてどのように使われるのかを動機づける。
詳細はhttp://cogcomp.org/page/publication_view/941
関連論文リスト
- GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。
また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。
パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文 参考訳(メタデータ) (2021-05-30T12:09:59Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。