論文の概要: Do "English" Named Entity Recognizers Work Well on Global Englishes?
- arxiv url: http://arxiv.org/abs/2404.13465v1
- Date: Sat, 20 Apr 2024 20:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:50:40.719644
- Title: Do "English" Named Entity Recognizers Work Well on Global Englishes?
- Title(参考訳): エンティティ認識者はグローバル英語でよく働くか?
- Authors: Alexander Shan, John Bauer, Riley Carlson, Christopher Manning,
- Abstract要約: 我々は、世界中の低リソースの英語版でNERモデルのパフォーマンスを分析するために、Newswireデータセット、Worldwide English NERデータセットを構築した。
我々は、事前学習された文脈モデルRoBERTaとELECTRAを用いたモデルを含む、広く使われているNERツールキットとトランスフォーマーモデルをテストする。
CoNLLまたはOntoNotesデータセットでトレーニングされたすべてのモデルは、Worldwide Englishデータセットでテストされたいくつかのケースで、10 F1以上の大幅なパフォーマンス低下を経験しました。
- 参考スコア(独自算出の注目度): 42.059466998190224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vast majority of the popular English named entity recognition (NER) datasets contain American or British English data, despite the existence of many global varieties of English. As such, it is unclear whether they generalize for analyzing use of English globally. To test this, we build a newswire dataset, the Worldwide English NER Dataset, to analyze NER model performance on low-resource English variants from around the world. We test widely used NER toolkits and transformer models, including models using the pre-trained contextual models RoBERTa and ELECTRA, on three datasets: a commonly used British English newswire dataset, CoNLL 2003, a more American focused dataset OntoNotes, and our global dataset. All models trained on the CoNLL or OntoNotes datasets experienced significant performance drops-over 10 F1 in some cases-when tested on the Worldwide English dataset. Upon examination of region-specific errors, we observe the greatest performance drops for Oceania and Africa, while Asia and the Middle East had comparatively strong performance. Lastly, we find that a combined model trained on the Worldwide dataset and either CoNLL or OntoNotes lost only 1-2 F1 on both test sets.
- Abstract(参考訳): 一般的な英語のエンティティ認識(NER)データセットの大部分は、多くのグローバルな英語の変種が存在するにもかかわらず、アメリカまたはイギリス英語のデータを含んでいる。
そのため、グローバルな英語の活用を一般化するかどうかは定かではない。
これをテストするために、世界中の低リソースの英語版でNERモデルの性能を分析するために、NewswireデータセットであるWorldwide English NER Datasetを構築した。
学習済みの文脈モデルRoBERTaとELECTRAを用いたモデルを含む,広く使用されているNERツールキットとトランスフォーマーモデルを,一般的に使用されている英国のニュースワイヤデータセット,CoNLL 2003,よりアメリカに焦点を当てたデータセットOntoNotes,グローバルデータセットの3つのデータセットで検証した。
CoNLLまたはOntoNotesデータセットでトレーニングされたすべてのモデルは、Worldwide Englishデータセットでテストされたいくつかのケースで、10 F1以上の大幅なパフォーマンス低下を経験しました。
アジアと中東は比較的高い性能を示したが,地域別誤差を調べた結果,オセアニアとアフリカでは最大のパフォーマンス低下が見られた。
最後に、Worldwideデータセットでトレーニングされた組み合わせモデルと、CoNLLまたはOntoNotesは、両方のテストセットで1-2 F1しか失われていないことが分かりました。
関連論文リスト
- Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Malaysian English News Decoded: A Linguistic Resource for Named Entity
and Relation Extraction [1.9927672677487354]
本稿では、アノテートされたデータセットのデータの取得、アノテーションの方法論、そして徹底的な分析における我々の取り組みについて述べる。
我々は6,061個のエンティティと3,268個のリレーショナルインスタンスを持つデータセットを開発した。
このユニークなデータセットは、マレーシア英語におけるNLP研究の進展に大きく貢献する。
論文 参考訳(メタデータ) (2024-02-22T13:12:05Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Cascaded Models for Better Fine-Grained Named Entity Recognition [10.03287972980716]
細粒度NERをラベル付けするためのケースドアプローチを新たにリリースした細粒度NERデータセットに適用する。
完全きめ細かな型で構築された直感的なモデルと比較して,20F1絶対値で性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-09-15T18:41:29Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。