論文の概要: Do "English" Named Entity Recognizers Work Well on Global Englishes?
- arxiv url: http://arxiv.org/abs/2404.13465v1
- Date: Sat, 20 Apr 2024 20:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:50:40.719644
- Title: Do "English" Named Entity Recognizers Work Well on Global Englishes?
- Title(参考訳): エンティティ認識者はグローバル英語でよく働くか?
- Authors: Alexander Shan, John Bauer, Riley Carlson, Christopher Manning,
- Abstract要約: 我々は、世界中の低リソースの英語版でNERモデルのパフォーマンスを分析するために、Newswireデータセット、Worldwide English NERデータセットを構築した。
我々は、事前学習された文脈モデルRoBERTaとELECTRAを用いたモデルを含む、広く使われているNERツールキットとトランスフォーマーモデルをテストする。
CoNLLまたはOntoNotesデータセットでトレーニングされたすべてのモデルは、Worldwide Englishデータセットでテストされたいくつかのケースで、10 F1以上の大幅なパフォーマンス低下を経験しました。
- 参考スコア(独自算出の注目度): 42.059466998190224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vast majority of the popular English named entity recognition (NER) datasets contain American or British English data, despite the existence of many global varieties of English. As such, it is unclear whether they generalize for analyzing use of English globally. To test this, we build a newswire dataset, the Worldwide English NER Dataset, to analyze NER model performance on low-resource English variants from around the world. We test widely used NER toolkits and transformer models, including models using the pre-trained contextual models RoBERTa and ELECTRA, on three datasets: a commonly used British English newswire dataset, CoNLL 2003, a more American focused dataset OntoNotes, and our global dataset. All models trained on the CoNLL or OntoNotes datasets experienced significant performance drops-over 10 F1 in some cases-when tested on the Worldwide English dataset. Upon examination of region-specific errors, we observe the greatest performance drops for Oceania and Africa, while Asia and the Middle East had comparatively strong performance. Lastly, we find that a combined model trained on the Worldwide dataset and either CoNLL or OntoNotes lost only 1-2 F1 on both test sets.
- Abstract(参考訳): 一般的な英語のエンティティ認識(NER)データセットの大部分は、多くのグローバルな英語の変種が存在するにもかかわらず、アメリカまたはイギリス英語のデータを含んでいる。
そのため、グローバルな英語の活用を一般化するかどうかは定かではない。
これをテストするために、世界中の低リソースの英語版でNERモデルの性能を分析するために、NewswireデータセットであるWorldwide English NER Datasetを構築した。
学習済みの文脈モデルRoBERTaとELECTRAを用いたモデルを含む,広く使用されているNERツールキットとトランスフォーマーモデルを,一般的に使用されている英国のニュースワイヤデータセット,CoNLL 2003,よりアメリカに焦点を当てたデータセットOntoNotes,グローバルデータセットの3つのデータセットで検証した。
CoNLLまたはOntoNotesデータセットでトレーニングされたすべてのモデルは、Worldwide Englishデータセットでテストされたいくつかのケースで、10 F1以上の大幅なパフォーマンス低下を経験しました。
アジアと中東は比較的高い性能を示したが,地域別誤差を調べた結果,オセアニアとアフリカでは最大のパフォーマンス低下が見られた。
最後に、Worldwideデータセットでトレーニングされた組み合わせモデルと、CoNLLまたはOntoNotesは、両方のテストセットで1-2 F1しか失われていないことが分かりました。
関連論文リスト
- Malaysian English News Decoded: A Linguistic Resource for Named Entity
and Relation Extraction [1.9927672677487354]
本稿では、アノテートされたデータセットのデータの取得、アノテーションの方法論、そして徹底的な分析における我々の取り組みについて述べる。
我々は6,061個のエンティティと3,268個のリレーショナルインスタンスを持つデータセットを開発した。
このユニークなデータセットは、マレーシア英語におけるNLP研究の進展に大きく貢献する。
論文 参考訳(メタデータ) (2024-02-22T13:12:05Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - A Multilingual Evaluation of NER Robustness to Adversarial Inputs [0.0]
言語モデルの敵対的評価は典型的には英語のみに焦点をあてる。
本稿では,入力中の小さな摂動に対する頑健性の観点から,名前付きエンティティ認識(NER)の多言語評価を行った。
既存のNERモデルに適応するために,新たなNERモデルをトレーニングするための強化トレーニングデータとして,生成した逆数データセットの一部を用いて既存のNERモデルを改善することが可能か,あるいは微調整データとして検討した。
論文 参考訳(メタデータ) (2023-05-30T10:50:49Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - A Simple and Efficient Ensemble Classifier Combining Multiple Neural
Network Models on Social Media Datasets in Vietnamese [2.7528170226206443]
本研究の目的は、ベトナムの3つのベンチマークデータセットから、ソーシャルメディア上のベトナム語のテキストを分類することである。
この研究では、CNN、LSTM、およびそれらの変種を含む高度なディープラーニングモデルを使用し、最適化されている。
私たちのアンサンブルモデルは、3つのデータセットで最高のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-09-28T04:28:48Z) - Cascaded Models for Better Fine-Grained Named Entity Recognition [10.03287972980716]
細粒度NERをラベル付けするためのケースドアプローチを新たにリリースした細粒度NERデータセットに適用する。
完全きめ細かな型で構築された直感的なモデルと比較して,20F1絶対値で性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-09-15T18:41:29Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。