論文の概要: Effects of Annotations' Density on Named Entity Recognition Models'
Performance in the Context of African Languages
- arxiv url: http://arxiv.org/abs/2208.04568v1
- Date: Tue, 9 Aug 2022 07:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:11:07.921086
- Title: Effects of Annotations' Density on Named Entity Recognition Models'
Performance in the Context of African Languages
- Title(参考訳): アフリカ語文脈における名前付きエンティティ認識モデルの性能に及ぼすアノテーション密度の影響
- Authors: Manuel A. Fokam
- Abstract要約: 本稿では,データセットの品質に基づく各種モデルの性能解析を行う。
我々は,アフリカNERデータセットの文あたりの実体密度について,事前学習モデルの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: African languages have recently been the subject of several studies in
Natural Language Processing (NLP) and, this has caused a significant increase
in their representation in the field. However, most studies tend to focus more
on the models than the quality of the datasets when assessing the models'
performance in tasks such as Named Entity Recognition (NER). While this works
well in most cases, it does not account for the limitations of doing NLP with
low-resource languages, that is, the quality and the quantity of the dataset at
our disposal. This paper provides an analysis of the performance of various
models based on the quality of the dataset. We evaluate different pre-trained
models with respect to the entity density per sentence of some African NER
datasets. We hope with this study to improve the way NLP studies are done in
the context of low-resourced languages.
- Abstract(参考訳): 最近、アフリカの言語は自然言語処理(NLP)の研究の対象となり、この分野におけるその表現が著しく増加した。
しかし、ほとんどの研究は、名前付きエンティティ認識(ner)のようなタスクにおけるモデルのパフォーマンスを評価する際にデータセットの品質よりもモデルに焦点を当てる傾向がある。
これはほとんどのケースでうまく機能するが、低リソース言語でNLPを行うことの制限、すなわち、処理時のデータセットの品質と量を考慮していない。
本稿では,データセットの品質に基づく各種モデルの性能分析を行う。
我々は,アフリカNERデータセットの文あたりの実体密度について,事前学習モデルの評価を行った。
我々は,低リソース言語におけるNLP研究の方法を改善するために,本研究を期待する。
関連論文リスト
- ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams [16.172599163455693]
言語や地理的に関連のある言語からの高品質なデータを活用して、ターゲット言語のためのTSを改善する。
第2に,非スタディオ環境で記録された低品質自動音声認識(ASR)データを利用する。
第3に、より堅牢な出力を生成するために、合成データを用いた大規模モデルからの知識蒸留を適用する。
論文 参考訳(メタデータ) (2024-10-23T14:18:25Z) - Quantity vs. Quality of Monolingual Source Data in Automatic Text Translation: Can It Be Too Little If It Is Too Good? [2.492943108520374]
本研究は, モノリンガルデータも少なすぎるか, 品質に基づく削減が翻訳モデルの性能に与える影響について検討する。
実験により、英語とドイツ語の低リソースNMTでは、利用可能なすべてのデータを利用するよりも、品質やテストデータ領域に基づいて、最も有用な追加データのみを選択する方がよいことが示されている。
論文 参考訳(メタデータ) (2024-10-17T17:20:40Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Detecting Label Errors using Pre-Trained Language Models [37.82128817976385]
学習済みの大規模言語モデルでは,データセットのラベルエラーを識別する能力が非常に高いことを示す。
クラウドソーシングされたデータからリアルで人間指向のラベルノイズを生成するための新しい手法を提案し,この手法の有効性をTweetNLP上で実証する。
論文 参考訳(メタデータ) (2022-05-25T11:59:39Z) - ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文 参考訳(メタデータ) (2022-01-04T20:08:17Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。