Fugu-MT 論文翻訳(概要): Effects of Annotations' Density on Named Entity Recognition Models' Performance in the Context of African Languages

論文の概要: Effects of Annotations' Density on Named Entity Recognition Models' Performance in the Context of African Languages

arxiv url: http://arxiv.org/abs/2208.04568v1
Date: Tue, 9 Aug 2022 07:15:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-10 12:11:07.921086
Title: Effects of Annotations' Density on Named Entity Recognition Models' Performance in the Context of African Languages
Title（参考訳）: アフリカ語文脈における名前付きエンティティ認識モデルの性能に及ぼすアノテーション密度の影響
Authors: Manuel A. Fokam
Abstract要約: 本稿では,データセットの品質に基づく各種モデルの性能解析を行う。我々は,アフリカNERデータセットの文あたりの実体密度について,事前学習モデルの評価を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: African languages have recently been the subject of several studies in Natural Language Processing (NLP) and, this has caused a significant increase in their representation in the field. However, most studies tend to focus more on the models than the quality of the datasets when assessing the models' performance in tasks such as Named Entity Recognition (NER). While this works well in most cases, it does not account for the limitations of doing NLP with low-resource languages, that is, the quality and the quantity of the dataset at our disposal. This paper provides an analysis of the performance of various models based on the quality of the dataset. We evaluate different pre-trained models with respect to the entity density per sentence of some African NER datasets. We hope with this study to improve the way NLP studies are done in the context of low-resourced languages.
Abstract（参考訳）: 最近、アフリカの言語は自然言語処理(NLP)の研究の対象となり、この分野におけるその表現が著しく増加した。しかし、ほとんどの研究は、名前付きエンティティ認識(ner)のようなタスクにおけるモデルのパフォーマンスを評価する際にデータセットの品質よりもモデルに焦点を当てる傾向がある。これはほとんどのケースでうまく機能するが、低リソース言語でNLPを行うことの制限、すなわち、処理時のデータセットの品質と量を考慮していない。本稿では,データセットの品質に基づく各種モデルの性能分析を行う。我々は,アフリカNERデータセットの文あたりの実体密度について,事前学習モデルの評価を行った。我々は,低リソース言語におけるNLP研究の方法を改善するために,本研究を期待する。

関連論文リスト

End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data [5.950263765640278]
本稿では、弱いラベル付きデータを用いて音声からテキストへの翻訳モデルを構築することができるという仮説を考察する。我々は、最先端の文エンコーダを用いて、Bitextマイニングの助けを借りてデータセットを構築した。以上の結果から,STシステムはマルチモーダルな多言語ベースラインに匹敵する性能を持つ弱いラベル付きデータで構築可能であることが示された。
論文参考訳（メタデータ） (2025-06-19T12:11:01Z)
Assessing the Role of Data Quality in Training Bilingual Language Models [17.603371705571107]
データ量だけでなく不平等なデータ品質も、バイリンガル設定のパフォーマンス劣化の主要な要因であることを示す。本稿では,高品質な英語データのみを用いて,高品質なバイリンガル学習データを選択するための簡易かつ効果的なデータフィルタリング手法を提案する。
論文参考訳（メタデータ） (2025-06-15T21:08:51Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams [16.172599163455693]
言語や地理的に関連のある言語からの高品質なデータを活用して、ターゲット言語のためのTSを改善する。第2に,非スタディオ環境で記録された低品質自動音声認識(ASR)データを利用する。第3に、より堅牢な出力を生成するために、合成データを用いた大規模モデルからの知識蒸留を適用する。
論文参考訳（メタデータ） (2024-10-23T14:18:25Z)
Quantity vs. Quality of Monolingual Source Data in Automatic Text Translation: Can It Be Too Little If It Is Too Good? [2.492943108520374]
本研究は, モノリンガルデータも少なすぎるか, 品質に基づく削減が翻訳モデルの性能に与える影響について検討する。実験により、英語とドイツ語の低リソースNMTでは、利用可能なすべてのデータを利用するよりも、品質やテストデータ領域に基づいて、最も有用な追加データのみを選択する方がよいことが示されている。
論文参考訳（メタデータ） (2024-10-17T17:20:40Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Learning Translation Quality Evaluation on Low Resource Languages from Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文参考訳（メタデータ） (2023-02-07T14:35:35Z)
Detecting Label Errors using Pre-Trained Language Models [37.82128817976385]
学習済みの大規模言語モデルでは,データセットのラベルエラーを識別する能力が非常に高いことを示す。クラウドソーシングされたデータからリアルで人間指向のラベルノイズを生成するための新しい手法を提案し,この手法の有効性をTweetNLP上で実証する。
論文参考訳（メタデータ） (2022-05-25T11:59:39Z)
ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文参考訳（メタデータ） (2022-01-04T20:08:17Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文参考訳（メタデータ） (2021-04-17T21:34:10Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。