論文の概要: The Impact of Data Corruption on Named Entity Recognition for
Low-resourced Languages
- arxiv url: http://arxiv.org/abs/2208.04568v2
- Date: Sat, 25 Nov 2023 19:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 17:43:10.940146
- Title: The Impact of Data Corruption on Named Entity Recognition for
Low-resourced Languages
- Title(参考訳): 低リソース言語における名前付きエンティティ認識におけるデータ破損の影響
- Authors: Manuel Fokam, Michael Beukman
- Abstract要約: データ可用性と品質は、低リソース言語の自然言語処理において大きな課題である。
低リソース環境における事前学習言語モデルの性能に及ぼすデータ量と品質の影響を計測する。
- 参考スコア(独自算出の注目度): 0.10641561702689348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data availability and quality are major challenges in natural language
processing for low-resourced languages. In particular, there is significantly
less data available than for higher-resourced languages. This data is also
often of low quality, rife with errors, invalid text or incorrect annotations.
Many prior works focus on dealing with these problems, either by generating
synthetic data, or filtering out low-quality parts of datasets. We instead
investigate these factors more deeply, by systematically measuring the effect
of data quantity and quality on the performance of pre-trained language models
in a low-resourced setting. Our results show that having fewer
completely-labelled sentences is significantly better than having more
sentences with missing labels; and that models can perform remarkably well with
only 10% of the training data. Importantly, these results are consistent across
ten low-resource languages, English, and four pre-trained models.
- Abstract(参考訳): データ可用性と品質は、低リソース言語の自然言語処理において大きな課題である。
特に、高リソースの言語よりもはるかに少ないデータがある。
このデータは、しばしば品質が低く、エラーや不正なテキスト、誤ったアノテーションに悩まされる。
多くの先行研究は、合成データを生成するか、データセットの低品質部分をフィルタリングすることで、これらの問題に対処することに焦点を当てている。
その代わりに、データ量と品質が低リソース環境での事前学習言語モデルの性能に与える影響を体系的に測定することで、これらの要因をより深く研究する。
以上の結果から,完全ラベル付き文の少ない文の方がラベルの少ない文よりも格段に良い結果が得られ,トレーニングデータの10%に過ぎなかったモデルでは極めて良好な結果が得られた。
重要なことに、これらの結果は10の低リソース言語、英語、および4つの事前訓練されたモデルで一致している。
関連論文リスト
- ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams [16.172599163455693]
言語や地理的に関連のある言語からの高品質なデータを活用して、ターゲット言語のためのTSを改善する。
第2に,非スタディオ環境で記録された低品質自動音声認識(ASR)データを利用する。
第3に、より堅牢な出力を生成するために、合成データを用いた大規模モデルからの知識蒸留を適用する。
論文 参考訳(メタデータ) (2024-10-23T14:18:25Z) - Quantity vs. Quality of Monolingual Source Data in Automatic Text Translation: Can It Be Too Little If It Is Too Good? [2.492943108520374]
本研究は, モノリンガルデータも少なすぎるか, 品質に基づく削減が翻訳モデルの性能に与える影響について検討する。
実験により、英語とドイツ語の低リソースNMTでは、利用可能なすべてのデータを利用するよりも、品質やテストデータ領域に基づいて、最も有用な追加データのみを選択する方がよいことが示されている。
論文 参考訳(メタデータ) (2024-10-17T17:20:40Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Detecting Label Errors using Pre-Trained Language Models [37.82128817976385]
学習済みの大規模言語モデルでは,データセットのラベルエラーを識別する能力が非常に高いことを示す。
クラウドソーシングされたデータからリアルで人間指向のラベルノイズを生成するための新しい手法を提案し,この手法の有効性をTweetNLP上で実証する。
論文 参考訳(メタデータ) (2022-05-25T11:59:39Z) - ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文 参考訳(メタデータ) (2022-01-04T20:08:17Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。