論文の概要: Does Corpus Quality Really Matter for Low-Resource Languages?
- arxiv url: http://arxiv.org/abs/2203.08111v1
- Date: Tue, 15 Mar 2022 17:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:16:55.442935
- Title: Does Corpus Quality Really Matter for Low-Resource Languages?
- Title(参考訳): 低リソース言語ではコーパスの品質は本当に重要か?
- Authors: Mikel Artetxe, Itziar Aldabe, Rodrigo Agerri, Olatz
Perez-de-Vi\~naspre, Aitor Soroa
- Abstract要約: 非英語コーパスの大部分は、自動的にフィルタされたCommonCrawlから派生している。
ケーススタディとしてBasqueを採用して、CommonCrawlのフィルタに代わるものとして、カスタマイズされたクローリング(高品質なコンテンツでウェブサイトを手動で識別し、スクラップする)について検討する。
我々の新しいコーパスはEusCrawlと呼ばれ、CC100やmC4のような多言語コーパスのバスク部分に似ている。
- 参考スコア(独自算出の注目度): 27.315905109092466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vast majority of non-English corpora are derived from automatically
filtered versions of CommonCrawl. While prior work has identified major issues
on the quality of these datasets (Kreutzer et al., 2021), it is not clear how
this impacts downstream performance. Taking Basque as a case study, we explore
tailored crawling (manually identifying and scraping websites with high-quality
content) as an alternative to filtering CommonCrawl. Our new corpus, called
EusCrawl, is similar in size to the Basque portion of popular multilingual
corpora like CC100 and mC4, yet it has a much higher quality according to
native annotators. For instance, 66% of documents are rated as high-quality for
EusCrawl, in contrast with <33% for both mC4 and CC100. Nevertheless, we obtain
similar results on downstream tasks regardless of the corpus used for
pre-training. Our work suggests that NLU performance in low-resource languages
is primarily constrained by the quantity rather than the quality of the data,
prompting for methods to exploit more diverse data sources.
- Abstract(参考訳): 非英語コーパスの大部分は、自動的にフィルタされたCommonCrawlから派生している。
以前の作業では、これらのデータセットの品質に関する大きな問題(Kreutzerなど、2021年)が特定されていたが、それが下流のパフォーマンスに与える影響は明らかではない。
ケーススタディとしてBasqueを採用して、CommonCrawlのフィルタに代わるものとして、カスタマイズされたクローリング(高品質なコンテンツでウェブサイトを手動で識別し、スクラップする)について検討する。
我々の新しいコーパスはEusCrawlと呼ばれ、CC100やmC4のような人気のある多言語コーパスのバスク部分に似ているが、ネイティブアノテータによってはるかに高品質である。
例えば、文書の66%は、mC4 と CC100 の 2 3% に対して、EusCrawl の 高品質と評価されている。
しかし,事前学習に使用するコーパスによらず,下流タスクについても同様の結果が得られる。
私たちの研究は、低リソース言語におけるnluのパフォーマンスは、主にデータの品質よりも量によって制限されていることを示唆しています。
関連論文リスト
- Separating the Wheat from the Chaff with BREAD: An open-source benchmark
and metrics to detect redundancy in text [9.484323358958706]
BREADは,繰り返しボイラプレートと可塑性言語コンテンツに対する人間ラベル付きベンチマークである。
いくつかの基準値CRED(Character REDundancy)スコアを同時にリリースし,BREADの有効性を評価する。
論文 参考訳(メタデータ) (2023-11-11T00:11:50Z) - ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with
Effective Evaluation Model [40.23569361268597]
ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。
我々は,最大かつ最新の高品質な中国語Webテキストである ChineseWebText をリリースし,その内容は1.42TB で,各テキストは品質スコアに関連付けられている。
論文 参考訳(メタデータ) (2023-11-02T11:13:51Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - esCorpius: A Massive Spanish Crawling Corpus [2.262838186547612]
esCorpiusはスペインのクロールコーパスで、Common Crawlデータの約1Pbから得られた。
スペイン語で最も広範なコーパスであり、ウェブテキストの内容の抽出、浄化、重複の程度である。
論文 参考訳(メタデータ) (2022-06-30T09:29:18Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets [21.375943264243144]
5つの主要な公開データセットでリリースした205言語固有のコーパスの品質を手作業で監査する。
以上の結果から,少なくとも15コーパスは完全に誤用され,50%未満の品質の文を含むことが明らかとなった。
これらの問題は,対象言語の非話者でも容易に検出でき,自動解析による人間の判断を補うことができることを示す。
論文 参考訳(メタデータ) (2021-03-22T17:30:33Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Practical Comparable Data Collection for Low-Resource Languages via
Images [126.64069379167975]
本稿では,モノリンガルアノテータを用いた低リソース言語のための高品質な同等のトレーニングデータをキュレートする手法を提案する。
本手法では, ソースとターゲット言語間のピボットとして, 慎重に選択した画像の集合を用いて, 両方の言語でその画像のキャプションを独立に取得する。
本手法で作成した英ヒンディー語対応コーパスの人間による評価では、対の81.1%が許容される翻訳であり、対の2.47%が全く翻訳ではない。
論文 参考訳(メタデータ) (2020-04-24T19:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。