論文の概要: Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets
- arxiv url: http://arxiv.org/abs/2103.12028v1
- Date: Mon, 22 Mar 2021 17:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 17:47:43.556326
- Title: Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets
- Title(参考訳): 一目で見る品質 - webクローラーによる多言語データセットの監査
- Authors: Isaac Caswell, Julia Kreutzer, Lisa Wang, Ahsan Wahab, Daan van Esch,
Nasanbayar Ulzii-Orshikh, Allahsera Tapo, Nishant Subramani, Artem Sokolov,
Claytone Sikasote, Monang Setyawan, Supheakmungkol Sarin, Sokhar Samb,
Beno\^it Sagot, Clara Rivera, Annette Rios, Isabel Papadimitriou, Salomey
Osei, Pedro Javier Ortiz Su\'arez, Iroro Orife, Kelechi Ogueji, Rubungo Andre
Niyongabo, Toan Q. Nguyen, Mathias M\"uller, Andr\'e M\"uller, Shamsuddeen
Hassan Muhammad, Nanda Muhammad, Ayanda Mnyakeni, Jamshidbek Mirzakhalov,
Tapiwanashe Matangira, Colin Leong, Nze Lawson, Sneha Kudugunta, Yacine
Jernite, Mathias Jenny, Orhan Firat, Bonaventure F. P. Dossou, Sakhile
Dlamini, Nisansa de Silva, Sakine \c{C}abuk Ball{\i}, Stella Biderman,
Alessia Battisti, Ahmed Baruwa, Ankur Bapna, Pallavi Baljekar, Israel Abebe
Azime, Ayodele Awokoya, Duygu Ataman, Orevaoghene Ahia, Oghenefego Ahia,
Sweta Agrawal, Mofetoluwa Adeyemi
- Abstract要約: 5つの主要な公開データセットでリリースした205言語固有のコーパスの品質を手作業で監査する。
以上の結果から,少なくとも15コーパスは完全に誤用され,50%未満の品質の文を含むことが明らかとなった。
これらの問題は,対象言語の非話者でも容易に検出でき,自動解析による人間の判断を補うことができることを示す。
- 参考スコア(独自算出の注目度): 21.375943264243144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the success of large-scale pre-training and multilingual modeling in
Natural Language Processing (NLP), recent years have seen a proliferation of
large, web-mined text datasets covering hundreds of languages. However, to date
there has been no systematic analysis of the quality of these publicly
available datasets, or whether the datasets actually contain content in the
languages they claim to represent. In this work, we manually audit the quality
of 205 language-specific corpora released with five major public datasets
(CCAligned, ParaCrawl, WikiMatrix, OSCAR, mC4), and audit the correctness of
language codes in a sixth (JW300). We find that lower-resource corpora have
systematic issues: at least 15 corpora are completely erroneous, and a
significant fraction contains less than 50% sentences of acceptable quality.
Similarly, we find 82 corpora that are mislabeled or use nonstandard/ambiguous
language codes. We demonstrate that these issues are easy to detect even for
non-speakers of the languages in question, and supplement the human judgements
with automatic analyses. Inspired by our analysis, we recommend techniques to
evaluate and improve multilingual corpora and discuss the risks that come with
low-quality data releases.
- Abstract(参考訳): 自然言語処理(NLP)における大規模事前学習と多言語モデリングの成功により、近年は数百の言語をカバーする大規模なWebマイニングテキストデータセットが急増している。
しかし、これまでこれらの公開データセットの品質や、データセットが実際に表現しようとしている言語にコンテンツを格納しているかどうかの体系的な分析は行われていない。
本研究では,5つの主要な公開データセット(CCAligned, ParaCrawl, WikiMatrix, OSCAR, mC4)でリリースした205の言語固有のコーパスの品質を手動で監査し,第6の(JW300)言語コードの正確性を評価する。
少なくとも15のコーパスは完全に誤ったものであり、かなりの割合は許容される品質の50%以下の文を含んでいる。
同様に、82のコーパスがあり、非標準/曖昧な言語コードを使用する。
これらの問題は,対象言語の非話者でも容易に検出でき,自動解析による人間の判断を補うことができる。
分析に触発されて,多言語コーパスの評価と改善を行う手法を推奨し,低品質データリリースに伴うリスクについて議論する。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with
Effective Evaluation Model [40.23569361268597]
ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。
我々は,最大かつ最新の高品質な中国語Webテキストである ChineseWebText をリリースし,その内容は1.42TB で,各テキストは品質スコアに関連付けられている。
論文 参考訳(メタデータ) (2023-11-02T11:13:51Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Massively Multilingual Corpus of Sentiment Datasets and Multi-faceted
Sentiment Classification Benchmark [7.888702613862612]
この研究は、感情モデルをトレーニングするためのデータセットの大規模なオープンな多言語コーパスを提示する。
コーパスは、科学文献で報告された350以上のデータセットから、79個の手動で選択されたデータセットで構成されている。
本稿では,異なるベースモデル,トレーニング目標,データセット収集,微調整戦略などを用いて実施した数百の実験を要約した多面的感情分類ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-13T16:54:13Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Language ID in the Wild: Unexpected Challenges on the Path to a
Thousand-Language Web Text Corpus [15.807197703827818]
我々は最大1,629の言語でLangIDモデルをトレーニングします。
これらのモデルを用いて作成したウェブクロールテキストコーパスの人手によるLangID精度は、多くの低リソース言語では5%程度であることがわかった。
本稿では,ワードリストに基づく可変精度フィルタとトランスフォーマーに基づく半教師付きラングIDモデルという2種類の手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T19:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。