論文の概要: Do Language Models Care About Text Quality? Evaluating Web-Crawled
Corpora Across 11 Languages
- arxiv url: http://arxiv.org/abs/2403.08693v1
- Date: Wed, 13 Mar 2024 16:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:32.870446
- Title: Do Language Models Care About Text Quality? Evaluating Web-Crawled
Corpora Across 11 Languages
- Title(参考訳): 言語モデルはテキストの品質を気にしているか? WebCrawledの評価
Corpora 11言語にまたがるコーパス
- Authors: Rik van Noord, Taja Kuzman, Peter Rupnik, Nikola Ljube\v{s}i\'c,
Miquel Espl\`a-Gomis, Gema Ram\'irez-S\'anchez, Antonio Toral
- Abstract要約: 我々は、最も関連性の高いWebクローラコーパスのうち4つを、11の低リソースのヨーロッパ言語で比較した。
コーパスの品質には明らかな違いがみられ,MaCoCuとOSCARが最適結果を得た。
我々は,本実験において,Webcrawled corporaの品質は,LMのトレーニングにおいて重要な役割を果たさないと結論づけた。
- 参考スコア(独自算出の注目度): 11.512925610019474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large, curated, web-crawled corpora play a vital role in training language
models (LMs). They form the lion's share of the training data in virtually all
recent LMs, such as the well-known GPT, LLaMA and XLM-RoBERTa models. However,
despite this importance, relatively little attention has been given to the
quality of these corpora. In this paper, we compare four of the currently most
relevant large, web-crawled corpora (CC100, MaCoCu, mC4 and OSCAR) across
eleven lower-resourced European languages. Our approach is two-fold: first, we
perform an intrinsic evaluation by performing a human evaluation of the quality
of samples taken from different corpora; then, we assess the practical impact
of the qualitative differences by training specific LMs on each of the corpora
and evaluating their performance on downstream tasks. We find that there are
clear differences in quality of the corpora, with MaCoCu and OSCAR obtaining
the best results. However, during the extrinsic evaluation, we actually find
that the CC100 corpus achieves the highest scores. We conclude that, in our
experiments, the quality of the web-crawled corpora does not seem to play a
significant role when training LMs.
- Abstract(参考訳): 大規模でキュレーションされたWebcrawled corporaは、トレーニング言語モデル(LM)において重要な役割を果たす。
これらは、GPT、LLaMA、XLM-RoBERTaモデルなど、最近のLMのほぼ全てのトレーニングデータのライオンのシェアを形成している。
しかし、この重要性にもかかわらず、これらのコーパスの品質には比較的注意が向けられていない。
本稿では、現在最も関係の深いウェブクローラコーパス(CC100、MaCoCu、mC4、OSCAR)を、11の低リソースのヨーロッパ言語で比較する。
提案手法は,まず,異なるコーパスから採取した試料の品質を人為的に評価することにより本質的な評価を行う。
コーパスの品質には明らかな違いがみられ,MaCoCuとOSCARが最適結果を得た。
しかし,外因性評価では,CC100コーパスが最も高いスコアが得られた。
我々は,本実験において,Webcrawled corporaの品質は,LMのトレーニングにおいて重要な役割を果たさないと結論づけた。
関連論文リスト
- DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models [78.51470038301436]
本稿では,データ評価,タグ付け,編集を通じて事前学習コーパスを洗練させるデータエンジニアリング手法であるDecorateLMを紹介する。
次に、DecorateLMを適用して、トレーニングコーパスの100億のトークンを強化し、さらに12億のパラメータLLMのさらなるトレーニングのために、高品質と多様性を実証する45億のトークンを選択します。
その結果、このような高品質なデータを利用することで、モデルの性能を大幅に向上させることができることが示され、事前学習コーパスの品質を高めるための強力なアプローチが示される。
論文 参考訳(メタデータ) (2024-10-08T02:42:56Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - Quality Does Matter: A Detailed Look at the Quality and Utility of Web-Mined Parallel Corpora [1.0995326465245927]
我々は,ウェブマイニングコーパスの異なる部分間で,品質に有意な差異があることを指摘した。
また、Webマイニングされたデータセットでは、最もランクの高い25k部分でトレーニングされたNeural Machine Translation(NMT)モデルが、人間の計算したデータセットと同等であることを示す。
論文 参考訳(メタデータ) (2024-02-12T07:03:14Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Generative Models are Unsupervised Predictors of Page Quality: A
Colossal-Scale Study [86.62171568318716]
GPT-2のような大規模な生成言語モデルは、テキストを生成する能力で有名である。
ページ品質」の教師なし予測器が出現し、トレーニングなしで品質の低いコンテンツを検出することができることを示す。
われわれは5億件以上のウェブ記事の質的、定量的な分析を行い、このトピックについて史上最大規模の研究を行った。
論文 参考訳(メタデータ) (2020-08-17T07:13:24Z) - El Departamento de Nosotros: How Machine Translated Corpora Affects
Language Models in MRC Tasks [0.12183405753834563]
大規模言語モデル(LM)の事前学習には大量のテキストコーパスが必要である。
下流自然言語処理タスクの微調整に直接翻訳コーパスを適用する際の注意点について検討する。
後処理に伴う慎重なキュレーションにより,性能が向上し,LM全体の堅牢性が向上することを示す。
論文 参考訳(メタデータ) (2020-07-03T22:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。