論文の概要: A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity
- arxiv url: http://arxiv.org/abs/2305.13169v2
- Date: Mon, 13 Nov 2023 14:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:52:15.596132
- Title: A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity
- Title(参考訳): プレトレーナーのトレーニングデータガイド:データ年代, ドメイン被覆, 品質, 毒性の影響の測定
- Authors: Shayne Longpre, Gregory Yauney, Emily Reif, Katherine Lee, Adam
Roberts, Barret Zoph, Denny Zhou, Jason Wei, Kevin Robinson, David Mimno,
Daphne Ippolito
- Abstract要約: この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
- 参考スコア(独自算出の注目度): 84.6421260559093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining is the preliminary and fundamental step in developing capable
language models (LM). Despite this, pretraining data design is critically
under-documented and often guided by empirically unsupported intuitions. To
address this, we pretrain 28 1.5B parameter decoder-only models, training on
data curated (1) at different times, (2) with varying toxicity and quality
filters, and (3) with different domain compositions. First, we quantify the
effect of pretraining data age. A temporal shift between evaluation data and
pretraining data leads to performance degradation, which is not overcome by
finetuning. Second, we explore the effect of quality and toxicity filters,
showing a trade-off between performance on standard benchmarks and risk of
toxic generations. Our findings indicate there does not exist a
one-size-fits-all solution to filtering training data. We also find that the
effects of different types of filtering are not predictable from text domain
characteristics. Lastly, we empirically validate that the inclusion of
heterogeneous data sources, like books and web, is broadly beneficial and
warrants greater prioritization. These findings constitute the largest set of
experiments to validate, quantify, and expose many undocumented intuitions
about text pretraining, which we hope will help support more informed
data-centric decisions in LM development.
- Abstract(参考訳): 事前訓練は、能力言語モデル(LM)を開発するための予備的かつ基本的なステップである。
それにもかかわらず、事前トレーニングされたデータ設計は、批判的に文書化され、経験的にサポートされていない直観によって導かれることが多い。
これに対処するために,28 1.5bパラメータのデコーダのみをプリトレーニングし,(1) 異なるタイミングでデータキュレートし,(2) 毒性と品質の異なるフィルタ,(3) 異なるドメイン組成でトレーニングを行った。
まず,データ年齢の事前学習の効果を定量化する。
評価データと事前学習データの間の時間的シフトは、微調整によって克服されない性能劣化につながる。
第2に、品質と毒性フィルターの効果を調査し、標準ベンチマークにおける性能と有害世代のリスクのトレードオフを示す。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
また, 異なる種類のフィルタリングの効果は, テキスト領域の特性から予測できないことがわかった。
最後に、本やwebのような異質なデータソースを含むことは広く有益であり、優先順位付けがより重要であることを実証的に検証する。
これらの結果は、テキストプリトレーニングに関する文書化されていない多くの直観を検証、定量化し、公開するための、最大の実験セットを構成する。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。