論文の概要: The MiniPile Challenge for Data-Efficient Language Models
- arxiv url: http://arxiv.org/abs/2304.08442v1
- Date: Mon, 17 Apr 2023 17:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:12:38.142400
- Title: The MiniPile Challenge for Data-Efficient Language Models
- Title(参考訳): データ効率の良い言語モデルのためのMiniPileチャレンジ
- Authors: Jean Kaddour
- Abstract要約: The MiniPile Challengeでは、少なくとも100万のドキュメントを含む多種多様なテキストコーパス上で、言語モデルを事前訓練する。
MiniPileは825GBのThe Pile corpusの6GBサブセットである。
言語モデルの事前トレーニングに対するMiniPileの適合性を検証するために、BERTとT5モデルを事前トレーニングするために使用しました。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ever-growing diversity of pre-training text corpora has equipped language
models with generalization capabilities across various downstream tasks.
However, such diverse datasets are often too large for academic budgets; hence,
most research on Transformer architectures, training procedures, optimizers,
etc. gets conducted on smaller, homogeneous datasets. To this end, we present
The MiniPile Challenge, where one pre-trains a language model on a diverse text
corpus containing at most 1M documents. MiniPile is a 6GB subset of the
deduplicated 825GB The Pile corpus. To curate MiniPile, we perform a simple,
three-step data filtering process: we (1) infer embeddings for all documents of
the Pile, (2) cluster the embedding space using $k$-means, and (3) filter out
low-quality clusters. To verify MiniPile's suitability for language model
pre-training, we use it to pre-train a BERT and T5 model, yielding a
performance drop of only $1.9\%$/$2.5\%$ on the GLUE and SNI benchmarks
compared to the original pre-trained checkpoints trained on $2.6$x/$745$x the
amount of data. MiniPile is available at
https://huggingface.co/datasets/JeanKaddour/minipile.
- Abstract(参考訳): トレーニング前のテキストコーパスの多様性は、さまざまな下流タスクにまたがる一般化機能を備えた言語モデルを備えている。
しかしながら、このような多様なデータセットは学術予算には大きすぎることが多いため、トランスフォーマーアーキテクチャ、トレーニング手順、オプティマイザなどに関するほとんどの研究は、より小さく均質なデータセットで行われている。
そこで本研究では,100万以上の文書を含む多種多様なテキストコーパス上で言語モデルを事前学習するミニピルチャレンジを提案する。
MiniPileは825GBのThe Pile corpusの6GBサブセットである。
MiniPileをキュレートするには、(1)Pileの全ドキュメントに対する埋め込みを推測し、(2)$k$-meansを使って埋め込みスペースをクラスタ化し、(3)低品質クラスタをフィルタリングする。
言語モデルの事前トレーニングに対するMiniPileの適合性を検証するために、BERTとT5モデルの事前トレーニングに使用し、GLUEとSNIベンチマークで2.6$x/$745$xでトレーニングされた当初のチェックポイントと比較して、パフォーマンス低下はわずか1.9\%$/$2.5\%である。
MiniPileはhttps://huggingface.co/datasets/JeanKaddour/minipile.comから入手できる。
関連論文リスト
- Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Test-Time Training on Nearest Neighbors for Large Language Models [25.365366617508663]
Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。
テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。
驚くべきことに、20以上の言語モデリングタスクにおいて、20人程度の隣人の検索とトレーニングが大幅にパフォーマンスを向上します。
論文 参考訳(メタデータ) (2023-05-29T08:03:28Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - CLASP: Few-Shot Cross-Lingual Data Augmentation for Semantic Parsing [9.338266891598973]
CLASPはAlexaTM 20Bから合成データを生成し、モデルのトレーニングセットを40倍小さくする(500Mパラメータ)。
低リソース環境での2つのデータセットを評価する。348例または16例の実例を含む英語PIZZAと、トレーニングデータが英語でのみ利用できるmTOPクロスランガルゼロショットである。
論文 参考訳(メタデータ) (2022-10-13T15:01:03Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - BERTIN: Efficient Pre-Training of a Spanish Language Model using
Perplexity Sampling [0.0]
Common Crawlは、この事前学習サブ最適化を実現するのに十分なノイズを含むかもしれない。
約半分のステップで言語モデルの事前学習を可能にする新しいデータ中心手法を提案する。
私たちの仕事はトランスフォーマーの汎用性の証明であり、小さなチームが限られた予算でモデルをトレーニングするための道を開くものです。
論文 参考訳(メタデータ) (2022-07-14T10:48:42Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Multilingual Translation via Grafting Pre-trained Language Models [12.787188625198459]
本稿では,機械翻訳のための事前学習言語モデルを個別に移植するGraformerを提案する。
事前学習のための単言語データと移植訓練のための並列データを用いて,両タイプのデータの利用を最大限に活用する。
論文 参考訳(メタデータ) (2021-09-11T10:57:45Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。