論文の概要: Efficient Online Data Mixing For Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2312.02406v2
- Date: Sat, 9 Dec 2023 00:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:54:10.638660
- Title: Efficient Online Data Mixing For Language Model Pre-Training
- Title(参考訳): 言語モデル事前学習のための効率的なオンラインデータ混合
- Authors: Alon Albalak and Liangming Pan and Colin Raffel and William Yang Wang
- Abstract要約: 既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 101.45242332613944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The data used to pretrain large language models has a decisive impact on a
model's downstream performance, which has led to a large body of work on data
selection methods that aim to automatically determine the most suitable data to
use for pretraining. Existing data selection methods suffer from slow and
computationally expensive processes, a problem amplified by the increasing size
of models and of pretraining datasets. Data mixing, on the other hand, reduces
the complexity of data selection by grouping data points together and
determining sampling probabilities across entire groups. However, data mixing
proportions are typically fixed before training and therefore cannot adapt to
changing training dynamics. To address these limitations, we develop an
efficient algorithm for Online Data Mixing (ODM) that combines elements from
both data selection and data mixing. Based on multi-armed bandit algorithms,
our online approach optimizes the data mixing proportions during training.
Remarkably, our method trains a model that reaches the final perplexity of the
next best method with 19\% fewer training iterations, and improves performance
on the 5-shot MMLU benchmark by 1.9% relative accuracy, while adding negligible
wall-clock time during pretraining.
- Abstract(参考訳): 大規模言語モデルの事前トレーニングに使用されるデータは、モデル下流のパフォーマンスに決定的な影響を与え、事前トレーニングに使用する最も適切なデータを自動的に決定することを目的とした、データ選択方法に関する膨大な作業につながった。
既存のデータ選択手法は、モデルのサイズの増加とデータセットの事前トレーニングによって増幅される、低速で計算コストの高いプロセスに苦しむ。
一方、データ混合はデータポイントをグループ化し、グループ全体のサンプリング確率を決定することで、データ選択の複雑さを低減している。
しかしながら、データ混合比率はトレーニング前に固定されるため、トレーニングダイナミクスの変化に対応できない。
これらの制約に対処するために,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
マルチアームバンディットアルゴリズムに基づくオンラインアプローチでは,トレーニング中のデータ混合比率を最適化する。
また,本手法では,1.9%の精度で5ショットMMLUベンチマークの性能を向上し,事前トレーニング中に壁面時間を追加することで,次のベストメソッドの難易度に達するモデルを訓練する。
関連論文リスト
- Scalable Data Ablation Approximations for Language Models through Modular Training and Merging [27.445079398772904]
本稿では,学習コーパスのサブセット上で個々のモデルを訓練するデータ短縮を効果的に近似する方法を提案する。
任意の評価セットが与えられた場合、候補データに基づいてトレーニングされた単一モデルのパープレキシティスコアは、そのデータの異なる分割に基づいてトレーニングされたモデルのパラメータ平均のパープレキシティスコアと強く相関していることが分かる。
論文 参考訳(メタデータ) (2024-10-21T06:03:49Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Data Augmentation by Selecting Mixed Classes Considering Distance
Between Classes [9.690454593095495]
ミックスアップのような複数のデータセットから混合データを生成する方法は、精度の向上に大きく貢献する。
本稿では,クラス間の距離をクラス確率に基づいて計算するデータ拡張手法を提案する。
提案手法により,画像認識データセットの認識性能が向上することを示す。
論文 参考訳(メタデータ) (2022-09-12T10:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。