Fugu-MT 論文翻訳(概要): DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

論文の概要: DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

arxiv url: http://arxiv.org/abs/2305.10429v4
Date: Tue, 21 Nov 2023 02:01:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 05:13:58.475679
Title: DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
Title（参考訳）: DoReMi: データ混合の最適化が言語モデルの事前トレーニングを高速化
Authors: Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu, Yifeng Lu, Percy Liang, Quoc V. Le, Tengyu Ma, Adams Wei Yu
Abstract要約: ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。 DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
参考スコア（独自算出の注目度）: 148.90031913522648
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The mixture proportions of pretraining data domains (e.g., Wikipedia, books, web text) greatly affect language model (LM) performance. In this paper, we propose Domain Reweighting with Minimax Optimization (DoReMi), which first trains a small proxy model using group distributionally robust optimization (Group DRO) over domains to produce domain weights (mixture proportions) without knowledge of downstream tasks. We then resample a dataset with these domain weights and train a larger, full-sized model. In our experiments, we use DoReMi on a 280M-parameter proxy model to set the domain weights for training an 8B-parameter model (30x larger) more efficiently. On The Pile, DoReMi improves perplexity across all domains, even when it downweights a domain. DoReMi improves average few-shot downstream accuracy by 6.5% points over a baseline model trained using The Pile's default domain weights and reaches the baseline accuracy with 2.6x fewer training steps. On the GLaM dataset, DoReMi, which has no knowledge of downstream tasks, even matches the performance of using domain weights tuned on downstream tasks.
Abstract（参考訳）: 事前学習データドメイン(wikipedia、書籍、webテキストなど)の混合比率は、言語モデル(lm)の性能に大きく影響する。本稿では,minimax optimization (doremi) によるドメインの重み付けを提案する。これはまず,グループ分散ロバスト最適化 (group distributionally robust optimization, group dro) を用いた小さなプロキシモデルを,ダウンストリームタスクを知らずにドメインの重み付け (mixture proportions) を生成する。次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。実験では,DoReMiを280Mパラメータプロキシモデルに使用し,ドメイン重みを8Bパラメータモデル(30倍大きい)のトレーニングに利用した。 The Pileでは、DoReMiはドメインをダウンウェイトしても、すべてのドメインのパープレキシティを改善します。 DoReMiは、The Pileのデフォルトドメインウェイトを使用してトレーニングされたベースラインモデルに対して平均的な数ショットダウンストリーム精度を6.5%改善し、2.6倍のトレーニングステップでベースライン精度に達する。 GLaMデータセットでは、下流タスクの知識がないDoReMiが、下流タスクにチューニングされたドメインウェイトの使用パフォーマンスにマッチする。

関連論文リスト

Scaling Laws for Optimal Data Mixtures [30.981047302765138]
スケーリング法則を用いて、任意の対象領域に対して最適なデータ混合を決定するための体系的手法を提案する。我々は,これらのスケーリング法則の普遍性を,その予測力を3つの異なる大規模設定で示すことによって検証する。
論文参考訳（メタデータ） (2025-07-12T21:16:08Z)
DIDS: Domain Impact-aware Data Sampling for Large Language Model Training [61.10643823069603]
大規模言語モデルに対するドメインインパクト対応データサンプリング(DIDS)を提案する。学習効果に基づくDIDSグループトレーニングデータでは、プロキシ言語モデルと次元削減が使用される。同等のトレーニング効率を維持しながら平均パフォーマンスを3.4%向上させる。
論文参考訳（メタデータ） (2025-04-17T13:09:38Z)
Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文参考訳（メタデータ） (2025-01-26T15:12:06Z)
DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining [2.1534028009401713]
大規模言語モデル(LLM)は、多くの業界領域で効果的に一般化する能力を示している。 LLMは、専門分野や低リソース産業領域での業務を行う際の制限を示す。本研究では,シードガイドデータマイニングによるDoPAMine:Domain固有の事前トレーニング適応を提案する。
論文参考訳（メタデータ） (2024-09-30T22:15:58Z)
Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning [25.359270812682155]
ロボット基礎モデル事前学習のためのロボットデータセットの異なるサブセットやドメインの重み付けについて検討する。我々の手法であるRe-Mixは、ロボットデータセットにDROを適用する際に生じる幅広い課題に対処する。
論文参考訳（メタデータ） (2024-08-26T06:14:25Z)
AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。 2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文参考訳（メタデータ） (2024-07-29T17:06:30Z)
DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (2024-06-17T17:42:57Z)
Does your data spark joy? Performance gains from domain upsampling at the end of training [16.572129046599937]
大規模なFLモデルスケールでのトレーニングにおけるドメイン固有のデータセットの影響を理解することは、費用がかかる。ドメインアップサンプリングを使用して、さまざまなベンチマークを改善するために、個々のデータセットの有用性を大規模に特徴付ける。このツールは、さまざまな事前トレーニングデータセットの影響を大規模に実験する機能を開放するが、完全な事前トレーニング実行に比べてコストが低い。
論文参考訳（メタデータ） (2024-06-05T17:29:15Z)
DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。 DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文参考訳（メタデータ） (2023-10-23T22:51:58Z)
AdapterSoup: Weight Averaging to Improve Generalization of Pretrained Language Models [127.04370753583261]
事前訓練された言語モデル(PLM)は、大規模なコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。本稿では、異なるドメインでトレーニングされたアダプタの重量空間平均化を行うAdapterSoupを紹介する。
論文参考訳（メタデータ） (2023-02-14T13:09:23Z)
Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization [63.28279815753543]
ドメイン一般化(Domain Generalization, DG)設定では、特定のトレーニングドメインセットでトレーニングされたモデルが、シフトしたテストドメイン上でのカオスなパフォーマンスで悪名高い。まず、モデルパラメータを最適化パスに沿って平均化する単純なプロトコルが、トレーニングの初期段階から始まって、ドメインの一般化性を大幅に向上させることを示す。独立に訓練されたモデルのアンサンブルもまた、DG設定においてカオスな振る舞いを持つことを示す。
論文参考訳（メタデータ） (2021-10-21T00:08:17Z)
Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文参考訳（メタデータ） (2021-04-02T12:53:15Z)
Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文参考訳（メタデータ） (2020-03-03T18:07:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。