論文の概要: DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2305.10429v1
- Date: Wed, 17 May 2023 17:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 14:24:00.514284
- Title: DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
- Title(参考訳): DoReMi: データ混合の最適化が言語モデルの事前トレーニングを高速化
- Authors: Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu, Yifeng
Lu, Percy Liang, Quoc V. Le, Tengyu Ma, Adams Wei Yu
- Abstract要約: ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。
DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。
次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
- 参考スコア(独自算出の注目度): 172.28387432256244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mixture proportions of pretraining data domains (e.g., Wikipedia, books,
web text) greatly affect language model (LM) performance. In this paper, we
propose Domain Reweighting with Minimax Optimization (DoReMi), which first
trains a small proxy model using group distributionally robust optimization
(Group DRO) over domains to produce domain weights (mixture proportions)
without knowledge of downstream tasks. We then resample a dataset with these
domain weights and train a larger, full-sized model. In our experiments, we use
DoReMi on a 280M-parameter proxy model to find domain weights for training an
8B-parameter model (30x larger) more efficiently. On The Pile, DoReMi improves
perplexity across all domains, even when it downweights a domain. DoReMi
improves average few-shot downstream accuracy by 6.5% over a baseline model
trained using The Pile's default domain weights and reaches the baseline
accuracy with 2.6x fewer training steps. On the GLaM dataset, DoReMi, which has
no knowledge of downstream tasks, even matches the performance of using domain
weights tuned on downstream tasks.
- Abstract(参考訳): 事前学習データドメイン(wikipedia、書籍、webテキストなど)の混合比率は、言語モデル(lm)の性能に大きく影響する。
本稿では,minimax optimization (doremi) によるドメインの重み付けを提案する。これはまず,グループ分散ロバスト最適化 (group distributionally robust optimization, group dro) を用いた小さなプロキシモデルを,ダウンストリームタスクを知らずにドメインの重み付け (mixture proportions) を生成する。
次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
実験では、280Mパラメータのプロキシモデル上でDoReMiを使用して、8Bパラメータモデル(30倍大きい)をより効率的にトレーニングするためのドメイン重みを求める。
The Pileでは、DoReMiはドメインをダウンウェイトしても、すべてのドメインのパープレキシティを改善します。
DoReMiは、The Pileのデフォルトドメインウェイトを使用してトレーニングされたベースラインモデルに対して平均的な数ショットダウンストリーム精度を6.5%改善し、トレーニングステップの2.6倍の精度でベースライン精度に達する。
GLaMデータセットでは、下流タスクの知識がないDoReMiが、下流タスクにチューニングされたドメインウェイトの使用パフォーマンスにマッチする。
関連論文リスト
- AdapterSoup: Weight Averaging to Improve Generalization of Pretrained
Language Models [127.04370753583261]
事前訓練された言語モデル(PLM)は、大規模なコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。
解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。
本稿では、異なるドメインでトレーニングされたアダプタの重量空間平均化を行うAdapterSoupを紹介する。
論文 参考訳(メタデータ) (2023-02-14T13:09:23Z) - Efficient Domain Adaptation for Speech Foundation Models [42.81357437023811]
本稿では,FMに基づく音声認識システムのための効率的なソリューション構築に向けた先駆的な研究について述べる。
我々は、最近開発された自己教師型BEST-RQを事前学習に適用し、ソースデータと教師なしターゲットドメインデータとの結合微調整を提案する。
大規模なYouTubeおよびVoice Searchタスクにおいて,本手法はデータとモデルパラメータの両方を効率よく行うことが示されている。
論文 参考訳(メタデータ) (2023-02-03T02:10:35Z) - Adaptation Approaches for Nearest Neighbor Language Models [4.839933270878873]
半パラメトリック近傍言語モデル(k$NN-LMs)は、純粋にパラメトリックなLMよりも顕著に向上している。
この作業はそのギャップを埋めようと試み、新しいドメインに$k$NN-LMを適用するための次のアプローチを提案する。
それぞれの適応戦略を別々に検討し, アブレーション実験と広範囲な評価を行った。
論文 参考訳(メタデータ) (2022-11-15T01:10:52Z) - Evaluating Parameter Efficient Learning for Generation [32.52577462253145]
PERMとファインタニングを3つの新しい視点から比較する。
その結果、ドメイン内設定(a)では、PERMsがより少ないサンプルでトレーニングする際の微調整よりも優れた性能を示し、(b)より大きなPLMが存在することがわかった。
また、世代ごとの忠実度を比較し、特に小さなトレーニングセットにおいて、PERMsが微調整よりも忠実度を最大6%向上できることを示す。
論文 参考訳(メタデータ) (2022-10-25T00:14:48Z) - InPars: Data Augmentation for Information Retrieval using Large Language
Models [5.851846467503597]
本研究では,大規模な事前学習型言語モデルの,情報検索タスクのための合成データ生成機能を利用する。
我々は、教師なしデータセットのみに微調整されたモデルが、BM25のような強力なベースラインより優れていることを示す。
教師付きデータと我々の合成データの両方に微調整されたレトリバーは、教師付きデータにのみ微調整されたモデルよりも優れたゼロショット転送を実現する。
論文 参考訳(メタデータ) (2022-02-10T16:52:45Z) - Ensemble of Averages: Improving Model Selection and Boosting Performance
in Domain Generalization [63.28279815753543]
ドメイン一般化(Domain Generalization, DG)設定では、特定のトレーニングドメインセットでトレーニングされたモデルが、シフトしたテストドメイン上でのカオスなパフォーマンスで悪名高い。
まず、モデルパラメータを最適化パスに沿って平均化する単純なプロトコルが、トレーニングの初期段階から始まって、ドメインの一般化性を大幅に向上させることを示す。
独立に訓練されたモデルのアンサンブルもまた、DG設定においてカオスな振る舞いを持つことを示す。
論文 参考訳(メタデータ) (2021-10-21T00:08:17Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z) - Few-shot Image Generation with Elastic Weight Consolidation [53.556446614013105]
少ないショット画像生成は、利用可能なトレーニング例がほとんどなく、与えられたドメインのより多くのデータを生成することを目指している。
対象ドメインのいくつかの例に、追加のパラメータを導入することなく、事前訓練されたモデルを適用する。
我々は,異なる対象領域の高品質な結果を生成することにより,アルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-04T18:57:13Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。