論文の概要: D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.01375v1
- Date: Mon, 3 Jun 2024 14:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:49:47.396039
- Title: D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models
- Title(参考訳): D-CPT法:大規模言語モデルのドメイン固有連続事前学習法
- Authors: Haoran Que, Jiaheng Liu, Ge Zhang, Chenchen Zhang, Xingwei Qu, Yinghao Ma, Feiyu Duan, Zhiqi Bai, Jiakai Wang, Yuanxing Zhang, Xu Tan, Jie Fu, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng,
- Abstract要約: 本稿では,ドメイン固有の連続事前学習法(D-CPT法)のスケーリング法を提案し,最適混合比と許容するトレーニングコストを決定する。
具体的には、D-CPT法則を適合させることで、任意の混合比の一般および下流性能を容易に予測できる。
また、クロスドメイン設定に関する標準D-CPT法を拡張し、クロスドメインD-CPT法を提案する。
- 参考スコア(独自算出の注目度): 53.622682408251755
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Continual Pre-Training (CPT) on Large Language Models (LLMs) has been widely used to expand the model's fundamental understanding of specific downstream domains (e.g., math and code). For the CPT on domain-specific LLMs, one important question is how to choose the optimal mixture ratio between the general-corpus (e.g., Dolma, Slim-pajama) and the downstream domain-corpus. Existing methods usually adopt laborious human efforts by grid-searching on a set of mixture ratios, which require high GPU training consumption costs. Besides, we cannot guarantee the selected ratio is optimal for the specific domain. To address the limitations of existing methods, inspired by the Scaling Law for performance prediction, we propose to investigate the Scaling Law of the Domain-specific Continual Pre-Training (D-CPT Law) to decide the optimal mixture ratio with acceptable training costs for LLMs of different sizes. Specifically, by fitting the D-CPT Law, we can easily predict the general and downstream performance of arbitrary mixture ratios, model sizes, and dataset sizes using small-scale training costs on limited experiments. Moreover, we also extend our standard D-CPT Law on cross-domain settings and propose the Cross-Domain D-CPT Law to predict the D-CPT law of target domains, where very small training costs (about 1% of the normal training costs) are needed for the target domains. Comprehensive experimental results on six downstream domains demonstrate the effectiveness and generalizability of our proposed D-CPT Law and Cross-Domain D-CPT Law.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるCPT(Continuous Pre-Training)は、特定の下流ドメイン(例えば、数学やコード)に対するモデルの基本的理解を拡大するために広く用いられている。
ドメイン固有LLMに関するCPTでは、一般コーパス(例えば、Dolma、Slim-pajama)と下流ドメインコーパスの最適混合比をどのように選択するかが重要な問題である。
既存の手法では、GPUトレーニングのコストが高い混合比のセットをグリッドサーチすることで、退屈な人間の努力を採用するのが一般的である。
さらに、選択された比率が特定の領域に最適であることを保証できない。
性能予測のためのスケーリング法(Scaling Law for Performance Prediction)に触発された既存手法の限界に対処するため,ドメイン固有連続事前学習法(D-CPT Law)のスケーリング法を検討し,異なるサイズのLCMに対して許容するトレーニングコストと最適混合比を決定することを提案する。
具体的には、D-CPT法を適用すれば、任意の混合比、モデルサイズ、データセットサイズの一般および下流性能を、限られた実験において小規模のトレーニングコストを用いて容易に予測できる。
さらに、クロスドメイン設定に関する標準D-CPT法を拡張し、ターゲットドメインのD-CPT法を予測するクロスドメインD-CPT法を提案し、ターゲットドメインに対して非常に少ないトレーニングコスト(通常のトレーニングコストの約1%)が必要となる。
6つの下流領域における総合的な実験結果から,提案したD-CPT法とクロスドメインD-CPT法の有効性と一般化性を示した。
関連論文リスト
- CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models [9.661578977988743]
大規模言語モデル(LLM)は様々なタスクで優れるが、ドメイン固有またはプロプライエタリなコーパスに制限があるため、特殊分野では性能が劣ることが多い。
我々は、一般とドメイン固有の機能間のトレードオフを形式化し、一般とドメインデータの明確に定義された臨界混合比(CMR)をもたらす。
論文 参考訳(メタデータ) (2024-07-24T17:59:02Z) - Scaling Laws for Downstream Task Performance of Large Language Models [28.904224842085064]
プレトレーニングデータの選択が、下流のクロスエントロピーとBLEUスコアの2つの指標から判断された下流のパフォーマンス(翻訳品質)にどのように影響するかを検討する。
十分なアライメントで、下流のクロスエントロピーとBLEUスコアは、より事前トレーニングされたデータによって単調に改善される。
論文 参考訳(メタデータ) (2024-02-06T17:31:20Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - Rehearsal-Free Domain Continual Face Anti-Spoofing: Generalize More and
Forget Less [30.737133780202985]
Face Anti-Spoofing (FAS) は、最近、継続的な学習環境下で研究されている。
既存のメソッドでは、リハーサルのために前のデータを格納するために余分なリプレイバッファが必要です。
ドメイン継続学習のための最初のリハーサルのない手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:22:53Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。
本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。
もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文 参考訳(メタデータ) (2022-08-18T06:42:49Z) - LAMA-Net: Unsupervised Domain Adaptation via Latent Alignment and
Manifold Learning for RUL Prediction [0.0]
我々は,エンコーダ-デコーダベースモデル(Transformer)であるtextitLAMA-Net,平均最大離散性(MMD)を用いた潜在アライメント,および多様体学習を提案する。
提案手法は、RUL予測において領域適応を行うための有望なアプローチを提供する。
論文 参考訳(メタデータ) (2022-08-17T16:28:20Z) - Disentangled Modeling of Domain and Relevance for Adaptable Dense
Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。
REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。
DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-08-11T11:18:50Z) - Model-Based Domain Generalization [96.84818110323518]
本稿では,モデルベースドメイン一般化問題に対する新しいアプローチを提案する。
我々のアルゴリズムは、最新のwildsベンチマークの最先端手法を最大20ポイント上回った。
論文 参考訳(メタデータ) (2021-02-23T00:59:02Z) - Rethinking Distributional Matching Based Domain Adaptation [111.15106414932413]
ドメイン適応(DA)は、ラベル付きソースドメインでトレーニングされた予測モデルをラベル付きターゲットドメインに転送するテクニックである。
最も一般的なDAアルゴリズムは、分散マッチング(DM)に基づいている。
本稿では,まずDMに基づく手法の限界を体系的に分析し,さらに現実的なドメインシフトを持つ新しいベンチマークを構築する。
論文 参考訳(メタデータ) (2020-06-23T21:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。