論文の概要: CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models
- arxiv url: http://arxiv.org/abs/2407.17467v1
- Date: Wed, 24 Jul 2024 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:05:35.467371
- Title: CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models
- Title(参考訳): CMRスケーリング法:言語モデルの継続事前学習における臨界混合率の予測
- Authors: Jiawei Gu, Zacc Yang, Chuanghao Ding, Rui Zhao, Fei Tan,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクで優れるが、ドメイン固有またはプロプライエタリなコーパスに制限があるため、特殊分野では性能が劣ることが多い。
我々は、一般とドメイン固有の機能間のトレードオフを形式化し、一般とドメインデータの明確に定義された臨界混合比(CMR)をもたらす。
- 参考スコア(独自算出の注目度): 9.661578977988743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel in diverse tasks but often underperform in specialized fields due to limited domain-specific or proprietary corpus. Continual pre-training (CPT) enhances LLM capabilities by imbuing new domain-specific or proprietary knowledge while replaying general corpus to prevent catastrophic forgetting. The data mixture ratio of general corpus and domain-specific corpus, however, has been chosen heuristically, leading to sub-optimal training efficiency in practice. In this context, we attempt to re-visit the scaling behavior of LLMs under the hood of CPT, and discover a power-law relationship between loss, mixture ratio, and training tokens scale. We formalize the trade-off between general and domain-specific capabilities, leading to a well-defined Critical Mixture Ratio (CMR) of general and domain data. By striking the balance, CMR maintains the model's general ability and achieves the desired domain transfer, ensuring the highest utilization of available resources. Therefore, if we value the balance between efficiency and effectiveness, CMR can be consider as the optimal mixture ratio.Through extensive experiments, we ascertain the predictability of CMR, and propose CMR scaling law and have substantiated its generalization. These findings offer practical guidelines for optimizing LLM training in specialized domains, ensuring both general and domain-specific performance while efficiently managing training resources.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクで優れるが、ドメイン固有またはプロプライエタリなコーパスに制限があるため、特殊分野では性能が劣ることが多い。
連続事前学習(CPT)は、破滅的な忘れ込みを防ぐために一般コーパスを再生しながら、新しいドメイン固有またはプロプライエタリな知識を付与することでLLM能力を増強する。
しかし、一般コーパスとドメイン固有コーパスのデータ混合比はヒューリスティックに選ばれ、実際は準最適トレーニング効率をもたらす。
そこで本研究では,LCMのスケーリング挙動を再検討し,損失,混合比,トレーニングトークンのスケールの関係を明らかにする。
我々は、一般とドメイン固有の機能間のトレードオフを形式化し、一般とドメインデータの明確に定義された臨界混合比(CMR)をもたらす。
バランスを打つことで、CMRはモデルの一般的な能力を維持し、望ましいドメイン転送を実現し、利用可能なリソースを最大限に活用する。
したがって,効率と有効性のバランスを評価すれば,CMRを最適混合比とみなすことが可能であり,CMRの予測可能性を確認し,CMRスケーリング法則を提案し,その一般化を実証した。
これらの知見は, LLMトレーニングを専門領域で最適化するための実践的ガイドラインを提供し, 訓練資源を効率的に管理しながら, 一般分野とドメイン固有のパフォーマンスを両立させるものである。
関連論文リスト
- D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models [53.622682408251755]
本稿では,ドメイン固有の連続事前学習法(D-CPT法)のスケーリング法を提案し,最適混合比と許容するトレーニングコストを決定する。
具体的には、D-CPT法則を適合させることで、任意の混合比の一般および下流性能を容易に予測できる。
また、クロスドメイン設定に関する標準D-CPT法を拡張し、クロスドメインD-CPT法を提案する。
論文 参考訳(メタデータ) (2024-06-03T14:40:31Z) - COPR: Continual Human Preference Learning via Optimal Policy
Regularization [56.1193256819677]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合性を改善するために一般的に用いられる。
本稿では,最適政策理論からインスピレーションを得たCOPR法を提案する。
論文 参考訳(メタデータ) (2024-02-22T02:20:08Z) - On the Convergence of Zeroth-Order Federated Tuning for Large Language Models [36.277423093218275]
Federated Learning and Large Language Models (LLMs) は、プライバシを保存する自然言語処理の新しい時代を支えている。
メモリ効率のゼロ階最適化は、FedMeZOと呼ばれる相乗効果である。
LLMの文脈でFedMeZOの理論的基盤を最初に検討した。
論文 参考訳(メタデータ) (2024-02-08T18:56:40Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - COPR: Continual Learning Human Preference through Optimal Policy Regularization [32.54658750353585]
我々はCOPR(Continuous Optimal Policy Regularization)と呼ばれる新しい手法を提案する。
COPRは単一の学習フェーズを含み、複雑な強化学習を必要としない。
実験の結果、COPRは強力な継続的学習(CL)ベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T10:05:32Z) - Federated Learning under Covariate Shifts with Generalization Guarantees [46.56040078380132]
我々は、新しいグローバルモデルトレーニングパラダイムを策定し、フェデレート重要度重み付き経験的リスク最小化(FTW-ERM)を提案する。
FTW-ERMは、特定の設定下での古典的EMMよりも、より小さな一般化誤差を達成できることを示す。
論文 参考訳(メタデータ) (2023-06-08T16:18:08Z) - Specificity-Preserving Federated Learning for MR Image Reconstruction [94.58912814426122]
統合学習は、磁気共鳴(MR)画像再構成におけるデータのプライバシーと効率を改善するために使用できる。
近年のFL技術は、グローバルモデルの一般化を強化することで、この問題を解決する傾向にある。
MR画像再構成のための特異性保存FLアルゴリズム(FedMRI)を提案する。
論文 参考訳(メタデータ) (2021-12-09T22:13:35Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z) - Cross-Domain Sentiment Classification with Contrastive Learning and
Mutual Information Maximization [48.41392004071199]
CLIM: Contrastive Learning with mutual Information Maximization, to explore the potential of CL on cross-domain sentiment classification。
対象ドメインにラベルが不足しているため、最終予測を最も支援する特徴を活用するために、CLとは別に相互情報(MIM)を導入する。
提案手法であるCLIMの有効性を示すため,Amazon-Reviewデータセットと航空会社データセットを用いて,新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2020-10-30T06:12:01Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。