論文の概要: CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models
- arxiv url: http://arxiv.org/abs/2407.17467v1
- Date: Wed, 24 Jul 2024 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:05:35.467371
- Title: CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models
- Title(参考訳): CMRスケーリング法:言語モデルの継続事前学習における臨界混合率の予測
- Authors: Jiawei Gu, Zacc Yang, Chuanghao Ding, Rui Zhao, Fei Tan,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクで優れるが、ドメイン固有またはプロプライエタリなコーパスに制限があるため、特殊分野では性能が劣ることが多い。
我々は、一般とドメイン固有の機能間のトレードオフを形式化し、一般とドメインデータの明確に定義された臨界混合比(CMR)をもたらす。
- 参考スコア(独自算出の注目度): 9.661578977988743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel in diverse tasks but often underperform in specialized fields due to limited domain-specific or proprietary corpus. Continual pre-training (CPT) enhances LLM capabilities by imbuing new domain-specific or proprietary knowledge while replaying general corpus to prevent catastrophic forgetting. The data mixture ratio of general corpus and domain-specific corpus, however, has been chosen heuristically, leading to sub-optimal training efficiency in practice. In this context, we attempt to re-visit the scaling behavior of LLMs under the hood of CPT, and discover a power-law relationship between loss, mixture ratio, and training tokens scale. We formalize the trade-off between general and domain-specific capabilities, leading to a well-defined Critical Mixture Ratio (CMR) of general and domain data. By striking the balance, CMR maintains the model's general ability and achieves the desired domain transfer, ensuring the highest utilization of available resources. Therefore, if we value the balance between efficiency and effectiveness, CMR can be consider as the optimal mixture ratio.Through extensive experiments, we ascertain the predictability of CMR, and propose CMR scaling law and have substantiated its generalization. These findings offer practical guidelines for optimizing LLM training in specialized domains, ensuring both general and domain-specific performance while efficiently managing training resources.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクで優れるが、ドメイン固有またはプロプライエタリなコーパスに制限があるため、特殊分野では性能が劣ることが多い。
連続事前学習(CPT)は、破滅的な忘れ込みを防ぐために一般コーパスを再生しながら、新しいドメイン固有またはプロプライエタリな知識を付与することでLLM能力を増強する。
しかし、一般コーパスとドメイン固有コーパスのデータ混合比はヒューリスティックに選ばれ、実際は準最適トレーニング効率をもたらす。
そこで本研究では,LCMのスケーリング挙動を再検討し,損失,混合比,トレーニングトークンのスケールの関係を明らかにする。
我々は、一般とドメイン固有の機能間のトレードオフを形式化し、一般とドメインデータの明確に定義された臨界混合比(CMR)をもたらす。
バランスを打つことで、CMRはモデルの一般的な能力を維持し、望ましいドメイン転送を実現し、利用可能なリソースを最大限に活用する。
したがって,効率と有効性のバランスを評価すれば,CMRを最適混合比とみなすことが可能であり,CMRの予測可能性を確認し,CMRスケーリング法則を提案し,その一般化を実証した。
これらの知見は, LLMトレーニングを専門領域で最適化するための実践的ガイドラインを提供し, 訓練資源を効率的に管理しながら, 一般分野とドメイン固有のパフォーマンスを両立させるものである。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models [53.622682408251755]
本稿では,ドメイン固有の連続事前学習法(D-CPT法)のスケーリング法を提案し,最適混合比と許容するトレーニングコストを決定する。
具体的には、D-CPT法則を適合させることで、任意の混合比の一般および下流性能を容易に予測できる。
また、クロスドメイン設定に関する標準D-CPT法を拡張し、クロスドメインD-CPT法を提案する。
論文 参考訳(メタデータ) (2024-06-03T14:40:31Z) - On the Convergence of Zeroth-Order Federated Tuning for Large Language Models [36.277423093218275]
Federated Learning and Large Language Models (LLMs) は、プライバシを保存する自然言語処理の新しい時代を支えている。
メモリ効率のゼロ階最適化は、FedMeZOと呼ばれる相乗効果である。
LLMの文脈でFedMeZOの理論的基盤を最初に検討した。
論文 参考訳(メタデータ) (2024-02-08T18:56:40Z) - COPR: Continual Learning Human Preference through Optimal Policy Regularization [32.54658750353585]
我々はCOPR(Continuous Optimal Policy Regularization)と呼ばれる新しい手法を提案する。
COPRは単一の学習フェーズを含み、複雑な強化学習を必要としない。
実験の結果、COPRは強力な継続的学習(CL)ベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T10:05:32Z) - Specificity-Preserving Federated Learning for MR Image Reconstruction [94.58912814426122]
統合学習は、磁気共鳴(MR)画像再構成におけるデータのプライバシーと効率を改善するために使用できる。
近年のFL技術は、グローバルモデルの一般化を強化することで、この問題を解決する傾向にある。
MR画像再構成のための特異性保存FLアルゴリズム(FedMRI)を提案する。
論文 参考訳(メタデータ) (2021-12-09T22:13:35Z) - Cross-Domain Sentiment Classification with Contrastive Learning and
Mutual Information Maximization [48.41392004071199]
CLIM: Contrastive Learning with mutual Information Maximization, to explore the potential of CL on cross-domain sentiment classification。
対象ドメインにラベルが不足しているため、最終予測を最も支援する特徴を活用するために、CLとは別に相互情報(MIM)を導入する。
提案手法であるCLIMの有効性を示すため,Amazon-Reviewデータセットと航空会社データセットを用いて,新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2020-10-30T06:12:01Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。