Fugu-MT 論文翻訳(概要): D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models

論文の概要: D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models

arxiv url: http://arxiv.org/abs/2406.01375v1
Date: Mon, 3 Jun 2024 14:40:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 22:49:47.396039
Title: D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models
Title（参考訳）: D-CPT法:大規模言語モデルのドメイン固有連続事前学習法
Authors: Haoran Que, Jiaheng Liu, Ge Zhang, Chenchen Zhang, Xingwei Qu, Yinghao Ma, Feiyu Duan, Zhiqi Bai, Jiakai Wang, Yuanxing Zhang, Xu Tan, Jie Fu, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng,
Abstract要約: 本稿では,ドメイン固有の連続事前学習法(D-CPT法)のスケーリング法を提案し,最適混合比と許容するトレーニングコストを決定する。具体的には、D-CPT法則を適合させることで、任意の混合比の一般および下流性能を容易に予測できる。また、クロスドメイン設定に関する標準D-CPT法を拡張し、クロスドメインD-CPT法を提案する。
参考スコア（独自算出の注目度）: 53.622682408251755
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Continual Pre-Training (CPT) on Large Language Models (LLMs) has been widely used to expand the model's fundamental understanding of specific downstream domains (e.g., math and code). For the CPT on domain-specific LLMs, one important question is how to choose the optimal mixture ratio between the general-corpus (e.g., Dolma, Slim-pajama) and the downstream domain-corpus. Existing methods usually adopt laborious human efforts by grid-searching on a set of mixture ratios, which require high GPU training consumption costs. Besides, we cannot guarantee the selected ratio is optimal for the specific domain. To address the limitations of existing methods, inspired by the Scaling Law for performance prediction, we propose to investigate the Scaling Law of the Domain-specific Continual Pre-Training (D-CPT Law) to decide the optimal mixture ratio with acceptable training costs for LLMs of different sizes. Specifically, by fitting the D-CPT Law, we can easily predict the general and downstream performance of arbitrary mixture ratios, model sizes, and dataset sizes using small-scale training costs on limited experiments. Moreover, we also extend our standard D-CPT Law on cross-domain settings and propose the Cross-Domain D-CPT Law to predict the D-CPT law of target domains, where very small training costs (about 1% of the normal training costs) are needed for the target domains. Comprehensive experimental results on six downstream domains demonstrate the effectiveness and generalizability of our proposed D-CPT Law and Cross-Domain D-CPT Law.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるCPT(Continuous Pre-Training)は、特定の下流ドメイン(例えば、数学やコード)に対するモデルの基本的理解を拡大するために広く用いられている。ドメイン固有LLMに関するCPTでは、一般コーパス(例えば、Dolma、Slim-pajama)と下流ドメインコーパスの最適混合比をどのように選択するかが重要な問題である。既存の手法では、GPUトレーニングのコストが高い混合比のセットをグリッドサーチすることで、退屈な人間の努力を採用するのが一般的である。さらに、選択された比率が特定の領域に最適であることを保証できない。性能予測のためのスケーリング法(Scaling Law for Performance Prediction)に触発された既存手法の限界に対処するため,ドメイン固有連続事前学習法(D-CPT Law)のスケーリング法を検討し,異なるサイズのLCMに対して許容するトレーニングコストと最適混合比を決定することを提案する。具体的には、D-CPT法を適用すれば、任意の混合比、モデルサイズ、データセットサイズの一般および下流性能を、限られた実験において小規模のトレーニングコストを用いて容易に予測できる。さらに、クロスドメイン設定に関する標準D-CPT法を拡張し、ターゲットドメインのD-CPT法を予測するクロスドメインD-CPT法を提案し、ターゲットドメインに対して非常に少ないトレーニングコスト(通常のトレーニングコストの約1%)が必要となる。 6つの下流領域における総合的な実験結果から,提案したD-CPT法とクロスドメインD-CPT法の有効性と一般化性を示した。

関連論文リスト

PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。 PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文参考訳（メタデータ） (2025-02-09T04:31:30Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文参考訳（メタデータ） (2025-01-03T19:28:53Z)
TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition [39.073835841717184]
クロスドメイン行動認識(CDFSAR)は近年研究の関心を集めている。本稿では,CDFSARのための簡易かつ効果的なベースラインであるTemporal-Aware Model Tuning (TAMT)を提案する。我々のTAMTは、ソースデータと微調整対象データで事前トレーニングを行うことで、複数のターゲットデータに対する単一のソースによる再トレーニングを回避することで、デカップリングパラダイムを含む。
論文参考訳（メタデータ） (2024-11-28T10:38:05Z)
Aligning CodeLLMs with Direct Preference Optimization [44.34483822102872]
この研究はまず、一般的に使われているPPOアルゴリズムがCodeLLMのアライメントに最適であることを示す。好みデータペアのみに基づいて、DPOはモデルランクデータを自動でレンダリングすることができ、きめ細かい報酬パターンを生み出す。本研究では,MBPPやHumanEvalなどのベンチマークにおいて,既存のCodeLLMの性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2024-10-24T09:36:13Z)
CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models [9.661578977988743]
大規模言語モデル(LLM)は様々なタスクで優れるが、ドメイン固有またはプロプライエタリなコーパスに制限があるため、特殊分野では性能が劣ることが多い。しかし、一般コーパスとドメイン固有コーパスのデータ混合比は忘れ去られ、実際は準最適トレーニング効率をもたらす。我々は、一般とドメイン固有の機能間のトレードオフを形式化し、一般とドメインデータの明確に定義された臨界混合比(CMR)をもたらす。
論文参考訳（メタデータ） (2024-07-24T17:59:02Z)
Scaling Laws for Downstream Task Performance of Large Language Models [28.904224842085064]
プレトレーニングデータの選択が、下流のクロスエントロピーとBLEUスコアの2つの指標から判断された下流のパフォーマンス(翻訳品質)にどのように影響するかを検討する。十分なアライメントで、下流のクロスエントロピーとBLEUスコアは、より事前トレーニングされたデータによって単調に改善される。
論文参考訳（メタデータ） (2024-02-06T17:31:20Z)
DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。 DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文参考訳（メタデータ） (2023-10-23T22:51:58Z)
FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文参考訳（メタデータ） (2022-11-07T09:38:34Z)
Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文参考訳（メタデータ） (2022-08-18T06:42:49Z)
LAMA-Net: Unsupervised Domain Adaptation via Latent Alignment and Manifold Learning for RUL Prediction [0.0]
我々は,エンコーダ-デコーダベースモデル(Transformer)であるtextitLAMA-Net,平均最大離散性(MMD)を用いた潜在アライメント,および多様体学習を提案する。提案手法は、RUL予測において領域適応を行うための有望なアプローチを提供する。
論文参考訳（メタデータ） (2022-08-17T16:28:20Z)
Disentangled Modeling of Domain and Relevance for Adaptable Dense Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。 REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。 DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文参考訳（メタデータ） (2022-08-11T11:18:50Z)
Model-Based Domain Generalization [96.84818110323518]
本稿では,モデルベースドメイン一般化問題に対する新しいアプローチを提案する。我々のアルゴリズムは、最新のwildsベンチマークの最先端手法を最大20ポイント上回った。
論文参考訳（メタデータ） (2021-02-23T00:59:02Z)
Rethinking Distributional Matching Based Domain Adaptation [111.15106414932413]
ドメイン適応(DA)は、ラベル付きソースドメインでトレーニングされた予測モデルをラベル付きターゲットドメインに転送するテクニックである。最も一般的なDAアルゴリズムは、分散マッチング(DM)に基づいている。本稿では,まずDMに基づく手法の限界を体系的に分析し,さらに現実的なドメインシフトを持つ新しいベンチマークを構築する。
論文参考訳（メタデータ） (2020-06-23T21:55:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。