論文の概要: Curriculum-Guided Layer Scaling for Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2506.11389v1
- Date: Fri, 13 Jun 2025 01:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.620852
- Title: Curriculum-Guided Layer Scaling for Language Model Pretraining
- Title(参考訳): 言語モデル事前学習のためのカリキュラムガイド層スケーリング
- Authors: Karanpartap Singh, Neil Band, Ehsan Adeli,
- Abstract要約: 計算効率向上のためのフレームワークであるCGLS(Curriculum-Guided Layer Scaling)を提案する。
CGLSは、データの増大とモデルの成長を同期させる。
モデル深度の増加は、様々なダウンストリームベンチマークにおいて、より良い一般化とゼロショット性能をもたらすことを示す。
- 参考スコア(独自算出の注目度): 8.195860140972615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the cost of pretraining large language models grows, there is continued interest in strategies to improve learning efficiency during this core training stage. Motivated by cognitive development, where humans gradually build knowledge as their brains mature, we propose Curriculum-Guided Layer Scaling (CGLS), a framework for compute-efficient pretraining that synchronizes increasing data difficulty with model growth through progressive layer stacking (i.e. gradually adding layers during training). At the 100M parameter scale, using a curriculum transitioning from synthetic short stories to general web data, CGLS outperforms baseline methods on the question-answering benchmarks PIQA and ARC. Pretraining at the 1.2B scale, we stratify the DataComp-LM corpus with a DistilBERT-based classifier and progress from general text to highly technical or specialized content. Our results show that progressively increasing model depth alongside sample difficulty leads to better generalization and zero-shot performance on various downstream benchmarks. Altogether, our findings demonstrate that CGLS unlocks the potential of progressive stacking, offering a simple yet effective strategy for improving generalization on knowledge-intensive and reasoning tasks.
- Abstract(参考訳): 大規模言語モデルの事前学習コストが増大するにつれて、このコアトレーニング段階における学習効率向上戦略への関心が高まっている。
脳が成熟するにつれて、人間が知識を徐々に構築する認知発達に動機づけられた、計算効率の高い事前学習のためのフレームワークであるCurriculum-Guided Layer Scaling (CGLS)を提案する。
1Mパラメータスケールでは、合成短い記事から一般的なWebデータへ移行するカリキュラムを用いて、CGLSは質問応答ベンチマークPIQAとARCのベースライン手法より優れている。
1.2Bスケールで事前学習を行い、DisturBERTベースの分類器でDataComp-LMコーパスを成層化し、一般的なテキストから高度に技術的または専門的なコンテンツへと進化させる。
以上の結果から, サンプルの難易度とともにモデル深度が徐々に増加すると, 様々なダウンストリームベンチマークにおいて, より一般化とゼロショット性能が向上することが示唆された。
また, CGLSは, 知識集約的・推論的タスクの一般化を向上するための, 単純かつ効果的な戦略として, プログレッシブ・スタック化の可能性を解き放つことを実証した。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Structure-aware Domain Knowledge Injection for Large Language Models [38.08691252042949]
StructTuningは、大規模言語モデル(LLM)をドメインスペシャリストに変換する方法論である。
従来の知識注入性能の100パーセントを達成しながら、トレーニングコーパスに必要なトレーニングコーパスをわずか5%削減します。
論文 参考訳(メタデータ) (2024-07-23T12:38:48Z) - SLCA: Slow Learner with Classifier Alignment for Continual Learning on a
Pre-trained Model [73.80068155830708]
予備学習モデル(CLPM)を用いた連続学習のための広範囲な解析法を提案する。
Slow Learner with Alignment (SLCA) というシンプルなアプローチを提案する。
さまざまなシナリオにおいて、私たちの提案はCLPMの大幅な改善を提供します。
論文 参考訳(メタデータ) (2023-03-09T08:57:01Z) - Exploiting Explainable Metrics for Augmented SGD [43.00691899858408]
最適化下での学習が実際にどのように機能するか、また、特定の戦略が他の方法よりも優れている理由について、未解決の疑問がいくつかある。
ネットワーク層内の冗長な情報を計測する新しい説明可能性指標を提案する。
次に、これらの指標を利用して、各レイヤの学習率を適応的に調整し、一般化性能を向上させることにより、グラディエント・ディフレッシュ(SGD)を増大させる。
論文 参考訳(メタデータ) (2022-03-31T00:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。