論文の概要: Domain-Adaptive Continued Pre-Training of Small Language Models
- arxiv url: http://arxiv.org/abs/2504.09687v1
- Date: Sun, 13 Apr 2025 18:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:01.484654
- Title: Domain-Adaptive Continued Pre-Training of Small Language Models
- Title(参考訳): ドメイン適応型連続した小言語モデルの事前学習
- Authors: Salman Faroz,
- Abstract要約: 小型言語モデルの事前学習は、限られた計算資源によるドメイン適応に有望な道を提供する。
私は、このアプローチを教育領域内で調査し、スクラッチからトレーニングモデルのリソース効率の良い代替品として評価しました。
私のアプローチには、包括的なデータ前処理、メモリ最適化トレーニング設定、ベンチマークベースの評価が含まれています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Continued pre-training of small language models offers a promising path for domain adaptation with limited computational resources. I've investigated this approach within educational domains, evaluating it as a resource-efficient alternative to training models from scratch. Using a 125M parameter model, I demonstrate significant performance improvements through incremental training on 400 million tokens, followed by further training to reach 1 billion tokens. My approach includes comprehensive data preprocessing, memory-optimized training configurations, and benchmark-based evaluation. Results show notable gains in knowledge-intensive tasks (MMLU +8.1%) and contextual understanding (HellaSwag +7.6%), while revealing educational domain specialization trade-offs. I analyze token efficiency, catastrophic forgetting mitigation strategies, and scaling patterns. My findings suggest that thoughtful preprocessing and training methodologies enable meaningful improvements in language model capabilities even with constrained computational resources, opening pathways for domain-specific adaptation of smaller language models.
- Abstract(参考訳): 小型言語モデルの事前学習は、限られた計算資源によるドメイン適応に有望な道を提供する。
私は、このアプローチを教育領域内で調査し、スクラッチからトレーニングモデルのリソース効率の良い代替品として評価しました。
125Mパラメータモデルを用いて4億トークンの漸進的なトレーニングを行い、さらに10億トークンに達するためのトレーニングを行い、大幅なパフォーマンス向上を実演します。
私のアプローチには、包括的なデータ前処理、メモリ最適化トレーニング設定、ベンチマークベースの評価が含まれています。
その結果、知識集約的タスク(MMLU + 8.1%)と文脈理解(HellaSwag + 7.6%)が顕著に増加し、教育領域の専門化トレードオフが明らかになった。
私はトークン効率、破滅的な忘れ方策、スケーリングパターンを分析します。
提案手法は, 制約のある計算資源であっても, 言語モデルの能力が向上し, より小さな言語モデルのドメイン固有の適応のための経路が開かれた場合においても, 言語モデルの能力が向上することが示唆された。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - IGOT: Information Gain Optimized Tokenizer on Domain Adaptive Pretraining [2.009700777745832]
事前訓練されたLarge Language Models (LLM) は、自然言語生成の様々な分野で強力な能力を示している。
生成AIを使用して下流タスクを処理する場合、一般的なアプローチは、継続的なトレーニングや微調整を通じて新しい知識を追加することである。
本稿では、下流タスクの特殊トークンセットを分析し、特殊トークンと情報ゲインを併用した$phi$を用いて新しいサブセットを構築する情報ゲイン最適化トークンライザ(IGOT)を提案する。
ドメイン適応型事前学習におけるカスタマイズトークン化器の多くの効果について検討し,本手法がより優れた性能を発揮することを検証した。
論文 参考訳(メタデータ) (2024-05-16T07:25:10Z) - Irreducible Curriculum for Language Model Pretraining [46.895234111411426]
本稿では,言語モデル事前学習のためのカリキュラム学習アルゴリズムとして,既約カリキュラムを提案する。
RedPajama-1Bデータセットに関する我々の実験は、すべての7つの領域で検証の難易度が一貫した改善を示した。
論文 参考訳(メタデータ) (2023-10-23T22:41:33Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Efficient Domain Adaptation of Language Models via Adaptive Tokenization [5.058301279065432]
ドメイン固有のサブワードシーケンスは,ベースおよびドメイン固有のコーパスの条件付きトークン分布の分岐から,直接的に決定可能であることを示す。
我々の手法は、トークン化器の強化を用いた他の手法よりも、より小さなモデルで、トレーニングや推論の時間が少なくなります。
論文 参考訳(メタデータ) (2021-09-15T17:51:27Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - ALLWAS: Active Learning on Language models in WASserstein space [13.35098213857704]
医学などのいくつかの領域では、ラベル付きトレーニングデータの不足が一般的な問題である。
アクティブな学習は、ラベルの予算が限られている場合、パフォーマンスを高めるのに役立ちます。
言語モデルにおけるアクティブ学習のためのサブモジュール最適化と最適輸送に基づくサンプリング手法を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-03T18:11:07Z) - Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。
微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文 参考訳(メタデータ) (2020-05-01T02:01:18Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。