論文の概要: EvoLM: In Search of Lost Language Model Training Dynamics
- arxiv url: http://arxiv.org/abs/2506.16029v1
- Date: Thu, 19 Jun 2025 04:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.943393
- Title: EvoLM: In Search of Lost Language Model Training Dynamics
- Title(参考訳): EvoLM: 失われた言語モデルトレーニングダイナミクスの探索
- Authors: Zhenting Qi, Fan Nie, Alexandre Alahi, James Zou, Himabindu Lakkaraju, Yilun Du, Eric Xing, Sham Kakade, Hanlin Zhang,
- Abstract要約: EvoLMは、事前トレーニング、継続事前トレーニング、教師付き微調整、強化学習を含む、LMのトレーニングダイナミクスの体系的かつ透過的な分析を可能にするモデルスイートである。
1Bおよび4Bパラメータを持つ100以上のLMをスクラッチからトレーニングすることにより、上流(言語モデリング)と下流(確率解決)の両方の推論能力を評価する。
- 参考スコア(独自算出の注目度): 97.69616550374579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language model (LM) training has been divided into multiple stages, making it difficult for downstream developers to evaluate the impact of design choices made at each stage. We present EvoLM, a model suite that enables systematic and transparent analysis of LMs' training dynamics across pre-training, continued pre-training, supervised fine-tuning, and reinforcement learning. By training over 100 LMs with 1B and 4B parameters from scratch, we rigorously evaluate both upstream (language modeling) and downstream (problem-solving) reasoning capabilities, including considerations of both in-domain and out-of-domain generalization. Key insights highlight the diminishing returns from excessive pre-training and post-training, the importance and practices of mitigating forgetting during domain-specific continued pre-training, the crucial role of continued pre-training in bridging pre-training and post-training phases, and various intricate trade-offs when configuring supervised fine-tuning and reinforcement learning. To facilitate open research and reproducibility, we release all pre-trained and post-trained models, training datasets for all stages, and our entire training and evaluation pipeline.
- Abstract(参考訳): 現代言語モデル(LM)のトレーニングは複数の段階に分けられており、下流の開発者が各段階における設計選択の影響を評価することは困難である。
EvoLMは、事前学習、継続事前学習、教師付き微調整、強化学習におけるLMのトレーニングダイナミクスの系統的および透過的な解析を可能にするモデルスイートである。
1Bと4Bのパラメータを持つ100以上のLMをスクラッチからトレーニングすることにより、ドメイン内とドメイン外の両方の一般化を考慮した上流(言語モデリング)と下流(確率解決)の両方の推論能力を厳格に評価する。
重要な洞察は、過剰な事前訓練と後トレーニングからのリターンの減少、ドメイン固有の継続的な事前トレーニングにおける忘れの軽減の重要性と実践、事前トレーニングと後トレーニングフェーズのブリッジングにおける継続事前トレーニングの重要な役割、教師付き微調整と強化学習の設定における様々な複雑なトレードオフである。
オープンな研究と再現性を促進するため、トレーニング済みおよび後トレーニング済みのモデルをすべてリリースし、すべてのステージのデータセットをトレーニングし、トレーニングと評価のパイプライン全体を公開します。
関連論文リスト
- Accountability Attribution: Tracing Model Behavior to Training Processes [20.261750156630463]
AI開発パイプラインは、複数のステージ事前トレーニング、微調整ラウンド、その後の適応やアライメント、各ステージ内の多数のモデル更新ステップを含むことが多い。
これは、デプロイされたモデルが成功したり失敗したり、どのステージが責任を負い、どの程度まで責任を負うかという、説明責任に関する重要な疑問を提起する。
トレーニングプロセスの特定の段階に遡るモデル行動の追跡を目的とした,アカウンタビリティ帰属(countability attribution)の問題を提起する。
論文 参考訳(メタデータ) (2025-05-30T19:27:39Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language Models [35.44133682914159]
LLM(Large Language Models)のバージョン更新のためのトレーニングパラダイムには、スクラッチ(PTFS)からの事前トレーニング(Continuousal Pre-training)やCPT(Continuous Pre-training)などがある。
予備実験では、PTFSはトレーニング前のパフォーマンスが向上し、CPTはトレーニングコストが低下することを示した。
我々のパラダイムは,LLMを最大学習率で事前学習する1つの主要なパスと,新たに追加されたトレーニングデータでLLMを更新する複数の分岐パスから構成される。
論文 参考訳(メタデータ) (2024-10-05T10:15:48Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。
トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。
推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文 参考訳(メタデータ) (2024-01-04T02:43:57Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。