論文の概要: Mid-Training of Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2510.06826v1
- Date: Wed, 08 Oct 2025 09:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.401415
- Title: Mid-Training of Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルのミッドトレーニング:サーベイ
- Authors: Kaixiang Mo, Yuxin Shi, Weiwei Weng, Zhiqiang Zhou, Shuman Liu, Haibo Zhang, Anxiang Zeng,
- Abstract要約: 大規模言語モデル(LLM)は通常、大規模事前学習とタスク固有の微調整によって開発される。
近年の進歩は中間訓練段階の重要性を浮き彫りにしている。
トレーニング中のデータ分散,学習速度スケジューリング,長文拡張の最初の分類について紹介する。
- 参考スコア(独自算出の注目度): 12.322464058364405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are typically developed through large-scale pre-training followed by task-specific fine-tuning. Recent advances highlight the importance of an intermediate mid-training stage, where models undergo multiple annealing-style phases that refine data quality, adapt optimization schedules, and extend context length. This stage mitigates diminishing returns from noisy tokens, stabilizes convergence, and expands model capability in late training. Its effectiveness can be explained through gradient noise scale, the information bottleneck, and curriculum learning, which together promote generalization and abstraction. Despite widespread use in state-of-the-art systems, there has been no prior survey of mid-training as a unified paradigm. We introduce the first taxonomy of LLM mid-training spanning data distribution, learning-rate scheduling, and long-context extension. We distill practical insights, compile evaluation benchmarks, and report gains to enable structured comparisons across models. We also identify open challenges and propose avenues for future research and practice.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、大規模事前学習とタスク固有の微調整によって開発される。
近年の進歩は、データ品質を洗練し、最適化スケジュールを適応し、コンテキスト長を延長する複数のアニール型フェーズをモデルが実施する中間訓練ステージの重要性を強調している。
この段階はノイズトークンからの減少するリターンを緩和し、収束を安定化し、後期訓練におけるモデル能力を拡張する。
その効果は、勾配雑音尺度、情報ボトルネック、カリキュラム学習を通じて説明できる。
最先端のシステムで広く使われているにもかかわらず、統一パラダイムとしての中間訓練に関する以前の調査は行われていない。
本稿では,LLMの中間訓練データ分布,学習速度スケジューリング,長文拡張について紹介する。
実用的洞察を抽出し、評価ベンチマークをコンパイルし、レポートゲインを計算し、モデル間で構造化された比較を可能にする。
また,オープンな課題を特定し,今後の研究・実践の道筋を提案する。
関連論文リスト
- DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation Summarization [10.083326281775939]
大規模言語モデル (LLM) はテキスト要約において顕著な性能を達成した。
微調整は要約の品質を向上させることができるが、通常は高価で高品質なラベル付きデータに依存している。
我々は、下流の要約タスクにLLMを適用するためのスケーラブルで自己管理的なアプローチとして、継続事前学習について検討する。
論文 参考訳(メタデータ) (2025-10-07T12:26:19Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。