論文の概要: Mid-Training of Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2510.06826v1
- Date: Wed, 08 Oct 2025 09:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.401415
- Title: Mid-Training of Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルのミッドトレーニング:サーベイ
- Authors: Kaixiang Mo, Yuxin Shi, Weiwei Weng, Zhiqiang Zhou, Shuman Liu, Haibo Zhang, Anxiang Zeng,
- Abstract要約: 大規模言語モデル(LLM)は通常、大規模事前学習とタスク固有の微調整によって開発される。
近年の進歩は中間訓練段階の重要性を浮き彫りにしている。
トレーニング中のデータ分散,学習速度スケジューリング,長文拡張の最初の分類について紹介する。
- 参考スコア(独自算出の注目度): 12.322464058364405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are typically developed through large-scale pre-training followed by task-specific fine-tuning. Recent advances highlight the importance of an intermediate mid-training stage, where models undergo multiple annealing-style phases that refine data quality, adapt optimization schedules, and extend context length. This stage mitigates diminishing returns from noisy tokens, stabilizes convergence, and expands model capability in late training. Its effectiveness can be explained through gradient noise scale, the information bottleneck, and curriculum learning, which together promote generalization and abstraction. Despite widespread use in state-of-the-art systems, there has been no prior survey of mid-training as a unified paradigm. We introduce the first taxonomy of LLM mid-training spanning data distribution, learning-rate scheduling, and long-context extension. We distill practical insights, compile evaluation benchmarks, and report gains to enable structured comparisons across models. We also identify open challenges and propose avenues for future research and practice.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、大規模事前学習とタスク固有の微調整によって開発される。
近年の進歩は、データ品質を洗練し、最適化スケジュールを適応し、コンテキスト長を延長する複数のアニール型フェーズをモデルが実施する中間訓練ステージの重要性を強調している。
この段階はノイズトークンからの減少するリターンを緩和し、収束を安定化し、後期訓練におけるモデル能力を拡張する。
その効果は、勾配雑音尺度、情報ボトルネック、カリキュラム学習を通じて説明できる。
最先端のシステムで広く使われているにもかかわらず、統一パラダイムとしての中間訓練に関する以前の調査は行われていない。
本稿では,LLMの中間訓練データ分布,学習速度スケジューリング,長文拡張について紹介する。
実用的洞察を抽出し、評価ベンチマークをコンパイルし、レポートゲインを計算し、モデル間で構造化された比較を可能にする。
また,オープンな課題を特定し,今後の研究・実践の道筋を提案する。
関連論文リスト
- A Survey on LLM Mid-Training [38.57944803666373]
ミッドトレーニングはプレトレーニングとポストトレーニングを橋渡しする重要な段階である。
この調査は、大規模言語モデル(LLM)の中間訓練の正式な定義を提供する。
論文 参考訳(メタデータ) (2025-10-27T07:32:19Z) - DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation Summarization [10.083326281775939]
大規模言語モデル (LLM) はテキスト要約において顕著な性能を達成した。
微調整は要約の品質を向上させることができるが、通常は高価で高品質なラベル付きデータに依存している。
我々は、下流の要約タスクにLLMを適用するためのスケーラブルで自己管理的なアプローチとして、継続事前学習について検討する。
論文 参考訳(メタデータ) (2025-10-07T12:26:19Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Transfer Learning with Foundational Models for Time Series Forecasting using Low-Rank Adaptations [0.0]
本研究は,時系列予測タスクに対するFM,Large Language Modelsの直接的な適応手法であるLLIAMを提案する。
LLIAMとRecurrent Neural NetworksやTemporal Convolutional Networks、LLMベースのTimeLLMなど、さまざまな最先端DLアルゴリズムのパフォーマンスの比較を行った。
本研究の結果はLLIAMの有効性を実証し, この単純かつ汎用的なアプローチは, 複雑な修正を加える必要がなくなることなく, 有能な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-10-15T12:14:01Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Amuro and Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models [17.288865972774587]
本研究では,複数の中間学習モデルチェックポイントの微調整による事前学習と微調整の関係について検討する。
18のデータセットで得られた結果は、事前学習が微調整後に発表される潜在的な方法でモデルを改善することを示唆している。
論文 参考訳(メタデータ) (2024-08-13T06:28:43Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。