論文の概要: A Survey on LLM Mid-training
- arxiv url: http://arxiv.org/abs/2510.23081v1
- Date: Mon, 27 Oct 2025 07:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.487667
- Title: A Survey on LLM Mid-training
- Title(参考訳): LLMミッドトレーニングに関する調査
- Authors: Chengying Tu, Xuemiao Zhang, Rongxiang Weng, Rumei Li, Chen Zhang, Yang Bai, Hongfei Yan, Jingang Wang, Xunliang Cai,
- Abstract要約: ミッドトレーニングはプレトレーニングとポストトレーニングを橋渡しする重要な段階である。
この調査は、大規模言語モデル(LLM)の中間訓練の正式な定義を提供する。
- 参考スコア(独自算出の注目度): 38.57944803666373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in foundation models have highlighted the significant benefits of multi-stage training, with a particular emphasis on the emergence of mid-training as a vital stage that bridges pre-training and post-training. Mid-training is distinguished by its use of intermediate data and computational resources, systematically enhancing specified capabilities such as mathematics, coding, reasoning, and long-context extension, while maintaining foundational competencies. This survey provides a formal definition of mid-training for large language models (LLMs) and investigates optimization frameworks that encompass data curation, training strategies, and model architecture optimization. We analyze mainstream model implementations in the context of objective-driven interventions, illustrating how mid-training serves as a distinct and critical stage in the progressive development of LLM capabilities. By clarifying the unique contributions of mid-training, this survey offers a comprehensive taxonomy and actionable insights, supporting future research and innovation in the advancement of LLMs.
- Abstract(参考訳): 基礎モデルの最近の進歩は、多段階トレーニングの重要な利点を強調しており、特に、事前訓練と後訓練を橋渡しする重要な段階として、中段階トレーニングの出現に重点を置いている。
中間訓練は、中間データと計算資源を使用することで区別され、基礎的な能力を維持しながら、数学、コーディング、推論、長文拡張といった特定の能力を体系的に強化する。
このサーベイは、大規模言語モデル(LLM)の中間トレーニングの正式な定義を提供し、データキュレーション、トレーニング戦略、モデルアーキテクチャ最適化を含む最適化フレームワークを調査する。
目的駆動型介入の文脈における主流モデル実装を解析し、中級訓練がLCM能力の進歩的発達において、いかに異なる重要な段階を担っているかを説明する。
本調査は,中級研修の独特な貢献を明らかにすることにより,総合的な分類学と行動学的知見を提供し,今後のLLMの進歩における研究と革新を支援する。
関連論文リスト
- Mid-Training of Large Language Models: A Survey [12.322464058364405]
大規模言語モデル(LLM)は通常、大規模事前学習とタスク固有の微調整によって開発される。
近年の進歩は中間訓練段階の重要性を浮き彫りにしている。
トレーニング中のデータ分散,学習速度スケジューリング,長文拡張の最初の分類について紹介する。
論文 参考訳(メタデータ) (2025-10-08T09:49:37Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Recent Advances in Federated Learning Driven Large Language Models: A Survey on Architecture, Performance, and Security [24.969739515876515]
Federated Learning(FL)は、データプライバシを保持し、通信オーバーヘッドを最小限に抑えながら、大規模言語モデル(LLM)を分散的にトレーニングするための有望なパラダイムを提供する。
我々は、摂動に基づく手法、モデル分解、漸進的再学習を含む、連合LLMにおける未学習を可能にする様々な戦略についてレビューする。
本調査では, 現実の展開に向けて, 安全で適応性があり, 高性能なLLMシステムの開発に向けた重要な研究方向を明らかにする。
論文 参考訳(メタデータ) (2024-06-14T08:40:58Z) - Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。
トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。
推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文 参考訳(メタデータ) (2024-01-04T02:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。