論文の概要: Midtraining Bridges Pretraining and Posttraining Distributions
- arxiv url: http://arxiv.org/abs/2510.14865v1
- Date: Thu, 16 Oct 2025 16:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.952956
- Title: Midtraining Bridges Pretraining and Posttraining Distributions
- Title(参考訳): 中古橋の予修・後進分布
- Authors: Emmy Liu, Graham Neubig, Chenyan Xiong,
- Abstract要約: ミストレイン(Midtraining)とは、事前トレーニングの終了時に、高い品質の命令形式データを混合するフェーズである。
我々は,スクラッチから事前学習した言語モデルを用いた実験を通じて,中等教育に関する最初の体系的な研究を行う。
教師付き微調整の結果と比較すると,数学やコード領域において中等教育の有効性が最も高いことがわかった。
- 参考スコア(独自算出の注目度): 73.84346031272473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, many language models have been pretrained with a "midtraining" phase, in which higher quality, often instruction-formatted data, is mixed in at the end of pretraining. Despite the popularity of this practice, there is little scientific understanding of this phase of model training or why it is effective. In this work, we conduct the first systematic investigation of midtraining through controlled experiments with language models pretrained from scratch and fine-tuned on supervised finetuning datasets in different domains. We find that when compared after supervised fine-tuning, the effectiveness of midtraining is highest in the math and code domains, where midtraining can best reduce the syntactic gap between pretraining and posttraining data. In these cases, midtraining consistently outperforms continued pretraining in both in-domain validation loss as well as pretraining data forgetting after posttraining. We conduct ablations on the starting time of the midtraining phase and mixture weights of the midtraining data, using code midtraining as a case study, and find that timing has a greater impact than mixture weights, with earlier introduction of specialized data, yielding greater benefits in-domain as well as preserving general language modeling better. These findings establish midtraining as a domain adaptation technique that compared to continued pretraining yields better performance through reduced forgetting.
- Abstract(参考訳): 近年、多くの言語モデルが「中間訓練」フェーズで事前訓練されている。
このプラクティスの人気にもかかわらず、モデルトレーニングのこのフェーズや、それが有効である理由についての科学的理解はほとんどない。
本研究では、スクラッチから事前訓練した言語モデルを用いた制御実験と、異なる領域における教師付き微調整データセットに基づく微調整による中等教育に関する最初の体系的な研究を行う。
教師付き微調整の後に比較すると,算数領域や符号領域において中等訓練の有効性が最も高く,前等訓練と後等訓練データの統語的ギャップを最も小さくすることができることがわかった。
これらのケースでは、中級トレーニングは、ドメイン内の検証損失と、後級トレーニング後のデータを忘れる事前トレーニングの両方において、継続的に前級トレーニングを上回った。
本研究は,中間トレーニングフェーズ開始時刻と中間トレーニングデータの混合重みをケーススタディとして用いながら,中間トレーニングフェーズ開始時刻と中間トレーニングデータの混合重み付けを行う。
これらの結果から, 連続事前学習と比較して, 誤りを減らし, 性能が向上するドメイン適応手法として, 中間訓練が確立された。
関連論文リスト
- Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data [68.85234898614571]
LLMの推論能力を高めるための主流パラダイムは、高品質な推論集約的なデータによるポストトレーニングを中心に展開される。
新興文献では、学習中期にも推論データが組み込まれていることが示唆されているが、事前学習におけるそうしたデータの役割はいまだ不明である。
我々は,学習の異なる段階に導入した場合のLLM性能に,スケール,多様性,品質がどのような影響を及ぼすかについて,最初の系統的研究を行った。
論文 参考訳(メタデータ) (2025-09-26T20:08:51Z) - RLP: Reinforcement as a Pretraining Objective [103.45068938532923]
我々は,情報駆動型強化事前訓練の目的として,強化学習のコアスピリットである探索を,事前訓練の最終段階に導くことを提案する。
このトレーニングの目的は、モデルが次に何が起こるかを予測する前に、自分自身で考えることを奨励し、事前学習の早い段階で独立した思考行動を教えることである。
特に、RLPは、通常のテキストにおける事前学習対象としての推論のための強化学習を再構築し、次のトーケン予測と有用な連鎖推論の出現の間のギャップを埋める。
論文 参考訳(メタデータ) (2025-09-26T17:53:54Z) - A Comparative Study of Pre-training and Self-training [0.40964539027092917]
本研究では,事前学習,自己学習,微調整を併用した,実現可能な訓練パラダイムを実証的に研究するためのアンサンブル手法を提案する。
我々は6つのデータセット、4つのデータ拡張、感情分析と自然言語推論タスクのための不均衡なデータについて実験を行った。
以上の結果から,事前学習と微調整のパラダイムが全体のパフォーマンスに最高の結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2024-09-04T14:30:13Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - Downstream Datasets Make Surprisingly Good Pretraining Corpora [39.77171117174906]
本稿では,事前学習と微調整の両方に同じ(下流)トレーニングデータを用いる,自己事前学習に関する大規模研究を紹介する。
ELECTRAモデルとRoBERTaモデルと10の異なる下流分類データセットに対処する実験では,BookWikiコーパスで事前学習を行う自己学習のライバルが標準であることがわかった。
以上の結果から, 事前学習に起因する性能向上は, 主に事前学習対象自体が引き起こすものであり, 外部事前学習データの大量使用に起因しているとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-09-28T19:28:43Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。