論文の概要: Self-Improving Pretraining: using post-trained models to pretrain better models
- arxiv url: http://arxiv.org/abs/2601.21343v1
- Date: Thu, 29 Jan 2026 07:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.637951
- Title: Self-Improving Pretraining: using post-trained models to pretrain better models
- Title(参考訳): 自己改善型事前訓練:訓練後モデルを用いてより良いモデルを事前訓練する
- Authors: Ellen Xiaoqing Tan, Shehzaad Dhuliawala, Jing Xu, Ping Yu, Sainbayar Sukhbaatar, Jason Weston, Olga Golovneva,
- Abstract要約: 本稿では、文書をストリームし、強化学習(RL)を用いて次のK生成トークンを各ステップで改善する新しい事前学習手法を提案する。
実験では, 実効性と安全性の点で標準事前訓練よりも36.2%と18.5%の相対的な改善が得られ, 総生産品質の86.3%まで向上した。
- 参考スコア(独自算出の注目度): 40.22070942417617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring safety, factuality and overall quality in the generations of large language models is a critical challenge, especially as these models are increasingly deployed in real-world applications. The prevailing approach to addressing these issues involves collecting expensive, carefully curated datasets and applying multiple stages of fine-tuning and alignment. However, even this complex pipeline cannot guarantee the correction of patterns learned during pretraining. Therefore, addressing these issues during pretraining is crucial, as it shapes a model's core behaviors and prevents unsafe or hallucinated outputs from becoming deeply embedded. To tackle this issue, we introduce a new pretraining method that streams documents and uses reinforcement learning (RL) to improve the next K generated tokens at each step. A strong, post-trained model judges candidate generations -- including model rollouts, the original suffix, and a rewritten suffix -- for quality, safety, and factuality. Early in training, the process relies on the original and rewritten suffixes; as the model improves, RL rewards high-quality rollouts. This approach builds higher quality, safer, and more factual models from the ground up. In experiments, our method gives 36.2% and 18.5% relative improvements over standard pretraining in terms of factuality and safety, and up to 86.3% win rate improvements in overall generation quality.
- Abstract(参考訳): 大規模言語モデルの世代における安全性、事実性、全体的な品質を保証することは、特にこれらのモデルが現実世界のアプリケーションにますますデプロイされているため、重要な課題である。
これらの問題に対処するための一般的なアプローチは、高価で慎重にキュレートされたデータセットを収集し、微調整とアライメントの複数のステージを適用することである。
しかし、この複雑なパイプラインでさえ、事前トレーニング中に学んだパターンの修正を保証できない。
したがって、モデルのコア動作を形作り、安全でない、あるいは幻覚的なアウトプットが深く埋め込まれることを防止するため、事前トレーニング中にこれらの問題に対処することが不可欠である。
この問題に対処するために、文書をストリームし、強化学習(RL)を用いて次のK生成トークンを各ステップで改善する新しい事前学習手法を提案する。
モデルロールアウト、オリジナルの接尾辞、書き直された接尾辞など、品質、安全性、事実について、強力な訓練後のモデルが候補世代を判断する。
トレーニングの初期段階では、このプロセスはオリジナルのサフィックスと書き直されたサフィックスに依存しており、モデルが改善されるにつれて、RLは高品質なロールアウトに報いる。
このアプローチは、品質が高く、より安全で、より現実的なモデルをゼロから構築します。
実験では, 実効性と安全性の点で標準事前訓練よりも36.2%と18.5%の相対的な改善が得られ, 総生産品質の86.3%まで向上した。
関連論文リスト
- Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Amuro and Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models [17.288865972774587]
本研究では,複数の中間学習モデルチェックポイントの微調整による事前学習と微調整の関係について検討する。
18のデータセットで得られた結果は、事前学習が微調整後に発表される潜在的な方法でモデルを改善することを示唆している。
論文 参考訳(メタデータ) (2024-08-13T06:28:43Z) - How the Training Procedure Impacts the Performance of Deep Learning-based Vulnerability Patching [14.794452134569475]
本稿では、脆弱性パッチ作成のための自己教師付きおよび教師付き事前訓練の既存のソリューションを比較した。
データ収集のコストは高いが、DLベースの脆弱性パッチングを大幅に改善することを発見した。
この教師付き事前訓練モデルの上にプロンプトチューニングを適用すると、性能が著しく向上することはない。
論文 参考訳(メタデータ) (2024-04-27T13:08:42Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large
Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文 参考訳(メタデータ) (2023-06-15T17:42:48Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。