論文の概要: Theoretical Perspectives on Data Quality and Synergistic Effects in Pre- and Post-Training Reasoning Models
- arxiv url: http://arxiv.org/abs/2603.01293v1
- Date: Sun, 01 Mar 2026 21:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.613899
- Title: Theoretical Perspectives on Data Quality and Synergistic Effects in Pre- and Post-Training Reasoning Models
- Title(参考訳): 予・後推論モデルにおけるデータ品質と相乗効果に関する理論的考察
- Authors: Adel Javanmard, Baharan Mirzasoleiman, Vahab Mirrokni,
- Abstract要約: 大規模言語モデル(LLM)は、大量のデータセット上で事前訓練され、後に教師付き微調整(SFT)または強化学習(RL)を介して指導訓練される。
ベストプラクティスは大規模で多様な事前訓練データを強調するが、ポストトレーニングは異なる。
線形回帰のための文脈内重み予測タスクで訓練された変圧器を理論的に解析する。
- 参考スコア(独自算出の注目度): 56.12341509545198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are pretrained on massive datasets and later instruction-tuned via supervised fine-tuning (SFT) or reinforcement learning (RL). Best practices emphasize large, diverse pretraining data, whereas post-training operates differently: SFT relies on smaller, high-quality datasets, while RL benefits more from scale, with larger amounts of feedback often outweighing label quality. Yet it remains unclear why pretraining and RL require large datasets, why SFT excels on smaller ones, and what defines high-quality SFT data. In this work, we theoretically analyze transformers trained on an in-context weight prediction task for linear regression. Our analysis reveals several key findings: $(i)$ balanced pretraining data can induce latent capabilities later activated during post-training, and $(ii)$ SFT learns best from a small set of examples challenging for the pretrained model, while excessively large SFT datasets may dilute informative pretraining signals. In contrast, RL is most effective on large-scale data that is not overly difficult for the pretrained model. We validate these theoretical insights with experiments on large nonlinear transformer architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大量のデータセット上で事前訓練され、後に教師付き微調整(SFT)や強化学習(RL)を通じて指導訓練される。
SFTはより小さくて高品質なデータセットに依存していますが、RLはよりスケールから恩恵を受けます。
しかし、なぜ事前トレーニングとRLが大きなデータセットを必要とするのか、なぜSFTが小さなデータセットに優れているのか、そして高品質なSFTデータを定義するのかは、まだ不明である。
本研究では,線形回帰のための文脈内重み予測タスクで訓練された変圧器を理論的に解析する。
分析の結果、いくつかの重要な発見が明らかになった。
(i)バランスの取れた事前学習データは、後トレーニング中に後でアクティベートされた遅延機能を誘導し、$
(ii)$ SFTは事前訓練されたモデルに挑戦する少数の例から最もよく学習する一方、過度に大きなSFTデータセットは情報的事前学習信号を希薄にすることができる。
対照的に、RLは事前訓練されたモデルでは過度に困難ではない大規模データに対して最も効果的である。
大規模非線形トランスアーキテクチャの実験により,これらの理論的知見を検証した。
関連論文リスト
- Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels [96.35283762778137]
我々は、強化学習のためのスケーラブルなデータエンジンであるWebscale-RLパイプラインを紹介した。
9ドメイン以上にわたる120万のサンプルを含むWebscale-RLデータセットを構築した。
我々の研究は、RLを事前学習レベルに拡張するための実行可能なパスを示し、より有能で効率的な言語モデルを可能にします。
論文 参考訳(メタデータ) (2025-10-07T22:30:59Z) - Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead [20.446287312285648]
我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
論文 参考訳(メタデータ) (2025-10-02T02:57:00Z) - Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data [68.85234898614571]
LLMの推論能力を高めるための主流パラダイムは、高品質な推論集約的なデータによるポストトレーニングを中心に展開される。
新興文献では、学習中期にも推論データが組み込まれていることが示唆されているが、事前学習におけるそうしたデータの役割はいまだ不明である。
我々は,学習の異なる段階に導入した場合のLLM性能に,スケール,多様性,品質がどのような影響を及ぼすかについて,最初の系統的研究を行った。
論文 参考訳(メタデータ) (2025-09-26T20:08:51Z) - Thinking Augmented Pre-training [88.04395622064708]
拡張事前学習は、自動生成された思考軌跡でテキストを増強する普遍的な方法論である。
本稿では,既存のテキストデータを思考トラジェクトリで拡張することにより,大規模言語モデル(LLM)トレーニングのデータ効率を向上させるための,シンプルでスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:45:13Z) - Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved) [3.13388270461847]
我々は、教師付き微調整(SFT)と強化学習(RL)による最適政策の発見理論と実践との関係を描いている。
SFTに小さな修正を加えることで、RLのトレーニングに近く行動する重み付き変異が重要となることを示す。
我々は、この変種を重み付けされた教師付き微調整(iw-SFT)として参照する。
論文 参考訳(メタデータ) (2025-07-17T07:26:54Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。