論文の概要: PretrainZero: Reinforcement Active Pretraining
- arxiv url: http://arxiv.org/abs/2512.03442v1
- Date: Wed, 03 Dec 2025 04:51:32 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:57:54.428155
- Title: PretrainZero: Reinforcement Active Pretraining
- Title(参考訳): PretrainZero:強化アクティブプレトレーニング
- Authors: Xingrun Xing, Zhiyuan Fan, Jie Lou, Guoqi Li, Jiajun Zhang, Debing Zhang,
- Abstract要約: プレトレーニングコーパス上に構築された強化アクティブラーニングフレームワークであるPretrainZeroを提案する。
PretrainZeroは、事前学習コーパスから合理的かつ情報的コンテンツを積極的に識別する統一的推論ポリシーを学習する。
トレーニング後、事前訓練されたモデルは、下流のRLVRタスクの推論基盤モデルとしても機能する。
- 参考スコア(独自算出の注目度): 43.0311336005895
- License:
- Abstract: Mimicking human behavior to actively learning from general experience and achieve artificial general intelligence has always been a human dream. Recent reinforcement learning (RL) based large-thinking models demonstrate impressive expert-level abilities, i.e., software and math, but still rely heavily on verifiable rewards in specific domains, placing a significant bottleneck to extend the performance boundary of general reasoning capabilities. In this work, we propose PretrainZero, a reinforcement active learning framework built on the pretraining corpus to extend RL from domain-specific post-training to general pretraining. PretrainZero features the following characteristics: 1) Active pretraining: inspired by the active learning ability of humans, PretrainZero learns a unified reasoning policy to actively identify reasonable and informative contents from pretraining corpus, and reason to predict these contents by RL. 2) Self-supervised learning: without any verifiable labels, pretrained reward models, or supervised fine-tuning, we directly pretrain reasoners from 3 to 30B base models on the general Wikipedia corpus using RL, significantly breaking the verification data-wall for general reasoning. 3) Verification scaling: by tackling increasingly challenging masked spans, PretrainZero substantially enhances the general reasoning abilities of pretrained base models. In reinforcement pretraining, PretrainZero improves Qwen3-4B-Base for 8.43, 5.96 and 10.60 on MMLU-Pro, SuperGPQA and math average benchmarks. In post-training, the pretrained models can also serve as reasoning foundation models for downstream RLVR tasks.
- Abstract(参考訳): 人間の行動を模倣して、一般的な経験から積極的に学び、人工知能を達成することは、常に人間の夢だった。
近年の強化学習(RL)に基づく大規模思考モデルは、専門家レベルの優れた能力、すなわちソフトウェアと数学を誇示しているが、まだ特定の領域における検証可能な報酬に大きく依存しており、一般的な推論能力のパフォーマンス境界を拡張する上で重要なボトルネックとなっている。
本研究では,プレトレーニングコーパス上に構築された強化アクティブ学習フレームワークであるPretrainZeroを提案する。
PretrainZero には以下の特徴がある。
1) アクティブプレトレーニング: 人間の能動的学習能力に触発されたPretrainZeroは,事前学習コーパスから合理的かつ情報的コンテンツを積極的に識別し,これらの内容をRLで予測する統一的推論ポリシーを学習する。
2) 自己指導型学習: 検証可能なラベルや事前訓練された報酬モデル,あるいは教師付き微調整がなければ, 一般のウィキペディアコーパス上でRLを用いて3~30Bベースモデルを直接事前学習し, 一般的な推論のための検証データウォールを著しく破壊する。
3) 検証スケーリング: マスク付きスパンの課題に対処することによって,PretrainZeroは,事前学習ベースモデルの一般的な推論能力を大幅に向上させる。
強化事前訓練において、PretrainZeroはMMLU-Pro、SuperGPQA、数学平均ベンチマークでQwen3-4B-Baseを8.43、5.96、10.60で改善した。
トレーニング後、事前訓練されたモデルは、下流のRLVRタスクの推論基盤モデルとしても機能する。
関連論文リスト
- Zero Reinforcement Learning Towards General Domains [27.62364890827269]
検証可能な領域と検証できない領域の両方にわたってモデルの推論能力を向上させるために設計された新しいゼロRLパラダイムを提案する。
検証可能な報酬と生成的報酬モデルを組み合わせることで、両領域をまたいだマルチタスクゼロRLトレーニングを行う。
Qwen3-8B-BaseとQwen3-14B-Baseの実験結果から,本手法が優れた推論性能を実現することを示す。
論文 参考訳(メタデータ) (2025-10-29T13:52:44Z) - From Acceleration to Saturation: Scaling Behavior of Bootstrapped Language Model Pretraining [2.569647910019739]
ブートストラッププレトレーニングのスケーリング挙動について検討し,そのスケーリング効率が予測可能な方法で低下することを確認した。
本研究は,効率的な言語モデル学習のための実践的知見を提供し,過度に訓練されたモデルの再利用に関する重要な考察を提起する。
論文 参考訳(メタデータ) (2025-10-08T00:59:33Z) - RLP: Reinforcement as a Pretraining Objective [103.45068938532923]
我々は,情報駆動型強化事前訓練の目的として,強化学習のコアスピリットである探索を,事前訓練の最終段階に導くことを提案する。
このトレーニングの目的は、モデルが次に何が起こるかを予測する前に、自分自身で考えることを奨励し、事前学習の早い段階で独立した思考行動を教えることである。
特に、RLPは、通常のテキストにおける事前学習対象としての推論のための強化学習を再構築し、次のトーケン予測と有用な連鎖推論の出現の間のギャップを埋める。
論文 参考訳(メタデータ) (2025-09-26T17:53:54Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Understanding R1-Zero-Like Training: A Critical Perspective [73.25430192337235]
ベースモデルとRLの2つのコアコンポーネントを分析し,R1-Zeroライクなトレーニングを批判的に検討した。
本稿では,DeepSeek-V3-Baseを含む幅広いベースモデルについて検討し,事前学習特性がRL性能に与える影響について考察する。
AIME 2024では7Bベースモデルで43.3%の精度を達成できる最小限のR1-Zeroレシピを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:14Z) - Adversarial Robustness: From Self-Supervised Pre-Training to Fine-Tuning [134.15174177472807]
対戦型トレーニングを自己超越に導入し,汎用的な頑健な事前訓練モデルを初めて提供する。
提案するフレームワークが大きなパフォーマンスマージンを達成できることを示すため,広範な実験を行う。
論文 参考訳(メタデータ) (2020-03-28T18:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。