論文の概要: Reinforcement Pre-Training
- arxiv url: http://arxiv.org/abs/2506.08007v1
- Date: Mon, 09 Jun 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.113075
- Title: Reinforcement Pre-Training
- Title(参考訳): 補強プレトレーニング
- Authors: Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei,
- Abstract要約: 大規模言語モデルと強化学習(RL)のための新しいスケーリングパラダイムとしてReinforcement Pre-Training(RPT)を導入する。
RPTは、ドメイン固有の注釈付き回答に頼るのではなく、大量のテキストデータを汎用RLに活用するためのスケーラブルな方法を提供する。
その結果、RTPは言語モデルの事前学習を促進するための効果的で有望なスケーリングパラダイムとして位置づけられた。
- 参考スコア(独自算出の注目度): 78.5355979575498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.
- Abstract(参考訳): 本稿では,大規模言語モデルと強化学習(RL)のための新しいスケーリングパラダイムとして,Reinforcement Pre-Training(RPT)を紹介する。
具体的には、RLを用いてトレーニングされた推論タスクとして次トーケン予測を再設定し、与えられたコンテキストに対して次のトークンを正しく予測するための検証可能な報酬を受け取る。
RPTは、ドメイン固有の注釈付き回答に頼るのではなく、大量のテキストデータを汎用RLに活用するためのスケーラブルな方法を提供する。
RPTは次のトークンを予測する言語モデリング精度を大幅に向上させる。
さらに、RTTは強化微調整のための強力な事前訓練基盤を提供する。
スケーリング曲線は、トレーニング計算の増大が次点予測精度を一貫して改善することを示している。
その結果、RTPは言語モデルの事前学習を促進するための効果的で有望なスケーリングパラダイムとして位置づけられた。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。
プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文 参考訳(メタデータ) (2024-07-09T22:37:59Z) - Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (2024-04-30T17:33:57Z) - Markovian Transformers for Informative Language Modeling [0.9642500063568188]
CoT(Chain-of-Thought)推論は、しばしば言語モデルの根底にある決定プロセスを忠実に反映しない。
我々は、CoTを「マルコフ」言語モデルにおいて因果的に必要としており、中間のCoTを通して次のトークン予測を分解し、元のプロンプトとは無関係に将来のトークンを予測するよう訓練する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - ReInform: Selecting paths with reinforcement learning for contextualized
link prediction [3.454537413673216]
本稿では、強化学習を用いて、トランスフォーマーに基づく文脈化リンク予測モデルについて報告する。
WN18RRとFB15k-237の実験では、コンテキスト化されたリンク予測モデルがRLベースの回答探索より一貫して優れていることが示されている。
論文 参考訳(メタデータ) (2022-11-19T13:04:53Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。