論文の概要: Reinforcement Learning Teachers of Test Time Scaling
- arxiv url: http://arxiv.org/abs/2506.08388v1
- Date: Tue, 10 Jun 2025 02:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.265627
- Title: Reinforcement Learning Teachers of Test Time Scaling
- Title(参考訳): テストタイムスケーリングの強化学習
- Authors: Edoardo Cetin, Tianyu Zhao, Yujin Tang,
- Abstract要約: LMを推論する主要なユースケースは、新しい学生を蒸留し、将来のRLイテレーションを冷静に開始する教師として機能することである。
我々は,RLの探究課題を回避するために,RLT(Reinforcement-Learned Teachers)の新たなクラスを育成する枠組みを導入する。
RLTは、各問題に対する質問と解決の両方で促され、生徒に合った詳細な説明で単に「接続する」ことを任務とする。
- 参考スコア(独自算出の注目度): 20.251827725749607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training reasoning language models (LMs) with reinforcement learning (RL) for one-hot correctness inherently relies on the LM being able to explore and solve its task with some chance at initialization. Furthermore, a key use case of reasoning LMs is to act as teachers for distilling new students and cold-starting future RL iterations rather than being deployed themselves. From these considerations, we introduce a new framework that avoids RL's exploration challenge by training a new class of Reinforcement-Learned Teachers (RLTs) focused on yielding the most effective downstream distillation. RLTs are prompted with both the question and solution to each problem, and tasked to simply "connect-the-dots" with detailed explanations tailored for their students. We train RLTs with dense rewards obtained by feeding each explanation to the student and testing its understanding of the problem's solution. In practice, the raw outputs of a 7B RLT provide higher final performance on competition and graduate-level tasks than existing distillation and cold-starting pipelines that collect and postprocess the reasoning traces of orders of magnitude larger LMs. Furthermore, RLTs maintain their effectiveness when training larger students and when applied zero-shot to out-of-distribution tasks, unlocking new levels of efficiency and re-usability for the RL reasoning framework.
- Abstract(参考訳): 強化学習(RL)による1ホットの正しさを訓練する言語モデル(LM)は、本来はLMが初期化の確率でそのタスクを探索し解決できることに依存している。
さらに、LMを推論する重要なユースケースは、新しい学生を蒸留する教師として機能し、自身でデプロイされるのではなく、将来のRLイテレーションを冷やし始めることである。
そこで本研究では,RLの探究課題を回避するために,下流の蒸留を最も効果的に行うことに焦点を当てたRLT(Reinforcement-Learned Teachers)の新たなクラスを育成する枠組みを導入する。
RLTは、各問題に対する質問と解決の両方で促され、生徒に合った詳細な説明で単に「接続する」ことを任務とする。
我々は、生徒にそれぞれの説明を与え、問題の解に対する理解を試験することによって得られる深い報酬でRTTを訓練する。
実際に、7B RLTの生出力は、既存の蒸留や冷間始動パイプラインよりも競争や卒業レベルのタスクにおいて、より大きなLMの順序の推論トレースを収集・後処理する。
さらに、RLTは、より大きな学生を訓練したり、配布外タスクにゼロショットを適用したりすることで、RL推論フレームワークの新たなレベルの効率性と再利用性を解放する際の有効性を維持している。
関連論文リスト
- Decomposing Elements of Problem Solving: What "Math" Does RL Teach? [22.517954679764244]
私たちは問題解決を、計画、実行、検証という基本的な機能に分解します。
RLを訓練したモデルは、計画スキルが不十分なため、基本的に新しい問題に悩まされ、"カバーウォール"にぶつかっていることを示す。
本研究は, LLM推論の強化におけるRLの役割について考察し, 重要な限界を明らかにするとともに, これらの障壁を克服するための道筋を示唆する。
論文 参考訳(メタデータ) (2025-05-28T18:18:49Z) - Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs [12.087316618902433]
大型言語モデル(LLM)の推論は複雑なタスクに優れている。
既存のアプローチでは、強化学習(RL)中に全ての質問に同じ数のロールアウトを割り当てている。
本稿では,問題の難易度に基づいて動的にロールアウト予算を割り当てる機構を提案する。
論文 参考訳(メタデータ) (2025-05-24T07:28:29Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning [63.888013006686364]
教師による微調整(SFT)による教師から生徒への推論経路の蒸留は、大規模言語モデル(LLM)の推論能力を向上させるショートカットを提供する。
GSRM(Generative Structure Reward Model)による強化学習に基づく蒸留フレームワークRLKDを提案する。
GSRMは、推論パスを複数のメタ推論解決ステップに変換し、報酬を計算して、学生と教師の推論の構造的アライメントを測定する。
論文 参考訳(メタデータ) (2025-05-22T02:36:36Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。