論文の概要: Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.01970v1
- Date: Mon, 02 Feb 2026 11:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.10418
- Title: Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models
- Title(参考訳): 小型一般化可能確率予測モデルによる大規模共振モデルの効率的なRL後評価
- Authors: Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji,
- Abstract要約: 本研究は、汎用予測型プロンプト選択(GPS)を紹介する。
GPSは、共有最適化履歴に基づいて訓練された軽量な生成モデルを用いて、迅速にベイズ推定を行う。
様々な推論ベンチマークによる実験は、GPSがトレーニング効率、最終性能、テストタイム効率を大幅に改善したことを示している。
- 参考スコア(独自算出の注目度): 46.50839982051244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning enhances the reasoning capabilities of large language models but often involves high computational costs due to rollout-intensive optimization. Online prompt selection presents a plausible solution by prioritizing informative prompts to improve training efficiency. However, current methods either depend on costly, exact evaluations or construct prompt-specific predictive models lacking generalization across prompts. This study introduces Generalizable Predictive Prompt Selection (GPS), which performs Bayesian inference towards prompt difficulty using a lightweight generative model trained on the shared optimization history. Intermediate-difficulty prioritization and history-anchored diversity are incorporated into the batch acquisition principle to select informative prompt batches. The small predictive model also generalizes at test-time for efficient computational allocation. Experiments across varied reasoning benchmarks indicate GPS's substantial improvements in training efficiency, final performance, and test-time efficiency over superior baseline methods.
- Abstract(参考訳): 強化学習は、大規模言語モデルの推論能力を高めるが、ロールアウト集約最適化による高い計算コストを伴うことが多い。
オンラインプロンプト選択は、トレーニング効率を向上させるために情報的プロンプトを優先順位付けすることで、妥当なソリューションを提示します。
しかし、現在の手法はコストが高く正確な評価に依存するか、プロンプトをまたいだ一般化に欠けるプロンプト固有の予測モデルを構築するかのいずれかである。
本研究では、共有最適化履歴に基づいて訓練された軽量な生成モデルを用いて、ベイズ的推論を迅速に行ない、一般化可能な予測確率選択(GPS)を提案する。
バッチ取得原則には、中間微分優先化と履歴アンコレッドの多様性が組み込まれ、情報的プロンプトのバッチを選択する。
小さな予測モデルは、効率的な計算割り当てのためにテスト時に一般化する。
様々な推論ベンチマークによる実験は、GPSが優れたベースライン法よりもトレーニング効率、最終性能、テストタイム効率を大幅に改善したことを示している。
関連論文リスト
- Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Boosting Fair Classifier Generalization through Adaptive Priority Reweighing [59.801444556074394]
より優れた一般化性を持つ性能向上フェアアルゴリズムが必要である。
本稿では,トレーニングデータとテストデータ間の分散シフトがモデル一般化性に与える影響を解消する適応的リライジング手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T13:04:55Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。