論文の概要: Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models?
- arxiv url: http://arxiv.org/abs/2507.04632v1
- Date: Mon, 07 Jul 2025 03:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.265277
- Title: Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models?
- Title(参考訳): Reasoning ModelのRLファインタニングを高速化するために, Promptはオンラインで予測できないか?
- Authors: Yun Qu, Qi Cheems Wang, Yixiu Mao, Vincent Tao Hu, Xiangyang Ji,
- Abstract要約: 本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
- 参考スコア(独自算出の注目度): 41.69340422699651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have witnessed the effectiveness of reinforcement learning (RL) finetuning in enhancing the reasoning capabilities of large language models (LLMs). The optimization process often requires numerous iterations to achieve satisfactory performance, resulting in high computational costs due to the need for frequent prompt evaluations under intensive LLM interactions and repeated policy updates. Appropriate online prompt selection methods reduce iteration steps by prioritizing informative prompts during training, while the pipeline's reliance on exhaustive prompt evaluation and subset selection for optimization still incurs substantial computational overhead due to frequent LLM inference calls. Distinguished from these direct evaluate-then-select schemes, this work investigates iterative approximate evaluation for arbitrary prompts and introduces Model Predictive Prompt Selection (MoPPS), a Bayesian risk-predictive framework that online estimates prompt difficulty without requiring costly LLM interactions. Technically, MoPPS models each prompt's success rate as a latent variable, performs streaming Bayesian inference, and employs posterior sampling in a constructed multi-armed bandit machine, enabling sample efficient and adaptive prompt selection. Extensive experiments across mathematics, planning, and vision-based geometry tasks show that MoPPS reliably predicts prompt difficulty and accelerates training with significantly reduced LLM rollouts.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の推論能力を高めるために,強化学習(RL)ファインタニングの有効性が注目されている。
最適化プロセスは、しばしば満足な性能を達成するために多くのイテレーションを必要とするため、集中的なLCM相互作用の下での頻繁な迅速な評価と繰り返しポリシー更新を必要とするため、高い計算コストが生じる。
適切なオンラインプロンプト選択法は、トレーニング中に情報的プロンプトを優先順位付けすることでイテレーションのステップを減少させるが、パイプラインが徹底的なプロンプト評価と最適化のためのサブセット選択に依存しているため、頻繁にLCMの推論コールによって、かなりの計算オーバーヘッドが生じる。
本研究は, 任意のプロンプトに対する反復的近似的評価を検証し, コストのかかるLLM相互作用を必要とせず, 困難を迅速に推定するベイズ的リスク予測フレームワークであるモデル予測プロンプト選択(MoPPS)を導入する。
技術的には、MoPPSは各プロンプトの成功率を潜伏変数としてモデル化し、ストリーミングベイズ推論を行い、構築されたマルチアームバンディットマシンで後続サンプリングを用い、サンプル効率と適応的なプロンプト選択を可能にする。
数学、計画、視覚に基づく幾何タスクにわたる広範な実験は、MoPPSが迅速な困難を確実に予測し、LLMロールアウトを大幅に削減したトレーニングを加速することを示している。
関連論文リスト
- In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。