論文の概要: Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2606.03102v1
- Date: Tue, 02 Jun 2026 03:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.719323
- Title: Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling
- Title(参考訳): 小型RLコントローラと大規模言語モデル:テスト時間スケーリングのためのRL誘導適応サンプリング
- Authors: Runpeng Dai, Tong Zheng, Rui Liu, Chengsong Huang, Hongtu Zhu,
- Abstract要約: 適応サンプリングをマルコフ決定過程(MDP)として定式化する。
我々は、回答の正しさ、レイテンシ、コストを両立させるために、強化学習(RL)を備えた軽量サンプリングコントローラを訓練する。
提案手法は,最終回答の統計にのみ依存する軽量で,CPU上でのトレーニングやデプロイが可能である。
- 参考スコア(独自算出の注目度): 16.727861334696883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling improves the reasoning performance of large language models but incurs substantial cost in both total computation and latency. Existing adaptive sampling methods partially mitigate this issue by dynamically deciding when to stop sampling, yet they typically rely on heuristic rules or rely on distribution assumptions. In this work, we formulate adaptive sampling as a Markov decision process (MDP). We train a lightweight sampling controller with reinforcement learning (RL) to jointly balance answer correctness, latency, and computation cost. At each round, the controller decides to stop sampling or to acquire additional samples. Our method is lightweight which only relies on statistics of final answers, and can be trained and deployed on CPU. We further show that the resulting framework admits an interpretation as the Lagrangian relaxation of a constrained optimization problem with explicit budget constraints. Experiments against strong baselines such as ASC and ESC show that our method achieves improved trade-offs among answer correctness, sampling rounds, and total samples required.
- Abstract(参考訳): テストタイムのスケーリングは、大きな言語モデルの推論性能を改善するが、総計算とレイテンシの両方でかなりのコストがかかる。
既存の適応サンプリング手法は、サンプリングをやめるタイミングを動的に決定することでこの問題を部分的に緩和するが、通常はヒューリスティックなルールや分布仮定に依存する。
本研究では,適応サンプリングをマルコフ決定過程(MDP)として定式化する。
我々は、回答の正しさ、レイテンシ、計算コストを両立させるために、強化学習(RL)を備えた軽量サンプリングコントローラを訓練する。
各ラウンドで、コントローラはサンプリングを中止するか、追加のサンプルを取得することに決める。
提案手法は,最終回答の統計にのみ依存する軽量で,CPU上でのトレーニングやデプロイが可能である。
さらに、得られたフレームワークは、明示的な予算制約を伴う制約付き最適化問題のラグランジアン緩和として解釈できることを示す。
ASCやESCのような強力なベースラインに対する実験により,回答の正当性,サンプリングラウンド,必要な全サンプル間のトレードオフの改善が得られた。
関連論文リスト
- Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。
本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。
データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-01T07:30:22Z) - VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL [38.782188833641676]
GRPOやGSPOのようなグループベースのポリシー最適化手法は、マルチモーダルモデルのトレーニングの標準となっている。
グループ内のすべての応答が同じ報酬を受けると、それらは致命的な急激な消滅問題に悩まされる。
textbfVADEは,オンラインサンプルレベルの難易度を用いたサンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T08:59:54Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Robust Sampling in Deep Learning [62.997667081978825]
ディープラーニングは、オーバーフィッティングを減らし、一般化を改善するために正規化メカニズムを必要とする。
分散ロバスト最適化に基づく新しい正規化手法によりこの問題に対処する。
トレーニング中は、最悪のサンプルが最適化に最も貢献するものであるように、その正確性に応じてサンプルの選択が行われる。
論文 参考訳(メタデータ) (2020-06-04T09:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。