論文の概要: IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL
- arxiv url: http://arxiv.org/abs/2603.12151v1
- Date: Thu, 12 Mar 2026 16:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.231472
- Title: IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL
- Title(参考訳): IsoCompute Playbook: LLM RLのサンプリングコンピューティングを最適化
- Authors: Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar,
- Abstract要約: 大規模言語モデル(LLM)におけるオンライン強化学習手法におけるサンプリング計算の最適割当について検討する。
並列ロールアウトの計算最適数は,計算予算とともに予測可能で増加し,飽和することがわかった。
本結果は,RLスケーリング法則を規範的割り当て規則として再考し,計算効率の高いLLM RLポストトレーニングのための実践的ガイダンスを提供する。
- 参考スコア(独自算出の注目度): 75.28528082188787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While scaling laws guide compute allocation for LLM pre-training, analogous prescriptions for reinforcement learning (RL) post-training of large language models (LLMs) remain poorly understood. We study the compute-optimal allocation of sampling compute for on-policy RL methods in LLMs, framing scaling as a compute-constrained optimization over three resources: parallel rollouts per problem, number of problems per batch, and number of update steps. We find that the compute-optimal number of parallel rollouts per problem increases predictably with compute budget and then saturates. This trend holds across both easy and hard problems, though driven by different mechanisms: solution sharpening on easy problems and coverage expansion on hard problems. We further show that increasing the number of parallel rollouts mitigates interference across problems, while the number of problems per batch primarily affects training stability and can be chosen within a broad range. Validated across base models and data distributions, our results recast RL scaling laws as prescriptive allocation rules and provide practical guidance for compute-efficient LLM RL post-training.
- Abstract(参考訳): スケーリング法は、LLM事前学習の計算割り当てを導くが、大規模言語モデル(LLM)の強化学習(RL)後訓練における類似の処方薬は、いまだに理解されていない。
本研究では,LLMにおけるオンラインRL法におけるサンプリング計算の計算-最適割り当て,並列ロールアウト,バッチ毎の問題数,更新ステップ数という3つのリソースに対する計算-制約付き最適化としてのスケーリングのフレーミングについて検討する。
並列ロールアウトの計算最適数は,計算予算とともに予測可能で増加し,飽和することがわかった。
この傾向は、簡単な問題と難しい問題の両方にまたがるが、異なるメカニズムによって引き起こされる。
さらに,並列ロールアウト数の増加は問題間の干渉を軽減する一方で,バッチ毎の問題数はトレーニングの安定性に大きく影響し,幅広い範囲で選択可能であることを示す。
ベースモデルとデータ分布にまたがって検証した結果,RLスケーリング法則を規範的アロケーションルールとして再検討し,計算効率の高いLLM RLポストトレーニングのための実践的ガイダンスを提供する。
関連論文リスト
- CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [69.67914133280296]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。
LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本手法は,従来のGRPOアルゴリズムと同等の性能を示しながら,RLの微調整時間を23%から62%削減する。
論文 参考訳(メタデータ) (2025-06-05T17:55:43Z) - Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs [16.64613090265212]
大型言語モデル(LLM)の推論は複雑なタスクに優れている。
既存のアプローチでは、強化学習(RL)中に全ての質問に同じ数のロールアウトを割り当てている。
本稿では,問題の難易度に基づいて動的にロールアウト予算を割り当てる機構を提案する。
論文 参考訳(メタデータ) (2025-05-24T07:28:29Z) - Cost-Optimal Grouped-Query Attention for Long-Context Modeling [45.981681856747365]
Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。
我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。
コスト最適GQA構成の導出法を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。
リクエストはサーバ上のジョブをスケジューリングする重要なステップです。
リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。
我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文 参考訳(メタデータ) (2024-12-03T03:16:12Z) - Online Learning of Weakly Coupled MDP Policies for Load Balancing and Auto Scaling [42.6574685545681]
本稿では,負荷バランサとオートスケーラを併用した新しいモデルとアルゴリズムを提案する。
まず、線形プログラム(LP)を介して解ける弱結合マルコフ決定過程(MDP)として問題を提示する。
LPラグランジアンに基づく2時間スケールのアルゴリズムを用いて,オンラインパラメータ学習とポリシー最適化の問題に対処するために拡張する。
論文 参考訳(メタデータ) (2024-06-20T09:34:24Z) - Deep Policy Iteration with Integer Programming for Inventory Management [8.27175065641495]
本稿では,大規模なアクセス可能な行動空間と状態依存制約を用いた長期割引報酬問題を最適化するための枠組みを提案する。
提案したプログラム可能なアクター強化学習(PARL)は,ニューラルネットワーク(NN)を利用して値関数を近似するディープ・ポリシー法を用いる。
我々は、提案アルゴリズムを最先端のRLアルゴリズムに対してベンチマークし、一般的に補充を使い、既存の手法を平均14.7%も上回っていることを発見した。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。