論文の概要: HeaPA: Difficulty-Aware Heap Sampling and On-Policy Query Augmentation for LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.22448v1
- Date: Fri, 30 Jan 2026 01:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.151595
- Title: HeaPA: Difficulty-Aware Heap Sampling and On-Policy Query Augmentation for LLM Reinforcement Learning
- Title(参考訳): HeaPA: LLM強化学習のための難解なヒープサンプリングとオンラインクエリ拡張
- Authors: Weiqi Wang, Xin Liu, Binxuan Huang, Hejie Cui, Rongzhi Zhang, Changlong Yu, Shuowei Jin, Jingfeng Yang, Qingyu Yin, Zhengyang Wang, Zheng Li, Yifan Gao, Priyanka Nigam, Bing Yin, Lihong Li, Yangqiu Song,
- Abstract要約: HeaPAは精度を継続的に改善し、少ない計算で目標性能に達する。
分析の結果、これらの上昇はフロンティアに焦点を当てたサンプリングとオン政治プールの成長によるものであることが示唆された。
- 参考スコア(独自算出の注目度): 78.12979615107564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RLVR is now a standard way to train LLMs on reasoning tasks with verifiable outcomes, but when rollout generation dominates the cost, efficiency depends heavily on which prompts you sample and when. In practice, prompt pools are often static or only loosely tied to the model's learning progress, so uniform sampling can't keep up with the shifting capability frontier and ends up wasting rollouts on prompts that are already solved or still out of reach. Existing approaches improve efficiency through filtering, curricula, adaptive rollout allocation, or teacher guidance, but they typically assume a fixed pool-which makes it hard to support stable on-policy pool growth-or they add extra teacher cost and latency. We introduce HeaPA (Heap Sampling and On-Policy Query Augmentation), which maintains a bounded, evolving pool, tracks the frontier using heap-based boundary sampling, expands the pool via on-policy augmentation with lightweight asynchronous validation, and stabilizes correlated queries through topology-aware re-estimation of pool statistics and controlled reinsertion. Across two training corpora, two training recipes, and seven benchmarks, HeaPA consistently improves accuracy and reaches target performance with fewer computations while keeping wall-clock time comparable. Our analyses suggest these gains come from frontier-focused sampling and on-policy pool growth, with the benefits becoming larger as model scale increases. Our code is available at https://github.com/horizon-rl/HeaPA.
- Abstract(参考訳): RLVRは現在、検証可能な結果の推論タスクでLLMをトレーニングする標準的な方法となっているが、ロールアウト生成がコストを支配している場合、効率はサンプリングとタイミングに大きく依存する。
実際には、プロンプトプールは、しばしばモデルの学習進捗に静的または緩やかに結びついているので、一様サンプリングはシフト能力フロンティアに追いつくことができず、既に解決されているプロンプトやまだ手が届かないプロンプトのロールアウトを無駄にしてしまう。
既存のアプローチは、フィルタリング、カリキュラム、適応的なロールアウトアロケーション、あるいは教師のガイダンスを通じて効率を改善するが、彼らは通常、固定プールを仮定する。
本稿では,HeaPA(Heap Smpling and On-Policy Query Augmentation)を導入し,バウンダリベースのバウンダリサンプリングによるフロンティアの追跡,軽量非同期バリデーションによるオン・ポリケーションによるプールの拡張,およびトポロジに配慮したプール統計の再推定と制御再セレーションによる相関クエリの安定化について紹介する。
2つのトレーニングコーパス、2つのトレーニングレシピ、7つのベンチマークで、HeaPAは一貫して精度を改善し、ウォールクロック時間に匹敵する時間を保ちながら、少ない計算で目標のパフォーマンスに達する。
分析の結果,モデルスケールの増加に伴い,フロンティアに着目したサンプリングとオン・ポリケーションプールの成長により,これらの利益が増大することが示唆された。
私たちのコードはhttps://github.com/Horizon-rl/HeaPA.comで公開されています。
関連論文リスト
- SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models [67.41779761651924]
SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。
標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-29T09:56:15Z) - CoPRIS: Efficient and Stable Reinforcement Learning via Concurrency-Controlled Partial Rollout with Importance Sampling [11.252930904797]
重要サンプリングを用いた並列制御部分ロールアウト(CoPRIS)を提案する。
CoPRISは、一定数の同時ロールアウトを維持し、十分なサンプルが収集されたら早期終了し、その後のロールアウトで未完成のトラジェクトリを再利用することで、長いテールの非効率を緩和する。
実験の結果、CoPRISは同期RLシステムに匹敵する性能を維持しながら、最大1.94倍高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2025-11-05T11:39:32Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。