論文の概要: Infinite Sampling: Efficient and Stable Grouped RL Training for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.22950v1
- Date: Sat, 28 Jun 2025 16:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.641673
- Title: Infinite Sampling: Efficient and Stable Grouped RL Training for Large Language Models
- Title(参考訳): 無限サンプリング:大規模言語モデルのための効率的かつ安定なグループRLトレーニング
- Authors: Liangyu Wang, Huanyi Xie, Xinhai Wang, Tianjin Huang, Mengdi Li, Di Wang,
- Abstract要約: グループベース強化学習アルゴリズムは,人間のフィードバックによる大規模言語モデル(LLM)の微調整に有効であることが証明されている。
プロンプト毎に複数のレスポンスを生成し、保存すると、かなりのメモリオーバーヘッドが発生する。
Infinite Samplingは、GPUメモリ使用量からグループサイズを分離することで、効率よく安定したGRPOトレーニングを可能にするフレームワークである。
- 参考スコア(独自算出の注目度): 9.805174094639785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group-based reinforcement learning algorithms such as Group Reward Policy Optimization (GRPO) have proven effective for fine-tuning large language models (LLMs) with human feedback. However, generating and storing multiple responses per prompt incurs substantial memory overhead, especially as the sample group size increases, limiting scalability under constrained hardware. We propose Infinite Sampling, a framework that enables efficient and stable GRPO training by decoupling group size from GPU memory usage. It consists of: (1) micro sampling groups that decompose large groups into memory-feasible rounds; (2) continuous sampling that interleaves generation across groups to improve utilization; and (3) a length-aware scheduler combining token-conditioned sequence length prediction with a two-stage plan: global grouping via FPTAS and runtime refill via SJF. Experiments show that our Micro Sampling Groups reduce peak memory usage by over 50% compared to full-group decoding (e.g., from 21.55 GB to 10.64 GB on Qwen3-1.7B). Building on this, Infinite Sampling improves throughput by over 25% compared to the naive micro sampling group method, reducing decoding steps while maintaining full-length completions and memory usage. Our hybrid scheduling ensures efficient and stable GRPO training with larger groups under realistic GPU memory constraints.
- Abstract(参考訳): グループリワードポリシー最適化(GRPO)のようなグループベースの強化学習アルゴリズムは、人間のフィードバックで大規模言語モデル(LLM)を微調整するのに有効であることが証明されている。
しかし、プロンプト毎の複数のレスポンスの生成と保存は、特にサンプルグループのサイズが大きくなると、メモリオーバーヘッドが大幅に増加し、制約のあるハードウェアでのスケーラビリティが制限される。
Infinite Samplingは、GPUメモリ使用量からグループサイズを分離することで、効率よく安定したGRPOトレーニングを可能にするフレームワークである。
1) 大規模グループをメモリ実現可能なラウンドに分解するマイクロサンプリンググループ,(2) グループ間をインターリーブして利用を向上させる連続サンプリンググループ,(3) トークン条件付きシーケンス長予測と2段階計画(FPTAS経由のグローバルグループ化とSJF経由のランタイムリフィル)を組み合わせるスケジューラから構成される。
実験によると、私たちのMicro Smpling Groupsは、フルグループのデコード(例えば、Qwen3-1.7Bの21.55GBから10.64GB)と比較してピークメモリ使用量を50%以上削減している。
これに基づいて、Infinite Samplingは、単純マイクロサンプリンググループ法と比較して25%以上のスループット向上を実現し、完全な補完とメモリ使用率を維持しながらデコードステップを削減する。
当社のハイブリッドスケジューリングは,現実的なGPUメモリ制約下での大規模グループによる,効率的かつ安定したGRPOトレーニングを実現する。
関連論文リスト
- Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward [10.640867597958863]
提案するPrefix Grouperは,より効率的なGRPO学習アルゴリズムであり,Shared-Prefix Forward戦略を用いて冗長なプレフィックスを除去する。
自己注意を2つの部分に再構成することで、共有プレフィックスを1回だけエンコードすることが可能となる。
我々は、Prefix Grouperが標準GRPOと同等のトレーニングであるという理論的および実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-06-05T09:13:37Z) - Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。
RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。
また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文 参考訳(メタデータ) (2025-06-01T23:49:14Z) - Group-in-Group Policy Optimization for LLM Agent Training [14.179593951503676]
Group-in-Group Policy Optimization (GiGPO) は、LLMエージェントのきめ細かいクレジット割り当てを実現する新しいRLアルゴリズムである。
我々は、Qwen2.5-1.5B-InstructとQwen2.5-7B-Instructを用いて、ALFWorldとWebShopという2つの挑戦的エージェントベンチマーク上でGiGPOを評価した。
論文 参考訳(メタデータ) (2025-05-16T08:26:59Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [32.631581095454806]
PODSは多数のロールアウトを並列に生成し、情報サブセットのみをトレーニングし、更新コストを削減しながら学習信号を保存する。
我々は最大分散ダウンサンプリングでPODSをインスタンス化し、これは報酬の多様性を最大化し、$O(nlog n)$解を許容する原理的な基準である。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Group-robust Sample Reweighting for Subpopulation Shifts via Influence Functions [37.0753553356624]
グループロバストサンプル再重み付け(GSR)は、まずグループ未ラベルデータから表現を学習する2段階の手法である。
GSRは理論的には健全で、実質的に軽量であり、人口移動に対する堅牢性を改善するのに効果的である。
論文 参考訳(メタデータ) (2025-03-10T13:34:18Z) - FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。