Fugu-MT 論文翻訳(概要): Infinite Sampling: Efficient and Stable Grouped RL Training for Large Language Models

論文の概要: Infinite Sampling: Efficient and Stable Grouped RL Training for Large Language Models

arxiv url: http://arxiv.org/abs/2506.22950v1
Date: Sat, 28 Jun 2025 16:52:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.641673
Title: Infinite Sampling: Efficient and Stable Grouped RL Training for Large Language Models
Title（参考訳）: 無限サンプリング:大規模言語モデルのための効率的かつ安定なグループRLトレーニング
Authors: Liangyu Wang, Huanyi Xie, Xinhai Wang, Tianjin Huang, Mengdi Li, Di Wang,
Abstract要約: グループベース強化学習アルゴリズムは,人間のフィードバックによる大規模言語モデル(LLM)の微調整に有効であることが証明されている。プロンプト毎に複数のレスポンスを生成し、保存すると、かなりのメモリオーバーヘッドが発生する。 Infinite Samplingは、GPUメモリ使用量からグループサイズを分離することで、効率よく安定したGRPOトレーニングを可能にするフレームワークである。
参考スコア（独自算出の注目度）: 9.805174094639785
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Group-based reinforcement learning algorithms such as Group Reward Policy Optimization (GRPO) have proven effective for fine-tuning large language models (LLMs) with human feedback. However, generating and storing multiple responses per prompt incurs substantial memory overhead, especially as the sample group size increases, limiting scalability under constrained hardware. We propose Infinite Sampling, a framework that enables efficient and stable GRPO training by decoupling group size from GPU memory usage. It consists of: (1) micro sampling groups that decompose large groups into memory-feasible rounds; (2) continuous sampling that interleaves generation across groups to improve utilization; and (3) a length-aware scheduler combining token-conditioned sequence length prediction with a two-stage plan: global grouping via FPTAS and runtime refill via SJF. Experiments show that our Micro Sampling Groups reduce peak memory usage by over 50% compared to full-group decoding (e.g., from 21.55 GB to 10.64 GB on Qwen3-1.7B). Building on this, Infinite Sampling improves throughput by over 25% compared to the naive micro sampling group method, reducing decoding steps while maintaining full-length completions and memory usage. Our hybrid scheduling ensures efficient and stable GRPO training with larger groups under realistic GPU memory constraints.
Abstract（参考訳）: グループリワードポリシー最適化(GRPO)のようなグループベースの強化学習アルゴリズムは、人間のフィードバックで大規模言語モデル(LLM)を微調整するのに有効であることが証明されている。しかし、プロンプト毎の複数のレスポンスの生成と保存は、特にサンプルグループのサイズが大きくなると、メモリオーバーヘッドが大幅に増加し、制約のあるハードウェアでのスケーラビリティが制限される。 Infinite Samplingは、GPUメモリ使用量からグループサイズを分離することで、効率よく安定したGRPOトレーニングを可能にするフレームワークである。 1) 大規模グループをメモリ実現可能なラウンドに分解するマイクロサンプリンググループ,(2) グループ間をインターリーブして利用を向上させる連続サンプリンググループ,(3) トークン条件付きシーケンス長予測と2段階計画(FPTAS経由のグローバルグループ化とSJF経由のランタイムリフィル)を組み合わせるスケジューラから構成される。実験によると、私たちのMicro Smpling Groupsは、フルグループのデコード(例えば、Qwen3-1.7Bの21.55GBから10.64GB)と比較してピークメモリ使用量を50%以上削減している。これに基づいて、Infinite Samplingは、単純マイクロサンプリンググループ法と比較して25%以上のスループット向上を実現し、完全な補完とメモリ使用率を維持しながらデコードステップを削減する。当社のハイブリッドスケジューリングは,現実的なGPUメモリ制約下での大規模グループによる,効率的かつ安定したGRPOトレーニングを実現する。

関連論文リスト

An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward [10.640867597958863]
提案するPrefix Grouperは,より効率的なGRPO学習アルゴリズムであり,Shared-Prefix Forward戦略を用いて冗長なプレフィックスを除去する。自己注意を2つの部分に再構成することで、共有プレフィックスを1回だけエンコードすることが可能となる。我々は、Prefix Grouperが標準GRPOと同等のトレーニングであるという理論的および実証的な証拠を提供する。
論文参考訳（メタデータ） (2025-06-05T09:13:37Z)
Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。 RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文参考訳（メタデータ） (2025-06-01T23:49:14Z)
Group-in-Group Policy Optimization for LLM Agent Training [14.179593951503676]
Group-in-Group Policy Optimization (GiGPO) は、LLMエージェントのきめ細かいクレジット割り当てを実現する新しいRLアルゴリズムである。我々は、Qwen2.5-1.5B-InstructとQwen2.5-7B-Instructを用いて、ALFWorldとWebShopという2つの挑戦的エージェントベンチマーク上でGiGPOを評価した。
論文参考訳（メタデータ） (2025-05-16T08:26:59Z)
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [32.631581095454806]
PODSは多数のロールアウトを並列に生成し、情報サブセットのみをトレーニングし、更新コストを削減しながら学習信号を保存する。我々は最大分散ダウンサンプリングでPODSをインスタンス化し、これは報酬の多様性を最大化し、$O(nlog n)$解を許容する原理的な基準である。
論文参考訳（メタデータ） (2025-04-18T17:49:55Z)
Group-robust Sample Reweighting for Subpopulation Shifts via Influence Functions [37.0753553356624]
グループロバストサンプル再重み付け(GSR)は、まずグループ未ラベルデータから表現を学習する2段階の手法である。 GSRは理論的には健全で、実質的に軽量であり、人口移動に対する堅牢性を改善するのに効果的である。
論文参考訳（メタデータ） (2025-03-10T13:34:18Z)
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文参考訳（メタデータ） (2025-02-20T18:58:10Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文参考訳（メタデータ） (2023-07-26T16:19:19Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Gradient Coding with Dynamic Clustering for Straggler-Tolerant Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文参考訳（メタデータ） (2021-03-01T18:51:29Z)
BanditPAM: Almost Linear Time $k$-Medoids Clustering via Multi-Armed Bandits [16.1767275655842]
現在の$k$-medoidsクラスタリングアルゴリズム、例えば、PAM(Partitioning Around Medoids)は反復的であり、各イテレーションで$n$のデータセットサイズであり、大規模なデータセットでは極めて高価である。マルチアームバンディットの技法にインスパイアされたランダム化アルゴリズムであるBanditPAMを提案する。これは、PAMの繰り返しの複雑さを$O(n2)$から$O(n log n)$に減らし、実際に保持されるデータに対する仮定の下で、高い確率で同じ結果を返す。我々は、コーディングを含むいくつかの大規模な実世界のデータセットで実験的に結果を検証する。
論文参考訳（メタデータ） (2020-06-11T22:17:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。