Fugu-MT 論文翻訳(概要): Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models

論文の概要: Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models

arxiv url: http://arxiv.org/abs/2507.18014v1
Date: Thu, 24 Jul 2025 01:09:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-25 15:10:42.810724
Title: Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models
Title（参考訳）: 大規模共振モデルの効率的なGRPO学習のための予測スケーリング法則
Authors: Datta Nimmaturi, Vaishnavi Bhargava, Rajat Ghosh, Johnu George, Debojyoti Dutta,
Abstract要約: 本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
参考スコア（独自算出の注目度）: 0.41942958779358663
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning large language models (LLMs) for reasoning tasks using reinforcement learning methods like Group Relative Policy Optimization (GRPO) is computationally expensive. To address this, we propose a predictive framework that models training dynamics and helps optimize resource usage. Through experiments on Llama and Qwen models (3B 8B), we derive an empirical scaling law based on model size, initial performance, and training progress. This law predicts reward trajectories and identifies three consistent training phases: slow start, rapid improvement, and plateau. We find that training beyond certain number of an epoch offers little gain, suggesting earlier stopping can significantly reduce compute without sacrificing performance. Our approach generalizes across model types, providing a practical guide for efficient GRPO-based fine-tuning.
Abstract（参考訳）: グループ相対政策最適化(GRPO)のような強化学習手法を用いてタスクを推論するための微調整大型言語モデル(LLM)は計算コストがかかる。そこで本研究では,動的なトレーニングをモデル化し,資源使用量の最適化を支援する予測フレームワークを提案する。 LlamaモデルとQwenモデル(3B 8B)の実験を通じて、モデルサイズ、初期性能、トレーニング進捗に基づく経験的スケーリング法則を導出する。この法則は報酬軌道を予測し、遅いスタート、急速な改善、高原の3つの一貫した訓練段階を特定する。特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。提案手法はモデルタイプをまたいで一般化し,GRPOをベースとしたファインチューニングの実践的ガイドを提供する。

関連論文リスト

It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs [15.263422862969803]
大規模言語モデルのトレーニング時間圧縮アルゴリズムであるBackSlashを導入する。 GGモデルに基づくLLM最適化のための統一エンドツーエンドフレームワークを提案する。私たちの貢献は3倍です。 DeepShapeは、トレーニング後の正規化手法で、体重分布をGGプロファイルにマッチさせる。 RF8は、GG-distributed-priord BackSlashトレーニング用に設計された、コンパクトでハードウェア効率の良い8ビット浮動小数点演算フォーマットである。
論文参考訳（メタデータ） (2025-05-31T09:49:17Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文参考訳（メタデータ） (2024-09-30T10:25:47Z)
Optimization Hyper-parameter Laws for Large Language Models [52.49860340549727]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文参考訳（メタデータ） (2024-09-07T09:37:19Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
Optimizing Large Model Training through Overlapped Activation Recomputation [24.28543166026873]
我々は、トレーニングパイプラインにおける通信と重複する再計算によってオーバーヘッドを削減する新しい再計算フレームワークであるLynxを紹介する。 1.3B-23Bパラメータを持つGPTモデルによる包括的評価の結果,Lynxは既存の再計算手法よりも1.37倍高い性能を示した。
論文参考訳（メタデータ） (2024-06-13T02:31:36Z)
More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。 a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文参考訳（メタデータ） (2024-04-30T12:05:48Z)
Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文参考訳（メタデータ） (2024-01-17T13:04:14Z)
Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文参考訳（メタデータ） (2023-11-06T16:20:28Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。