論文の概要: ESSAM: A Novel Competitive Evolution Strategies Approach to Reinforcement Learning for Memory Efficient LLMs Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.01003v1
- Date: Sun, 01 Feb 2026 03:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.520121
- Title: ESSAM: A Novel Competitive Evolution Strategies Approach to Reinforcement Learning for Memory Efficient LLMs Fine-Tuning
- Title(参考訳): ESSAM: メモリ効率の良いLLMのための強化学習のための新しい競争的進化戦略アプローチ
- Authors: Zhishen Sun, Sizhe Dang, Guang Dai, Haishan Ye,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)における数学的推論を改善するための重要な訓練ステップとなっている。
シャープネス認識最大化(ESSAM)を用いた進化戦略を提案する。
ESSAMは、Evolution Strategies (ES) のパラメータ空間におけるゼロ次探索と Sharpness-Aware Maximization (SAM) を組み合わせることで、一般化を改善する。
従来のRLアルゴリズムのPPOの精度は77.72%を超え、精度は78.34%でGRPOに匹敵する。
- 参考スコア(独自算出の注目度): 27.196101464830903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a key training step for improving mathematical reasoning in large language models (LLMs), but it often has high GPU memory usage, which makes it hard to use in settings with limited resources. To reduce these issues, we propose Evolution Strategies with Sharpness-Aware Maximization (ESSAM), a full parameter fine-tuning framework that tightly combines the zero-order search in parameter space from Evolution Strategies (ES) with the Sharpness-Aware Maximization (SAM) to improve generalization. We conduct fine-tuning experiments on the mainstream mathematica reasoning task GSM8K. The results show that ESSAM achieves an average accuracy of 78.27\% across all models and its overall performance is comparable to RL methods. It surpasses classic RL algorithm PPO with an accuracy of 77.72\% and is comparable to GRPO with an accuracy of 78.34\%, and even surpassing them on some models. In terms of GPU memory usage, ESSAM reduces the average GPU memory usage by $18\times$ compared to PPO and by $10\times$ compared to GRPO, achieving an extremely low GPU memory usage.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)における数学的推論を改善するための重要なトレーニングステップとなっているが、しばしばGPUメモリの使用量が多いため、限られたリソースでの使用が難しい。
これらの問題を解決するために,Evolution Strategies with Sharpness-Aware Maximization (ESSAM)を提案する。
メインストリームの数学的推論タスク GSM8K で微調整実験を行った。
その結果、ESSAMは全モデルの平均精度78.27\%に達し、全体的な性能はRL法に匹敵することがわかった。
従来のRLアルゴリズムのPPOを77.72\%で上回り、精度78.34\%でGRPOに匹敵する。
GPUメモリ使用率の面では、ESSAMは、PPOと比較して18\times$、GRPOと比較して10\times$で、GPUメモリ使用率が極めて低い。
関連論文リスト
- ESSA: Evolutionary Strategies for Scalable Alignment [8.418036456622158]
我々は,前向き推論とブラックボックス最適化のみを用いて,Large Language Models (LLM) を整列する勾配のないフレームワークであるESSAを提案する。
ESSAはQwen2.5-Math-7Bのテスト精度をGSM8Kで12.6%、PRM800Kで14.8%改善し、IFEvalでLLaMA3.1-8Bの精度を22.5%向上させた。
大規模な設定では、ESSAは勾配ベースの方法よりもスケーリングが強い。
論文 参考訳(メタデータ) (2025-07-06T16:23:07Z) - Stochastic Rounding for LLM Training: Theory and Practice [15.071158535119539]
ラウンドリング(SR)を利用して,低精度表現による数値誤差に対処する。
最大6.7Bパラメータの事前学習モデルによる実験結果から, SR戦略を用いたBF16が, 混合精度戦略(BF16, FP32)より優れていることが示された。
論文 参考訳(メタデータ) (2025-02-27T22:08:08Z) - Gradient Weight-normalized Low-rank Projection for Efficient LLM Training [16.00576040281808]
大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示してきたが、計算資源に対する需要の増大は大きな課題となっている。
これを解決するために、パラメータ効率のよい微細チューニング法(PEFT)が開発されているが、完全な微細チューニングに比べて性能が劣ることが多い。
我々はGradNormLoRPを導入し、パラメータとメモリ効率を両立させながら、完全な微調整に匹敵する性能を維持した。
論文 参考訳(メタデータ) (2024-12-27T12:23:39Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。