論文の概要: Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-Training
- arxiv url: http://arxiv.org/abs/2604.01499v1
- Date: Thu, 02 Apr 2026 00:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.171569
- Title: Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-Training
- Title(参考訳): 形状の異なるマッチング精度:LLM後試験における進化戦略とGRPO
- Authors: William Hoy, Binxu Wang, Xu Pan,
- Abstract要約: Evolution Strategies (ES) は強化学習に基づく微調整に代わるスケーラブルな勾配のない代替品として登場した。
単一タスクと連続的な学習設定の両方において、ESとグループ相対ポリシー最適化を4つのタスクで比較する。
ESはGRPOをシングルタスクの精度でマッチまたは超過し、予算が制御された後も順次競争を継続する。
- 参考スコア(独自算出の注目度): 9.692209933810185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evolution Strategies (ES) have emerged as a scalable gradient-free alternative to reinforcement learning based LLM fine-tuning, but it remains unclear whether comparable task performance implies comparable solutions in parameter space. We compare ES and Group Relative Policy Optimization (GRPO) across four tasks in both single-task and sequential continual-learning settings. ES matches or exceeds GRPO in single-task accuracy and remains competitive sequentially when its iteration budget is controlled. Despite this similarity in task performance, the two methods produce markedly different model updates: ES makes much larger changes and induces broader off-task KL drift, whereas GRPO makes smaller, more localized updates. Strikingly, the ES and GRPO solutions are linearly connected with no loss barrier, even though their update directions are nearly orthogonal. We develop an analytical theory of ES that explains all these phenomena within a unified framework, showing how ES can accumulate large off-task movement on weakly informative directions while still making enough progress on the task to match gradient-based RL in downstream accuracy. These results show that gradient-free and gradient-based fine-tuning can reach similarly accurate yet geometrically distinct solutions, with important consequences for forgetting and knowledge preservation. The source code is publicly available: https://github.com/Bhoy1/ESvsGRPO.
- Abstract(参考訳): Evolution Strategies (ES) は強化学習に基づくLLMファインチューニングに代わるスケーラブルな勾配のない代替品として登場したが、同等のタスク性能がパラメータ空間における同等のソリューションを意味するかどうかは不明だ。
ESとGRPO(Group Relative Policy Optimization)を、単一タスクと逐次連続学習の両方の4つのタスクで比較する。
ESはGRPOをシングルタスクの精度でマッチまたは超え、イテレーション予算が制御された後も順次競合し続ける。
ESはずっと大きな変更を行い、より広いオフタスクKLドリフトを誘導しますが、GRPOはより小さく、よりローカライズされた更新を行います。
興味深いことに、ES と GRPO の解は、更新方向がほぼ直交しているにもかかわらず、損失障壁のない直線的に接続されている。
我々は,これらすべての現象を統一された枠組み内で解析的に解析する理論を開発し,ESが下流の精度で勾配に基づくRLと一致させるのに十分な進捗を保ちながら,弱い情報的方向で大きなオフタスク運動を蓄積できることを示す。
これらの結果から, 勾配のない微調整と勾配に基づく微調整は, 同様に正確だが幾何的に異なる解に到達し, 忘れることや知識保存に重要な影響を及ぼすことが示された。
ソースコードは、https://github.com/Bhoy1/ESvsGRPO.comで公開されている。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Evolutionary Strategies lead to Catastrophic Forgetting in LLMs [51.91763220981834]
進化戦略(Evolutionary Strategies, ES)は、最近、従来の学習アルゴリズムの勾配のない代替品として再登場した。
ESは計算予算に匹敵する計算量で、数学や推論タスクのGRPOに近いパフォーマンス数に達することができる。
ESは、事前能力の大幅な忘れを伴い、オンラインのトレーニングモデルの適用性を制限している。
論文 参考訳(メタデータ) (2026-01-28T18:59:34Z) - TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。
GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。
実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-02T05:16:17Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。