論文の概要: Overcoming Forgetting in LLM Fine-Tuning with Evolution Strategies
- arxiv url: http://arxiv.org/abs/2605.30148v1
- Date: Thu, 28 May 2026 16:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.468303
- Title: Overcoming Forgetting in LLM Fine-Tuning with Evolution Strategies
- Title(参考訳): LLMファインチューニングにおける進化戦略の克服
- Authors: Kajetan Schweighofer, Conor F. Hayes, Roberto Dailey, Risto Miikkulainen, Xin Qiu,
- Abstract要約: Evolution Strategies (ES) は、大規模言語モデル(LLM)の微調整のための強化学習(RL)の代替として登場した。
本稿では,先行タスクの忘れ方(1)は,非可逆的な忘れ方ではなく,性能のドリフトとして特徴付けられることを示す。
- 参考スコア(独自算出の注目度): 12.414144896866569
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evolution Strategies (ES) has recently emerged as a competitive alternative to reinforcement learning (RL) for large language model (LLM) fine-tuning, offering advantages through simplicity, scalability, and inference-only training. However, recent work suggests that ES fine-tuning on new tasks may induce forgetting of prior tasks. First, this paper shows that prior task forgetting (1) is better characterized as performance drift rather than irreversible forgetting, with prior-task performance often recovering during ES training; and (2) is not a specific failure mode of ES, but can also arise for fine-tuning with RL methods. Second, it analyzes when and why such drift arises, highlighting its dependence on ES training dynamics, particularly random walk behavior in weakly constrained directions of the weight space. Third, based on these insights, it introduces Anchored Weight Decay (AWD) as a parameter-space regularization technique that constrains optimization toward the initial model parameters. AWD effectively stabilizes prior-task performance while preserving target-task performance, achieving benefits comparable to large ES population sizes at much lower computational cost. Thus, contrary to previous beliefs, the paper shows that prior-task forgetting under ES is largely avoidable, positioning ES as a promising approach for continual learning in LLMs.
- Abstract(参考訳): Evolution Strategies (ES)は、最近、大規模言語モデル(LLM)の微調整のための強化学習(RL)の競合代替として登場した。
しかし、最近の研究は、ESによる新しいタスクの微調整が、以前のタスクの忘れを招きかねないことを示唆している。
本稿は,(1)先行タスクの忘れ方は,ESトレーニング中にしばしば前タスクのパフォーマンスが回復し,(2)ESの特定の障害モードではなく,RL法で微調整を行う場合にも生じること,などにより,前タスクの忘れは,非可逆的な忘れ方よりもパフォーマンスのドリフトとしてより優れていることを示す。
第二に、そのような漂流がいつ、なぜ起こるのかを分析し、ESトレーニングのダイナミックス、特に重量空間の弱い方向のランダムな歩行挙動への依存を強調している。
第三に、これらの知見に基づいて、初期モデルパラメータに対する最適化を制約するパラメータ空間正規化手法として、Anchored Weight Decay (AWD)を導入している。
AWDは、目標タスク性能を維持しながら、プリタスク性能を効果的に安定化し、計算コストをはるかに低くして、大きなES集団サイズに匹敵する利益を得る。
したがって、従来の信念とは対照的に、ES下での事前タスクの忘れは回避可能であり、ESをLCMにおける継続的な学習のための有望なアプローチとして位置づけている。
関連論文リスト
- Evolution Strategies for Deep RL pretraining [0.05473229173811305]
進化戦略は、計算コストが低く、デプロイも簡単で、より単純でデリバティブなアプローチを提供する。
本研究では,Flappy Bird,Breakout,Mujoco環境など,様々な難題におけるESとDRLの性能について検討した。
論文 参考訳(メタデータ) (2026-03-31T11:30:20Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - Evolutionary Strategies lead to Catastrophic Forgetting in LLMs [51.91763220981834]
進化戦略(Evolutionary Strategies, ES)は、最近、従来の学習アルゴリズムの勾配のない代替品として再登場した。
ESは計算予算に匹敵する計算量で、数学や推論タスクのGRPOに近いパフォーマンス数に達することができる。
ESは、事前能力の大幅な忘れを伴い、オンラインのトレーニングモデルの適用性を制限している。
論文 参考訳(メタデータ) (2026-01-28T18:59:34Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。
本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。
本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文 参考訳(メタデータ) (2025-01-12T15:21:22Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Variational Delayed Policy Optimization [25.668512485348952]
遅延観測環境においては、遅延ウィンドウ内での動作を含む状態拡張を採用してマルコフ特性を検索し、強化学習(RL)を可能にする。
時間差学習フレームワークを用いたSOTA(State-of-the-art)RL技術は、遅延を伴う拡張状態空間の大幅な拡張により、学習の非効率性に悩まされることが多い。
本稿では、遅延RLを変分推論問題として再構成する、変分遅延ポリシー最適化(VDPO)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-23T06:57:04Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。