論文の概要: Evolutionary Strategies lead to Catastrophic Forgetting in LLMs
- arxiv url: http://arxiv.org/abs/2601.20861v1
- Date: Wed, 28 Jan 2026 18:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.111822
- Title: Evolutionary Strategies lead to Catastrophic Forgetting in LLMs
- Title(参考訳): 進化的戦略がLLMの破滅的形成に繋がる
- Authors: Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee, Gopala Anumanchipalli,
- Abstract要約: 進化戦略(Evolutionary Strategies, ES)は、最近、従来の学習アルゴリズムの勾配のない代替品として再登場した。
ESは計算予算に匹敵する計算量で、数学や推論タスクのGRPOに近いパフォーマンス数に達することができる。
ESは、事前能力の大幅な忘れを伴い、オンラインのトレーニングモデルの適用性を制限している。
- 参考スコア(独自算出の注目度): 51.91763220981834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the biggest missing capabilities in current AI systems is the ability to learn continuously after deployment. Implementing such continually learning systems have several challenges, one of which is the large memory requirement of gradient-based algorithms that are used to train state-of-the-art LLMs. Evolutionary Strategies (ES) have recently re-emerged as a gradient-free alternative to traditional learning algorithms and have shown encouraging performance on specific tasks in LLMs. In this paper, we perform a comprehensive analysis of ES and specifically evaluate its forgetting curves when training for an increasing number of update steps. We first find that ES is able to reach performance numbers close to GRPO for math and reasoning tasks with a comparable compute budget. However, and most importantly for continual learning, the performance gains in ES is accompanied by significant forgetting of prior abilities, limiting its applicability for training models online. We also explore the reason behind this behavior and show that the updates made using ES are much less sparse and have orders of magnitude larger $\ell_2$ norm compared to corresponding GRPO updates, explaining the contrasting forgetting curves between the two algorithms. With this study, we aim to highlight the issue of forgetting in gradient-free algorithms like ES and hope to inspire future work to mitigate these issues.
- Abstract(参考訳): 現在のAIシステムに欠けている最大の機能のひとつは、デプロイ後に継続的に学習できることだ。
このような継続的な学習システムの実装にはいくつかの課題があり、そのうちの1つは、最先端のLCMのトレーニングに使用される勾配ベースのアルゴリズムの大規模なメモリ要件である。
Evolutionary Strategies (ES)は、最近、従来の学習アルゴリズムの勾配のない代替品として再登場し、LLMの特定のタスクにおけるパフォーマンスを奨励している。
本稿では,ESの包括的解析を行い,更新ステップの増加に対するトレーニングにおいて,その補正曲線を具体的に評価する。
まず、計算予算に匹敵する計算量で、数学や推論タスクにおいて、ESがGRPOに近い性能数に達することを発見した。
しかしながら、継続的な学習において最も重要なのは、ESのパフォーマンス向上は、事前能力の大幅な忘れを伴い、オンラインのトレーニングモデルの適用性を制限していることだ。
また、この動作の背後にある理由についても検討し、ESを用いて行った更新はより疎く、対応するGRPO更新と比較して桁違いに$\ell_2$ノルムを持つことを示した。
本研究は,ESのような勾配のないアルゴリズムを忘れることの課題を強調し,これらの問題を緩和するために今後の研究を促すことを目的としている。
関連論文リスト
- Sequencing to Mitigate Catastrophic Forgetting in Continual Learning [1.1724961392643483]
破滅的な忘れ(CF)は継続的学習アプローチの進歩にとって大きな課題である。
CFの緩和におけるタスクシークエンシングの役割を考察し、最適なタスク順序を決定する方法を提案する。
その結果、インテリジェントなタスクシークエンシングはCFを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2025-12-18T18:40:58Z) - EA4LLM: A Gradient-Free Approach to Large Language Model Optimization via Evolutionary Algorithms [23.009274904878065]
大規模言語モデル(LLM)を最適化する進化的アルゴリズムEA4LLMを提案する。
我々は、0.5Bから32Bまでのモデルサイズにわたる事前学習段階から完全なパラメータ最適化を実証的に検証した。
我々の研究は、勾配に基づく最適化がニューラルネットワークをトレーニングするための唯一実行可能なアプローチであるという一般的な仮定に挑戦している。
論文 参考訳(メタデータ) (2025-10-12T13:38:28Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Transfer Learning with Foundational Models for Time Series Forecasting using Low-Rank Adaptations [0.0]
本研究は,時系列予測タスクに対するFM,Large Language Modelsの直接的な適応手法であるLLIAMを提案する。
LLIAMとRecurrent Neural NetworksやTemporal Convolutional Networks、LLMベースのTimeLLMなど、さまざまな最先端DLアルゴリズムのパフォーマンスの比較を行った。
本研究の結果はLLIAMの有効性を実証し, この単純かつ汎用的なアプローチは, 複雑な修正を加える必要がなくなることなく, 有能な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-10-15T12:14:01Z) - Landscape-Aware Growing: The Power of a Little LAG [49.897766925371485]
成長戦略のプールから最適な成長戦略をどのように選択するかという課題について検討する。
ランドスケープ・アウェア・グロース(LAG)と呼ぶ早期学習力学に基づく代替視点を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:38:57Z) - Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。
動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。
提案手法の有効性と将来性を示す。
論文 参考訳(メタデータ) (2023-09-21T13:49:05Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。