論文の概要: More Than Memory Savings: Zeroth-Order Optimization Mitigates Forgetting in Continual Learning
- arxiv url: http://arxiv.org/abs/2510.21019v1
- Date: Thu, 23 Oct 2025 21:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.327785
- Title: More Than Memory Savings: Zeroth-Order Optimization Mitigates Forgetting in Continual Learning
- Title(参考訳): メモリ節約以上のもの: ゼロ階最適化は継続的な学習における期待を緩和する
- Authors: Wanhao Yu, Zheng Wang, Shuteng Niu, Sen Lin, Li Yang,
- Abstract要約: Zeroth-order (ZO) 最適化は、一階法(FO) に代わるメモリ効率の代替として注目されている。
本研究では,ZOの最適化が自然に損失景観の平ら化を招き,連続学習における忘れを減少させることを示す。
この安定性は可塑性のコストを伴い、不正確な勾配推定と緩やかな収束により、ZO最適化は新しいタスク固有の知識を取得する際にFOよりも効果が低い傾向にある。
FO最適化分類器を備えた単一アダプタベースのPEFTモジュールに対して,ZO最適化を適用した簡易かつ効果的なZO-FCを提案する。
- 参考スコア(独自算出の注目度): 10.698225972251839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zeroth-order (ZO) optimization has gained attention as a memory-efficient alternative to first-order (FO) methods, particularly in settings where gradient computation is expensive or even impractical. Beyond its memory efficiency, in this work, we investigate ZO optimization for continual learning (CL) as a novel approach to address the plasticity-stability-efficiency trilemma. Through theoretical analysis and empirical evidence, we show that ZO optimization naturally leads to flatter loss landscapes, which in turn reduce forgetting in CL. However, this stability comes at a cost of plasticity: due to its imprecise gradient estimates and slower convergence, ZO optimization tends to be less effective than FO in acquiring new task-specific knowledge, particularly under constrained training budgets. To better understand this trade-off, we conduct a holistic evaluation of ZO optimization applied to various existing CL methods. Our findings reveal that ZO optimization enhances stability but often undermines plasticity, particularly when used with learnable classifiers. Motivated by this insight, we propose ZO-FC, a simple but effective approach that applies ZO optimization to a single adapter-based PEFT module with FO optimized classifier. This design leverages the stability benefits of ZO while preserving the adaptability of FO updates with negligible memory overhead. Experiments demonstrate that ZO-FC achieves an effective balance between stability and plasticity, offering a practical and memory-efficient solution for on-device CL.
- Abstract(参考訳): Zeroth-order (ZO) 最適化は、特に勾配計算が高価で非現実的な設定において、一階法(FO)法に代わるメモリ効率のよい方法として注目されている。
本研究は, メモリ効率以外にも, 連続学習(CL)のためのZO最適化を, 可塑性-安定性-効率トリレンマに対処するための新しいアプローチとして検討する。
理論的解析と実証的な証拠により、ZO最適化が自然に、より平坦なロスランドスケープをもたらすことが示され、CLにおける忘れを減少させる。
しかし、この安定性は、不正確な勾配推定と緩やかな収束のため、特に制約のある訓練予算の下では、新しいタスク固有の知識の獲得において、ZO最適化はFOよりも効果が低い傾向にある。
このトレードオフをよりよく理解するために,既存のCL手法に適用したZO最適化の総合評価を行う。
以上の結果から,ZO最適化は安定性を向上するが,特に学習可能な分類器を用いた場合,可塑性を損なうことが示唆された。
FO最適化分類器を用いた単一アダプタベースPEFTモジュールに対して,ZO最適化を適用した簡易かつ効果的なZO-FCを提案する。
この設計はZOの安定性の利点を生かし、FO更新の適応性を無視可能なメモリオーバーヘッドで維持する。
実験により、ZO-FCは安定性と可塑性のバランスを効果的に達成し、オンデバイスCLの実用的でメモリ効率のよいソリューションを提供することが示された。
関連論文リスト
- Memory-Efficient Personalization of Text-to-Image Diffusion Models via Selective Optimization Strategies [20.358557194892484]
低解像度画像のバックプロパゲーション(BP-low)と高解像度画像のゼロ階最適化(ZO-high)を適応的に選択する選択最適化フレームワークを提案する。
提案手法は,メモリ消費を大幅に削減し,レイテンシを増大させることなく,スケーラブルで高品質なオンデバイスパーソナライゼーションを実現する。
論文 参考訳(メタデータ) (2025-07-14T08:08:55Z) - SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training [13.180761892449736]
低ランク勾配に基づく最適化手法は、大規模言語モデル(LLM)の訓練において、メモリ効率を大幅に改善した。
これらの手法は主にメモリの節約を強調し、しばしば収束の潜在的な加速を見落としている。
本稿では,SUMO(Subspace-Aware Moment-Orthogonalization)を提案する。
我々は,SUMOがコンバージェンスを加速し,安定性を向上し,性能を向上し,最先端手法と比較してメモリ要求を最大20%削減することを示した。
論文 参考訳(メタデータ) (2025-05-30T16:08:40Z) - AYLA: Amplifying Gradient Sensitivity via Loss Transformation in Non-Convex Optimization [0.0]
Gradient Descent (SGD)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では、動的トレーニングを強化する新しいフレームワークであるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [77.79640601822341]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - Constrain Alignment with Sparse Autoencoders [45.131670081186]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。