論文の概要: On Adaptivity in Zeroth-Order Optimization
- arxiv url: http://arxiv.org/abs/2605.03869v1
- Date: Tue, 05 May 2026 15:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.00661
- Title: On Adaptivity in Zeroth-Order Optimization
- Title(参考訳): ゼロ階最適化における適応性について
- Authors: Hassan Dbouk, Nidham Gazagnadou, Matthias Reisser, Christos Louizos,
- Abstract要約: ZO-Adamのような適応ZO法は、よく調整されたZO-SGDに対して収束優位性を与えないことを示す。
本稿では,グローバルステップサイズ適応のための1つのスカラーのみを追跡するメモリ効率の高い適応ZOであるMEAZOを提案する。
- 参考スコア(独自算出の注目度): 16.620217856482377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the effectiveness of adaptive zeroth-order (ZO) optimization for memory-constrained fine-tuning of large language models (LLMs). Contrary to prior claims, we show that adaptive ZO methods such as ZO-Adam offer no convergence advantage over well-tuned ZO-SGD, while incurring significant memory overhead. Our analysis reveals that in high dimensions, ZO gradients lack coordinate-wise heterogeneity, rendering adaptive mechanisms memory inefficient. Leveraging this insight, we propose MEAZO, a memory-efficient adaptive ZO optimizer that tracks only a single scalar for global step size adaptation. We support our method with theoretical convergence guarantees under standard assumptions. Experiments across multiple LLM families and tasks demonstrate that MEAZO matches ZO-Adam's performance with the memory footprint of ZO-SGD. Additional experiments on synthetic quadratic problems and LLM fine-tuning further demonstrate MEAZO's enhanced robustness to step size choices, particularly in grouped or block-structured optimization settings.
- Abstract(参考訳): 大規模言語モデル (LLM) のメモリ制約による微調整における適応ゼロ階数最適化(ZO)の有効性について検討する。
従来の主張とは対照的に、ZO-Adamのような適応型ZOメソッドは、よく調整されたZO-SGDよりも収束性に優れているが、メモリオーバーヘッドは大きい。
解析の結果,ZO勾配は座標的不均一性を欠き,適応機構のメモリ非効率化を図っている。
この知見を利用して,グローバルステップサイズ適応のための1つのスカラーのみを追跡するメモリ効率の高い適応ZOオプティマイザMEAZOを提案する。
我々は,理論収束保証を標準仮定の下で支援する。
複数のLLMファミリーとタスクにわたる実験により、MEAZOはZO-AdamのパフォーマンスとZO-SGDのメモリフットプリントとを一致させることが示された。
合成二次問題とLLM微調整に関するさらなる実験は、特にグループ化あるいはブロック構造最適化設定において、MEAZOの強化されたロバスト性を示す。
関連論文リスト
- COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [77.79640601822341]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。