論文の概要: Elucidating Subspace Perturbation in Zeroth-Order Optimization: Theory and Practice at Scale
- arxiv url: http://arxiv.org/abs/2501.19099v2
- Date: Fri, 23 May 2025 12:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.764151
- Title: Elucidating Subspace Perturbation in Zeroth-Order Optimization: Theory and Practice at Scale
- Title(参考訳): ゼロ階最適化における部分空間摂動の解明:スケール理論と実践
- Authors: Sihwan Park, Jihun Yun, SungYub Kim, Souvik Kundu, Eunho Yang,
- Abstract要約: Zeroth-order (ZO) 最適化は、勾配ベースのバックプロパゲーション法に代わる有望な代替手段として登場した。
高次元性が主要なボトルネックであることを示し、サブスペースの摂動が勾配ノイズを減らし収束を加速させる方法について説明するために、テキストサブスペースアライメントの概念を導入する。
本稿では,ブロック座標降下法(MeZO-BCD)を用いた効率的なZO法を提案し,各ステップでパラメータのサブセットのみを摂動・更新する。
- 参考スコア(独自算出の注目度): 33.38543010618118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-order (ZO) optimization has emerged as a promising alternative to gradient-based backpropagation methods, particularly for black-box optimization and large language model (LLM) fine-tuning. However, ZO methods often suffer from slow convergence due to high-variance stochastic gradient estimators. While subspace perturbations, such as sparsity and low-rank constraints, have been explored to mitigate this issue, their effectiveness remains poorly understood. In this work, we develop a \emph{unified theoretical framework} that analyzes both the convergence and generalization properties of ZO optimization under subspace perturbations. We show that high dimensionality is the primary bottleneck and introduce the notion of \textit{subspace alignment} to explain how the subspace perturbations reduce gradient noise and accelerate convergence. Our analysis further shows that a broad class of subspace perturbations exhibits a similar convergence rate, motivating us to prioritize practical considerations in real-world algorithm design. Building on these insights, we propose an efficient ZO method using block coordinate descent (MeZO-BCD), which perturbs and updates only a subset of parameters at each step. Extensive experiments show that MeZO-BCD significantly accelerates optimization, achieving up to $\mathbf{\times2.77}$ speedup in wall-clock time over MeZO on OPT-13B, while maintaining comparable iteration complexity and fine-tuning performance.
- Abstract(参考訳): Zeroth-order (ZO) 最適化は、特にブラックボックス最適化や大規模言語モデル(LLM)の微調整において、勾配ベースのバックプロパゲーション法に代わる有望な代替手段として登場した。
しかし、ZO法は、高分散確率勾配推定器により、しばしば緩やかな収束に悩まされる。
空間のゆらぎや低ランクの制約といった部分空間の摂動はこの問題を軽減するために研究されてきたが、その効果はいまだに理解されていない。
本研究では、部分空間摂動下でのZO最適化の収束特性と一般化特性の両方を解析する「emph{unified theory framework」を開発する。
高次元性が主要なボトルネックであることを示し、部分空間摂動が勾配雑音を減らし収束を加速させる方法を説明するために \textit{subspace alignment} の概念を導入する。
解析により,宇宙空間の摂動の多種多様なクラスが同様の収束率を示し,実世界のアルゴリズム設計における実践的考察の優先順位付けを動機付けていることが明らかとなった。
これらの知見に基づいて,ブロック座標降下法(MeZO-BCD)を用いた効率的なZO法を提案し,各ステップでパラメータのサブセットのみを摂動・更新する。
大規模な実験により、MeZO-BCDは最適化を著しく加速し、OPT-13B上でのMeZOよりも壁面時間で最大$\mathbf{\times2.77}$の高速化を実現した。
関連論文リスト
- Iterate to Accelerate: A Unified Framework for Iterative Reasoning and Feedback Convergence [0.0]
本稿では,Bregmanの発散による非ユークリッド幾何学,高次演算子平均化,適応フィードバック機構を利用した反復推論のための統一的フレームワークを提案する。
我々の分析は、軽度な滑らかさと収縮性仮定の下では、ミラー降下や動的プログラミングのような古典的手法を統一するだけでなく、大規模言語モデルにおける現代の連鎖推論過程も捉えることを証明している。
論文 参考訳(メタデータ) (2025-02-06T05:24:35Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - PROMISE: Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates [17.777466668123886]
PROMISE ($textbfPr$econditioned $textbfO$ptimization $textbfM$ethods by $textbfI$ncorporating $textbfS$calable Curvature $textbfE$stimates)はスケッチベースの事前条件勾配アルゴリズムである。
PROMISEには、SVRG、SAGA、およびKatyushaのプレコンディション版が含まれている。
論文 参考訳(メタデータ) (2023-09-05T07:49:10Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Nesterov Meets Optimism: Rate-Optimal Separable Minimax Optimization [108.35402316802765]
本稿では,新しい一階最適化アルゴリズムであるAcceleratedGradient-OptimisticGradient (AG-OG) Ascentを提案する。
我々はAG-OGが様々な設定に対して最適収束率(定数まで)を達成することを示す。
アルゴリズムを拡張して設定を拡張し、bi-SC-SCとbi-C-SCの両方で最適な収束率を達成する。
論文 参考訳(メタデータ) (2022-10-31T17:59:29Z) - SCORE: Approximating Curvature Information under Self-Concordant
Regularization [0.0]
本稿では,新たな入力を受信するたびに最小化速度を更新する自己調和正規化アルゴリズム(GGN-SCORE)を提案する。
提案アルゴリズムはヘッセン行列の2階情報構造を利用して計算オーバーヘッドを削減する。
論文 参考訳(メタデータ) (2021-12-14T13:03:04Z) - Breaking the Convergence Barrier: Optimization via Fixed-Time Convergent
Flows [4.817429789586127]
本稿では, 固定時間安定力学系の概念に基づいて, 加速を実現するための多言語最適化フレームワークを提案する。
提案手法の高速化された収束特性を,最先端の最適化アルゴリズムに対して様々な数値例で検証する。
論文 参考訳(メタデータ) (2021-12-02T16:04:40Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z) - BAMSProd: A Step towards Generalizing the Adaptive Optimization Methods
to Deep Binary Model [34.093978443640616]
最近のBNN(Binary Neural Networks)の性能は大幅に低下している。
BNNの効果的かつ効率的なトレーニングを保証することは未解決の問題である。
そこで本研究では,BAMSProdアルゴリズムを用いて,深部二元モデルの収束特性が量子化誤差と強く関連していることを示す。
論文 参考訳(メタデータ) (2020-09-29T06:12:32Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。