論文の概要: Universally Empowering Zeroth-Order Optimization via Adaptive Layer-wise Sampling
- arxiv url: http://arxiv.org/abs/2604.18264v1
- Date: Mon, 20 Apr 2026 13:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.907687
- Title: Universally Empowering Zeroth-Order Optimization via Adaptive Layer-wise Sampling
- Title(参考訳): 適応層ワイドサンプリングによるゼロ階最適化の普遍化
- Authors: Fei Wang, Li Shen, Liang Ding, Chao Xue, Ye Liu, Changxing Ding,
- Abstract要約: ゼロ階最適化は、微調整された大規模言語モデルのための有望なメモリ効率のパラダイムを提供する。
しかし,壁面収差の緩やかな収束と高い推定分散により,その実用化は厳しく制約されている。
本稿では,適応層型ZO最適化フレームワークであるAdaLeZOを提案する。
- 参考スコア(独自算出の注目度): 43.822941944402544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-Order optimization presents a promising memory-efficient paradigm for fine-tuning Large Language Models by relying solely on forward passes. However, its practical adoption is severely constrained by slow wall-clock convergence and high estimation variance. In this work, we dissect the runtime characteristics of ZO algorithms and identify a critical system bottleneck where the generation of perturbations and parameter updates accounts for over 40% of the training latency. We argue that the standard uniform exploration strategy is fundamentally flawed as it fails to account for the heterogeneous sensitivity of layers in deep networks, resulting in computationally wasteful blind searches. To address this structural mismatch, we propose AdaLeZO, an Adaptive Layer-wise ZO optimization framework. By formulating the layer selection process as a non-stationary Multi-Armed Bandit problem, AdaLeZO dynamically allocates the limited perturbation budget to the most sensitive parameters. We further introduce an Inverse Probability Weighting mechanism based on sampling with replacement, which guarantees unbiased gradient estimation while effectively acting as a temporal denoiser to reduce variance. Extensive experiments on LLaMA and OPT models ranging from 6.7B to 30B parameters demonstrate that AdaLeZO achieves 1.7x to 3.0x wall-clock acceleration compared to state-of-the-art methods. Crucially, AdaLeZO functions as a universal plug-and-play module that seamlessly enhances the efficiency of existing ZO optimizers without incurring additional memory overhead.
- Abstract(参考訳): ゼロ階最適化は、フォワードパスのみに依存することで、大規模言語モデルを微調整する上で有望なメモリ効率のパラダイムを提供する。
しかし,壁面収差の緩やかな収束と高い推定分散により,その実用化は厳しく制約されている。
本研究では、ZOアルゴリズムのランタイム特性を判別し、摂動の発生とパラメータ更新がトレーニング遅延の40%以上を占める重要なシステムのボトルネックを特定する。
我々は、ディープネットワークにおける層の不均一な感度を考慮せず、計算に無駄なブラインドサーチをもたらすため、標準の均一探索戦略は根本的な欠陥があると主張している。
この構造的ミスマッチに対処するため、アダレーズ(AdaLeZO)というアダレーズ・アダレーズ・アダレーズ・アダレーズ・アダレーズ・アダレーズ・アダレーズ・アダレーズ・アダレーズ・アダレーズ・アダレーズ・アダレーズ・アダレーズ・アダレーズ・アダ
AdaLeZOは、層選択過程を非定常マルチアーマッド帯域問題として定式化することにより、限られた摂動予算を最も敏感なパラメータに動的に割り当てる。
さらに,置換によるサンプリングに基づく逆確率重み付け機構を導入し,時間分解器として効果的に作用しながら非バイアス勾配推定を保証し,分散を低減する。
6.7Bから30BパラメータのLLaMAおよびOPTモデルに対する大規模な実験により、AdaLeZOは最先端の手法と比較して1.7倍から3.0倍のウォールクロック加速を達成することが示された。
重要なことに、AdaLeZOは、メモリオーバーヘッドを発生させることなく既存のZOオプティマイザの効率をシームレスに向上する、普遍的なプラグイン・アンド・プレイモジュールとして機能する。
関連論文リスト
- Diff3R: Feed-forward 3D Gaussian Splatting with Uncertainty-aware Differentiable Optimization [76.38917994186733]
Diff3Rはフィードフォワード予測とテストタイム最適化をブリッジする新しいフレームワークである。
フィードフォワード3DGSアーキテクチャにシームレスに統合でき、ポーズギヴン法とポーズフリー法の両方に対応できることを示す。
論文 参考訳(メタデータ) (2026-04-01T15:40:20Z) - CurvZO: Adaptive Curvature-Guided Sparse Zeroth-Order Optimization for Efficient LLM Fine-Tuning [15.930478833291827]
バックプロパゲーションを備えた微調整の大型言語モデル(LLM)は高い性能を実現するが、かなりのメモリオーバーヘッドを引き起こす。
本稿では、スカラーZOフィードバックからオンラインの曲率信号を追跡するCurvZOを提案する。
CurvZOは微調整性能を継続的に改善し,ZOベースラインでのトレーニング時間を短縮することを示す。
論文 参考訳(メタデータ) (2026-03-23T09:13:45Z) - ZOTTA: Test-Time Adaptation with Gradient-Free Zeroth-Order Optimization [29.670784134543027]
テストタイム適応は、分散シフトの下でモデルの堅牢性を改善することを目的としている。
既存の手法の多くはバックプロパゲーション(BP)に依存しており、計算コストが高く、微分不可能なモデルと互換性がない。
完全BPフリーなTTAフレームワークであるZOTTAを提案する。
論文 参考訳(メタデータ) (2026-03-15T07:21:01Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - KerZOO: Kernel Function Informed Zeroth-Order Optimization for Accurate and Accelerated LLM Fine-Tuning [15.81250204481401]
本稿では,勾配推定バイアスの軽減を目的としたカーネル関数ベースのZOフレームワークを提案する。
KerZOOは既存のZOベースラインと同等または優れたパフォーマンスを実現している。
本稿では,カーネル関数がZO法における推定バイアスの低減に有効な方法であることを示す。
論文 参考訳(メタデータ) (2025-05-24T21:56:03Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。