論文の概要: KerZOO: Kernel Function Informed Zeroth-Order Optimization for Accurate and Accelerated LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.18886v1
- Date: Sat, 24 May 2025 21:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.726777
- Title: KerZOO: Kernel Function Informed Zeroth-Order Optimization for Accurate and Accelerated LLM Fine-Tuning
- Title(参考訳): KerZOO:カーネル関数インフォームドゼロ階最適化によるLLMファインチューニングの高精度化と高速化
- Authors: Zhendong Mi, Qitao Tan, Xiaodong Yu, Zining Zhu, Geng Yuan, Shaoyi Huang,
- Abstract要約: 本稿では,勾配推定バイアスの軽減を目的としたカーネル関数ベースのZOフレームワークを提案する。
KerZOOは既存のZOベースラインと同等または優れたパフォーマンスを実現している。
本稿では,カーネル関数がZO法における推定バイアスの低減に有効な方法であることを示す。
- 参考スコア(独自算出の注目度): 15.81250204481401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities across numerous NLP tasks. Nevertheless, conventional first-order fine-tuning techniques impose heavy memory demands, creating practical obstacles to real-world applications. Zeroth-order (ZO) optimization has recently emerged as a promising memory-efficient alternative, as it circumvents the need for backpropagation by estimating gradients solely through forward passes--making it particularly suitable for resource-limited environments. Despite its efficiency, ZO optimization suffers from gradient estimation bias, which significantly hinders convergence speed. To address this, we analytically identify and characterize the lower-order bias introduced during ZO-based gradient estimation in LLM fine-tuning. Motivated by tools in mathematical physics, we introduce a kernel-function-based ZO framework aimed at mitigating this bias and improving optimization stability. KerZOO achieves comparable or superior performance to existing ZO baselines in both full-parameter and parameter-efficient fine-tuning settings of LLMs, while significantly reducing the number of iterations required to reach convergence. For example, KerZOO reduces total GPU training hours by as much as 74% and 44% on WSC and MultiRC datasets in fine-tuning OPT-2.7B model and can exceed the MeZO baseline by 2.9% and 2.6% in accuracy. We show that the kernel function is an effective avenue for reducing estimation bias in ZO methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多数のNLPタスクにまたがる印象的な機能を示している。
それにもかかわらず、従来の一階微調整技術は大量のメモリ要求を課し、現実のアプリケーションに現実的な障害を生じさせる。
Zeroth-order (ZO) 最適化は、前向きのパスのみを通して勾配を見積もることによるバックプロパゲーションの必要性を回避し、特にリソース制限された環境に向いているため、近年、有望なメモリ効率の代替手段として登場した。
その効率にもかかわらず、ZO最適化は勾配推定バイアスに悩まされており、収束速度を著しく妨げている。
そこで本研究では,LLM微調整におけるZOに基づく勾配推定時に生じる下位バイアスを解析的に同定し,特徴付ける。
このバイアスを緩和し、最適化安定性を向上させることを目的とした、カーネル関数ベースのZOフレームワークを導入する。
KerZOOは、LLMのフルパラメータとパラメータ効率の良い微調整設定の両方において既存のZOベースラインに匹敵するあるいは優れた性能を実現し、収束に要するイテレーションの数を著しく削減している。
例えば、KerZOOは、微調整のOPT-2.7Bモデルにおいて、WSCおよびMultiRCデータセットでGPUトレーニング時間を最大74%、44%削減し、MeZOベースラインを2.9%、精度2.6%超えることができる。
本稿では,カーネル関数がZO法における推定バイアスの低減に有効な方法であることを示す。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Multi-fidelity Constrained Optimization for Stochastic Black Box
Simulators [1.6385815610837167]
上記の問題に対処するために、Scout-Nd (Stochastic Constrained Optimization for N dimensions) アルゴリズムを導入する。
Scout-Ndは効率よく勾配を推定し、推定器勾配のノイズを低減し、計算労力をさらに削減するために多重忠実性スキームを適用する。
提案手法を標準ベンチマークで検証し,既存の手法よりも優れた性能を示すパラメータの最適化の有効性を示す。
論文 参考訳(メタデータ) (2023-11-25T23:36:38Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。