論文の概要: Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed
Zeroth-Order Optimizer
- arxiv url: http://arxiv.org/abs/2402.15173v1
- Date: Fri, 23 Feb 2024 08:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:22:52.672485
- Title: Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed
Zeroth-Order Optimizer
- Title(参考訳): LLM用2次ファインチューニング:ヘッセンインフォームドゼロ階最適化器
- Authors: Yanjun Zhao, Sizhe Dang, Haishan Ye, Guang Dai, Yi Qian, Ivor W.Tsang
- Abstract要約: 古典的な1次メモリを備えた細調整の大型言語モデル(LLM)は、バックプロパゲーションプロセスによって禁止的なGPUを必要とする。
最近の研究は微調整のためのゼロオーダーに変化しており、2つのフォワードパスを使用することでかなりのメモリを節約している。
本研究では, 対角的ヘッセン情報に基づくゼロ階軌道であるHiZOOを提案する。
- 参考スコア(独自算出の注目度): 46.484698809881486
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-tuning large language models (LLMs) with classic first-order optimizers
entails prohibitive GPU memory due to the backpropagation process. Recent works
have turned to zeroth-order optimizers for fine-tuning, which save substantial
memory by using two forward passes. However, these optimizers are plagued by
the heterogeneity of parameter curvatures across different dimensions. In this
work, we propose HiZOO, a diagonal Hessian informed zeroth-order optimizer
which is the first work to leverage the diagonal Hessian to enhance
zeroth-order optimizer for fine-tuning LLMs. What's more, HiZOO avoids the
expensive memory cost and only increases one forward pass per step. Extensive
experiments on various models (350M~66B parameters) indicate that HiZOO
improves model convergence, significantly reducing training steps and
effectively enhancing model accuracy. Moreover, we visualize the optimization
trajectories of HiZOO on test functions, illustrating its effectiveness in
handling heterogeneous curvatures. Lastly, we provide theoretical proofs of
convergence for HiZOO. Code is publicly available at
https://anonymous.4open.science/r/HiZOO27F8.
- Abstract(参考訳): 古典的な1次オプティマイザを備えた微調整大型言語モデル(LLM)は、バックプロパゲーションプロセスのため、禁止的なGPUメモリを必要とする。
最近の作業は、微調整のためのゼロオーダーオプティマイザに変わり、2つのフォワードパスを使用することで、かなりのメモリを節約している。
しかし、これらのオプティマイザは異なる次元のパラメータ曲率の不均一性に悩んでいる。
本研究は, 対角型ヘッセン情報ゼロ階最適化器であるHiZOOを提案し, 直交型ヘッセン情報ゼロ階最適化器を初めて活用し, 微調整用ゼロ階最適化器を改良する。
さらに、HiZOOは高価なメモリコストを回避し、ステップ毎に1回のフォワードパスしか増加しません。
各種モデル(350M~66Bパラメータ)の大規模な実験により、HiZOOはモデル収束を改善し、トレーニングステップを大幅に削減し、モデル精度を効果的に向上することが示された。
さらに,テスト関数上でのhizooの最適化軌跡を可視化し,異種曲率の取り扱いにおけるその効果を示す。
最後に、HiZOO に対する収束の理論的証明を提供する。
コードはhttps://anonymous.4open.science/r/HiZOO27F8で公開されている。
関連論文リスト
- HELENE: Hessian Layer-wise Clipping and Gradient Annealing for Accelerating Fine-tuning LLM with Zeroth-order Optimization [18.00873866263434]
微調整された大きな言語モデル(LLM)は、大きなメモリ問題を引き起こす。
最近の研究であるMeZOは、ゼロ階最適化法(ZO)を用いてこの問題に対処している。
HELENEは、スケーラブルでメモリ効率の良い新しいプレコンディショナーである。
論文 参考訳(メタデータ) (2024-11-16T04:27:22Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文 参考訳(メタデータ) (2024-03-05T06:10:21Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。