論文の概要: Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed
Zeroth-Order Optimizer
- arxiv url: http://arxiv.org/abs/2402.15173v1
- Date: Fri, 23 Feb 2024 08:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:22:52.672485
- Title: Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed
Zeroth-Order Optimizer
- Title(参考訳): LLM用2次ファインチューニング:ヘッセンインフォームドゼロ階最適化器
- Authors: Yanjun Zhao, Sizhe Dang, Haishan Ye, Guang Dai, Yi Qian, Ivor W.Tsang
- Abstract要約: 古典的な1次メモリを備えた細調整の大型言語モデル(LLM)は、バックプロパゲーションプロセスによって禁止的なGPUを必要とする。
最近の研究は微調整のためのゼロオーダーに変化しており、2つのフォワードパスを使用することでかなりのメモリを節約している。
本研究では, 対角的ヘッセン情報に基づくゼロ階軌道であるHiZOOを提案する。
- 参考スコア(独自算出の注目度): 46.484698809881486
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-tuning large language models (LLMs) with classic first-order optimizers
entails prohibitive GPU memory due to the backpropagation process. Recent works
have turned to zeroth-order optimizers for fine-tuning, which save substantial
memory by using two forward passes. However, these optimizers are plagued by
the heterogeneity of parameter curvatures across different dimensions. In this
work, we propose HiZOO, a diagonal Hessian informed zeroth-order optimizer
which is the first work to leverage the diagonal Hessian to enhance
zeroth-order optimizer for fine-tuning LLMs. What's more, HiZOO avoids the
expensive memory cost and only increases one forward pass per step. Extensive
experiments on various models (350M~66B parameters) indicate that HiZOO
improves model convergence, significantly reducing training steps and
effectively enhancing model accuracy. Moreover, we visualize the optimization
trajectories of HiZOO on test functions, illustrating its effectiveness in
handling heterogeneous curvatures. Lastly, we provide theoretical proofs of
convergence for HiZOO. Code is publicly available at
https://anonymous.4open.science/r/HiZOO27F8.
- Abstract(参考訳): 古典的な1次オプティマイザを備えた微調整大型言語モデル(LLM)は、バックプロパゲーションプロセスのため、禁止的なGPUメモリを必要とする。
最近の作業は、微調整のためのゼロオーダーオプティマイザに変わり、2つのフォワードパスを使用することで、かなりのメモリを節約している。
しかし、これらのオプティマイザは異なる次元のパラメータ曲率の不均一性に悩んでいる。
本研究は, 対角型ヘッセン情報ゼロ階最適化器であるHiZOOを提案し, 直交型ヘッセン情報ゼロ階最適化器を初めて活用し, 微調整用ゼロ階最適化器を改良する。
さらに、HiZOOは高価なメモリコストを回避し、ステップ毎に1回のフォワードパスしか増加しません。
各種モデル(350M~66Bパラメータ)の大規模な実験により、HiZOOはモデル収束を改善し、トレーニングステップを大幅に削減し、モデル精度を効果的に向上することが示された。
さらに,テスト関数上でのhizooの最適化軌跡を可視化し,異種曲率の取り扱いにおけるその効果を示す。
最後に、HiZOO に対する収束の理論的証明を提供する。
コードはhttps://anonymous.4open.science/r/HiZOO27F8で公開されている。
関連論文リスト
- SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文 参考訳(メタデータ) (2024-03-05T06:10:21Z) - Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning [67.44661423463927]
本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。
その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
論文 参考訳(メタデータ) (2024-02-24T07:22:04Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。