論文の概要: Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures
- arxiv url: http://arxiv.org/abs/2410.07698v1
- Date: Thu, 10 Oct 2024 08:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 15:25:43.565699
- Title: Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures
- Title(参考訳): 低ランク構造をもつ言語モデルに対するゼロ階ファインチューニングの強化
- Authors: Yiming Chen, Yuan Zhang, Liyuan Cao, Kun Yuan, Zaiwen Wen,
- Abstract要約: ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
- 参考スコア(独自算出の注目度): 21.18741772731095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) significantly reduces memory costs when adapting large language models (LLMs) for downstream applications. However, traditional first-order (FO) fine-tuning algorithms incur substantial memory overhead due to the need to store activation values for back-propagation during gradient computation, particularly in long-context fine-tuning tasks. Zeroth-order (ZO) algorithms offer a promising alternative by approximating gradients using finite differences of function values, thus eliminating the need for activation storage. Nevertheless, existing ZO methods struggle to capture the low-rank gradient structure common in LLM fine-tuning, leading to suboptimal performance. This paper proposes a low-rank ZO gradient estimator and introduces a novel low-rank ZO algorithm (LOZO) that effectively captures this structure in LLMs. We provide convergence guarantees for LOZO by framing it as a subspace optimization method. Additionally, its low-rank nature enables LOZO to integrate with momentum techniques while incurring negligible extra memory costs. Extensive experiments across various model sizes and downstream tasks demonstrate that LOZO and its momentum-based variant outperform existing ZO methods and closely approach the performance of FO algorithms.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)は、下流アプリケーションに大規模言語モデル(LLM)を適用する際のメモリコストを大幅に削減する。
しかし、従来の1次微調整アルゴリズムは、特に長いコンテキストの微調整タスクにおいて、勾配計算中にバックプロパゲーションのアクティベーション値を格納する必要があるため、かなりのメモリオーバーヘッドを引き起こす。
ゼロオーダー(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、アクティベーションストレージを不要にすることで、有望な代替手段を提供する。
それでも、既存のZO法は、LLM微調整に共通する低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では、低ランクZO勾配推定器を提案し、この構造をLLMで効果的に捉える新しい低ランクZOアルゴリズム(LOZO)を提案する。
サブスペース最適化法としてフレーミングすることで,LOZOの収束保証を提供する。
さらに、ローランクな性質により、LOZOは、無視できる余分なメモリコストを発生させながら、運動量技術と統合することができる。
様々なモデルサイズおよび下流タスクにわたる大規模な実験により、LOZOとその運動量に基づく変種は既存のZO法より優れ、FOアルゴリズムの性能に近づいた。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - SubZero: Random Subspace Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Hyperparameter Estimation for Sparse Bayesian Learning Models [1.0172874946490507]
Aparse Bayesian Learning (SBL) モデルは、信号処理や機械学習において、階層的な事前処理による疎結合を促進するために広く使われている。
本稿では,種々の目的関数に対するSBLモデルの改良のためのフレームワークを提案する。
信号雑音比において, 高い効率性を示す新しいアルゴリズムが導入された。
論文 参考訳(メタデータ) (2024-01-04T21:24:01Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Learning the Step-size Policy for the Limited-Memory
Broyden-Fletcher-Goldfarb-Shanno Algorithm [3.7470451129384825]
本稿では,L-BFGSアルゴリズムのステップサイズポリシの学習方法について考察する。
入力として電流勾配の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。
ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を回避し、出力ステップが予め定義された間隔内に留まることを保証します。
論文 参考訳(メタデータ) (2020-10-03T09:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。