Fugu-MT 論文翻訳(概要): Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures

論文の概要: Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures

arxiv url: http://arxiv.org/abs/2410.07698v1
Date: Thu, 10 Oct 2024 08:10:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 15:25:43.565699
Title: Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures
Title（参考訳）: 低ランク構造をもつ言語モデルに対するゼロ階ファインチューニングの強化
Authors: Yiming Chen, Yuan Zhang, Liyuan Cao, Kun Yuan, Zaiwen Wen,
Abstract要約: ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
参考スコア（独自算出の注目度）: 21.18741772731095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Parameter-efficient fine-tuning (PEFT) significantly reduces memory costs when adapting large language models (LLMs) for downstream applications. However, traditional first-order (FO) fine-tuning algorithms incur substantial memory overhead due to the need to store activation values for back-propagation during gradient computation, particularly in long-context fine-tuning tasks. Zeroth-order (ZO) algorithms offer a promising alternative by approximating gradients using finite differences of function values, thus eliminating the need for activation storage. Nevertheless, existing ZO methods struggle to capture the low-rank gradient structure common in LLM fine-tuning, leading to suboptimal performance. This paper proposes a low-rank ZO gradient estimator and introduces a novel low-rank ZO algorithm (LOZO) that effectively captures this structure in LLMs. We provide convergence guarantees for LOZO by framing it as a subspace optimization method. Additionally, its low-rank nature enables LOZO to integrate with momentum techniques while incurring negligible extra memory costs. Extensive experiments across various model sizes and downstream tasks demonstrate that LOZO and its momentum-based variant outperform existing ZO methods and closely approach the performance of FO algorithms.
Abstract（参考訳）: パラメータ効率のよい微調整(PEFT)は、下流アプリケーションに大規模言語モデル(LLM)を適用する際のメモリコストを大幅に削減する。しかし、従来の1次微調整アルゴリズムは、特に長いコンテキストの微調整タスクにおいて、勾配計算中にバックプロパゲーションのアクティベーション値を格納する必要があるため、かなりのメモリオーバーヘッドを引き起こす。ゼロオーダー(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、アクティベーションストレージを不要にすることで、有望な代替手段を提供する。それでも、既存のZO法は、LLM微調整に共通する低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。本稿では、低ランクZO勾配推定器を提案し、この構造をLLMで効果的に捉える新しい低ランクZOアルゴリズム(LOZO)を提案する。サブスペース最適化法としてフレーミングすることで,LOZOの収束保証を提供する。さらに、ローランクな性質により、LOZOは、無視できる余分なメモリコストを発生させながら、運動量技術と統合することができる。様々なモデルサイズおよび下流タスクにわたる大規模な実験により、LOZOとその運動量に基づく変種は既存のZO法より優れ、FOアルゴリズムの性能に近づいた。

関連論文リスト

Hi-ZFO: Hierarchical Zeroth- and First-Order LLM Fine-Tuning via Importance-Guided Tensor Selection [4.808936079900314]
FO勾配をZO推定と相乗化するためにtextbfHi-ZFO (textbfHierarchical textbfZeroth- and textbfFirst-textbfOrder optimization) を提案する。また,Hi-ZFOはトレーニング時間を大幅に短縮しつつ,優れた性能を実現していることを示す。
論文参考訳（メタデータ） (2026-01-09T03:20:54Z)
ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning [32.55713482636133]
低ランク適応(LoRA)はこのコストを、低次元の部分空間に重み付けすることで効果的に削減する。この貢献は、連続する低ランクインクリメントからのハイランクウェイト更新を徐々に蓄積することで、これらの制限を扱う。再起動することなく効率よくシームレスな最適化を実現するために、この最適な選択は、元の低ランク行列の列を適切にスケーリングすることによって形成される。
論文参考訳（メタデータ） (2025-10-27T19:59:46Z)
Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文参考訳（メタデータ） (2025-07-10T18:04:52Z)
LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning [39.56217775141507]
Low-rAnk Regulated Gradient Projection (LARGO)アルゴリズムは、動的制約を低ランク適応法に統合する。 LARGOは、ドメイン内および配布外のシナリオで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-14T08:19:11Z)
KerZOO: Kernel Function Informed Zeroth-Order Optimization for Accurate and Accelerated LLM Fine-Tuning [15.81250204481401]
本稿では,勾配推定バイアスの軽減を目的としたカーネル関数ベースのZOフレームワークを提案する。 KerZOOは既存のZOベースラインと同等または優れたパフォーマンスを実現している。本稿では,カーネル関数がZO法における推定バイアスの低減に有効な方法であることを示す。
論文参考訳（メタデータ） (2025-05-24T21:56:03Z)
Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [42.362388367152256]
大規模言語モデル(LLM)は、LoRAを使用してパラメータ効率の良いCode Llamaを微調整するために使用される。提案手法は,演算オーバーヘッドを著しく低減しつつ,ルート平均角誤差(RMSE)の点で競争力や優位性を実現する。
論文参考訳（メタデータ） (2025-04-08T13:15:47Z)
LORENZA: Enhancing Generalization in Low-Rank Gradient LLM Training via Efficient Zeroth-Order Adaptive SAM [13.180761892449736]
大規模言語モデル(LLM)のためのロバストパラメータ効率細調整法(PEFT)について検討する。我々はAdam と Sharpness-Aware Minimization (SAM) を組み合わせた AdaZo-SAM という,計算効率のよい新しいフレームワークを提案する。また,AdaZo-SAMのメモリ効率向上版であるLORENZAという低ランク勾配最適化手法を設計した。
論文参考訳（メタデータ） (2025-02-26T21:30:34Z)
Harmony in Divergence: Towards Fast, Accurate, and Memory-efficient Zeroth-order LLM Fine-tuning [37.507489928116804]
大規模言語モデル(LLM)は様々なタスクにまたがるが、標準的な一階述語(FO)の微調整にはかなりのメモリを必要とする。本稿では,FOおよびZO最適化の異なる更新パターンを明らかにするレイヤワイズ分散分析を提案する。我々はtextbfDivergence-driven textbfZeroth-textbfOrder (textbfDiZO) の最適化を提案する。
論文参考訳（メタデータ） (2025-02-05T16:03:17Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。 WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文参考訳（メタデータ） (2024-10-28T04:47:39Z)
Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文参考訳（メタデータ） (2024-10-13T12:47:37Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文参考訳（メタデータ） (2024-09-22T11:24:10Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
Hyperparameter Estimation for Sparse Bayesian Learning Models [1.0172874946490507]
Aparse Bayesian Learning (SBL) モデルは、信号処理や機械学習において、階層的な事前処理による疎結合を促進するために広く使われている。本稿では,種々の目的関数に対するSBLモデルの改良のためのフレームワークを提案する。信号雑音比において, 高い効率性を示す新しいアルゴリズムが導入された。
論文参考訳（メタデータ） (2024-01-04T21:24:01Z)
Large-scale Optimization of Partial AUC in a Range of False Positive Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文参考訳（メタデータ） (2022-03-03T03:46:18Z)
Learning the Step-size Policy for the Limited-Memory Broyden-Fletcher-Goldfarb-Shanno Algorithm [3.7470451129384825]
本稿では,L-BFGSアルゴリズムのステップサイズポリシの学習方法について考察する。入力として電流勾配の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を回避し、出力ステップが予め定義された間隔内に留まることを保証します。
論文参考訳（メタデータ） (2020-10-03T09:34:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。