論文の概要: Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training
- arxiv url: http://arxiv.org/abs/2502.03604v1
- Date: Wed, 05 Feb 2025 20:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 15:30:40.525144
- Title: Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training
- Title(参考訳): 2レベルZOFO:効率的なLDMファインチューニングとメタトレーニングのためのブリッジングパラメータ効率およびゼロ階法
- Authors: Reza Shirkavand, Qi He, Peiran Yu, Heng Huang,
- Abstract要約: First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。
本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。
我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
- 参考スコア(独自算出の注目度): 44.48966200270378
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-tuning pre-trained Large Language Models (LLMs) for downstream tasks using First-Order (FO) optimizers presents significant computational challenges. Parameter-Efficient Fine-Tuning(PEFT) methods have been proposed to address these challenges by freezing most model parameters and training only a small subset. While PEFT is efficient, it may not outperform full fine-tuning when high task-specific performance is required. Zeroth-Order (ZO) methods offer an alternative for fine-tuning the entire pre-trained model by approximating gradients using only the forward pass, thus eliminating the computational burden of back-propagation in first-order methods. However, when implementing ZO methods, a hard prompt is crucial, and relying on simple, fixed hard prompts may not be optimal. In this paper, we propose a bilevel optimization framework that complements ZO methods with PEFT to mitigate sensitivity to hard prompts while efficiently and effectively fine-tuning LLMs. Our Bilevel ZOFO (Zeroth-Order-First-Order) method employs a double-loop optimization strategy, where only the gradient of the PEFT model and the forward pass of the base model are required. We provide convergence guarantees for Bilevel ZOFO. Empirically, we demonstrate that Bilevel ZOFO outperforms both PEFT and ZO methods in single-task settings while maintaining similar memory efficiency. Additionally, we show its strong potential for multitask learning. Compared to current first-order meta-training algorithms for multitask learning, our method has significantly lower computational demands while maintaining or improving performance.
- Abstract(参考訳): First-Order (FO)オプティマイザを用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、計算上の重大な課題を示す。
パラメータ効率の良いファインチューニング(PEFT)法は、ほとんどのモデルパラメータを凍結し、少数のサブセットのみを訓練することでこれらの課題に対処するために提案されている。
PEFTは効率的であるが、高いタスク固有の性能を必要とする場合、完全な微調整を達成できない。
ゼロオーダー法(ZO)は、前方パスのみを用いて勾配を近似することにより、事前訓練されたモデル全体を微調整する代替手段を提供する。
しかし、ZOメソッドを実装する場合、ハードプロンプトは不可欠であり、単純で固定されたハードプロンプトに依存するのは最適ではないかもしれない。
本稿では,ZO法をPEFTで補完する二段階最適化フレームワークを提案する。
両レベルZOFO(Zeroth-Order-First-Order)法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
We provide convergence guarantees for Bilevel ZOFO。
実証的に、Bilevel ZOFOはPEFTとZOの両方のメソッドを1タスク設定で上回り、メモリ効率は同等である。
さらに,マルチタスク学習の可能性も強まっている。
マルチタスク学習における1次メタトレーニングアルゴリズムと比較して,本手法は性能を維持・改善しながら計算要求を大幅に低減する。
関連論文リスト
- Hi-ZFO: Hierarchical Zeroth- and First-Order LLM Fine-Tuning via Importance-Guided Tensor Selection [4.808936079900314]
FO勾配をZO推定と相乗化するためにtextbfHi-ZFO (textbfHierarchical textbfZeroth- and textbfFirst-textbfOrder optimization) を提案する。
また,Hi-ZFOはトレーニング時間を大幅に短縮しつつ,優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-09T03:20:54Z) - FRoD: Full-Rank Efficient Fine-Tuning with Rotational Degrees for Fast Convergence [20.138989330054955]
階層的関節分解と自由度を結合した新しい微調整法FRoDを提案する。
視覚、推論、言語理解にまたがる20のベンチマークでは、FRoDは同じ訓練予算の下でトレーニング可能なパラメータの1.72%しか使用せず、完全なモデルの微調整と精度で一致している。
論文 参考訳(メタデータ) (2025-12-29T14:13:45Z) - Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。
LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。
既存のアプローチ、例えば、コンテキスト内学習や。
PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文 参考訳(メタデータ) (2025-05-25T11:54:23Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Harmony in Divergence: Towards Fast, Accurate, and Memory-efficient Zeroth-order LLM Fine-tuning [44.907586955452295]
大規模言語モデル(LLM)は様々なタスクにまたがるが、標準的な一階述語(FO)の微調整にはかなりのメモリを必要とする。
近年、ゼロオーダー(ZO)最適化はメモリ効率のよいトレーニングパラダイムとして注目されている。
本稿では,FOおよびZO最適化の異なる更新パターンを明らかにするレイヤワイズ分散分析を提案する。
以上の結果から,DiZOはスループットを犠牲にすることなく,コンバージェンスに必要なイテレーションを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2025-02-05T16:03:17Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models [63.52035708182815]
自動PEFT(BIPEFT)のための新しいBudget-Guided Iterative Search戦略を提案する。
BIPEFTはバイナリモジュールとランク次元検索空間をアンタングルするために,新たな反復探索方式を採用している。
公開ベンチマークの大規模な実験は、パラメータ予算の低い下流タスクにおいて、BIPEFTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T18:50:46Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Federated Hypergradient Descent [0.0]
本稿では,適応的なクライアント学習率,局所的なステップ数,バッチサイズといった手法に原則的アプローチを適用する。
フェデレートされた学習アプリケーションでは、トレーニングパイプラインにおける通信予算とローカルな計算資源の最小化が主な動機です。
我々は,フェデレートEMNIST-62 (FEMNIST) とフェデレートスタックオーバーフロー (FSO) データセットを用いた広範な実験実験により数値結果を示す。
論文 参考訳(メタデータ) (2022-11-03T19:22:00Z) - BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach [46.457298683984924]
バイレベル最適化(BO)は、さまざまな機械学習問題を解決するのに有用である。
従来の手法では、暗黙の微分を伴う低レベル最適化プロセスを通じて差別化する必要がある。
一階BOは一階情報にのみ依存し、暗黙の微分を必要としない。
論文 参考訳(メタデータ) (2022-09-19T01:51:12Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。