論文の概要: Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training
- arxiv url: http://arxiv.org/abs/2502.03604v2
- Date: Mon, 27 Oct 2025 02:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.2649
- Title: Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training
- Title(参考訳): 2レベルZOFO:効率的なLDMファインチューニングとメタトレーニングのためのブリッジングパラメータ効率およびゼロ階法
- Authors: Reza Shirkavand, Peiran Yu, Qi He, Heng Huang,
- Abstract要約: 下流タスクのための微調整済みの大規模言語モデル(LLM)は、重大な計算上の課題を示す。
本稿では,2レベル最適化手法であるBilevel-ZOFOを提案する。これは,高速で局所的なFO-PEFT適応を内部レベルで結合し,メモリ効率の高いZO更新を外部レベルで安定的に行う。
また,Bilevel-ZOFOは既存のZO法やFO-PEFT法よりも優れており,メモリ効率は2~4倍向上した。
- 参考スコア(独自算出の注目度): 44.89297451402362
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-tuning pre-trained Large Language Models (LLMs) for downstream tasks using First-Order (FO) optimizers presents significant computational challenges. Parameter-Efficient Fine-Tuning (PEFT) methods address these by freezing most model parameters and training only a small subset. However, PEFT often underperforms compared to full fine-tuning when high task-specific accuracy is required. Zeroth-Order (ZO) methods fine-tune the entire pre-trained model without back-propagation, estimating gradients through forward passes only. While memory-efficient, ZO methods suffer from slow convergence and high sensitivity to prompt selection. We bridge these two worlds with Bilevel-ZOFO, a bilevel optimization method that couples fast, local FO-PEFT adaptation at the inner level with stable, memory-efficient ZO updates of the full backbone at the outer level. The FO-PEFT inner loop performs fast, low-memory local adaptation that reduces the variance of ZO estimates and stabilizes the search, guiding the outer ZO updates of the full backbone and reducing prompt sensitivity. In the mean time, the outer ZO provides better generalization ability for PEFT. We provide theoretical convergence guarantees and empirically demonstrate that Bilevel-ZOFO significantly outperforms existing ZO and FO-PEFT methods, achieving 2-4 times faster training while maintaining similar memory efficiency. Additionally, we show by updating the backbone with ZO and adapting only a tiny FO-PEFT block per task, Bilevel-ZOFO combines full-model capacity with few-shot efficiency, making it a very efficient meta-learning algorithm that quickly adapts to new tasks.
- Abstract(参考訳): First-Order (FO)オプティマイザを用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、計算上の重大な課題を示す。
パラメータ効率の良いファインチューニング(PEFT)法は、ほとんどのモデルパラメータを凍結し、小さなサブセットのみを訓練することでこれらに対処する。
しかし、PEFTはタスク固有の精度が要求される場合、フル微調整に比べて性能が劣ることが多い。
Zeroth-Order (ZO) メソッドは、バックプロパゲーションなしで事前訓練されたモデル全体を微調整し、前方通過のみの勾配を推定する。
メモリ効率は高いが、ZO法はコンバージェンスが遅く、選択を促す感度が高い。
この2つの世界をバイレベルZOFO(Bilevel-ZOFO)で橋渡しする。これは、内部レベルで高速で局所的なFO-PEFT適応と、外部レベルでのフルバックボーンの安定的でメモリ効率の良いZO更新を結合するバイレベル最適化手法である。
FO-PEFT内部ループは高速で低メモリの局所的な適応を行い、ZO推定のばらつきを低減し、探索を安定化し、全バックボーンの外部ZO更新を誘導し、迅速な感度を低下させる。
平均すると、外部ZOはPEFTにより良い一般化機能を提供する。
理論的収束保証を行い、Bilevel-ZOFOが既存のZO法とFO-PEFT法を著しく上回り、同様のメモリ効率を維持しながら2-4倍の高速トレーニングを実現することを実証した。
さらに、ZOでバックボーンを更新し、タスク毎に小さなFO-PEFTブロックのみを適用することで、Bilevel-ZOFOはフルモデルのキャパシティと数ショットの効率を組み合わせ、新しいタスクに迅速に適応する非常に効率的なメタ学習アルゴリズムであることを示す。
関連論文リスト
- Hi-ZFO: Hierarchical Zeroth- and First-Order LLM Fine-Tuning via Importance-Guided Tensor Selection [4.808936079900314]
FO勾配をZO推定と相乗化するためにtextbfHi-ZFO (textbfHierarchical textbfZeroth- and textbfFirst-textbfOrder optimization) を提案する。
また,Hi-ZFOはトレーニング時間を大幅に短縮しつつ,優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-09T03:20:54Z) - FRoD: Full-Rank Efficient Fine-Tuning with Rotational Degrees for Fast Convergence [20.138989330054955]
階層的関節分解と自由度を結合した新しい微調整法FRoDを提案する。
視覚、推論、言語理解にまたがる20のベンチマークでは、FRoDは同じ訓練予算の下でトレーニング可能なパラメータの1.72%しか使用せず、完全なモデルの微調整と精度で一致している。
論文 参考訳(メタデータ) (2025-12-29T14:13:45Z) - Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。
LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。
既存のアプローチ、例えば、コンテキスト内学習や。
PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文 参考訳(メタデータ) (2025-05-25T11:54:23Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Harmony in Divergence: Towards Fast, Accurate, and Memory-efficient Zeroth-order LLM Fine-tuning [44.907586955452295]
大規模言語モデル(LLM)は様々なタスクにまたがるが、標準的な一階述語(FO)の微調整にはかなりのメモリを必要とする。
近年、ゼロオーダー(ZO)最適化はメモリ効率のよいトレーニングパラダイムとして注目されている。
本稿では,FOおよびZO最適化の異なる更新パターンを明らかにするレイヤワイズ分散分析を提案する。
以上の結果から,DiZOはスループットを犠牲にすることなく,コンバージェンスに必要なイテレーションを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2025-02-05T16:03:17Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models [63.52035708182815]
自動PEFT(BIPEFT)のための新しいBudget-Guided Iterative Search戦略を提案する。
BIPEFTはバイナリモジュールとランク次元検索空間をアンタングルするために,新たな反復探索方式を採用している。
公開ベンチマークの大規模な実験は、パラメータ予算の低い下流タスクにおいて、BIPEFTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T18:50:46Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Federated Hypergradient Descent [0.0]
本稿では,適応的なクライアント学習率,局所的なステップ数,バッチサイズといった手法に原則的アプローチを適用する。
フェデレートされた学習アプリケーションでは、トレーニングパイプラインにおける通信予算とローカルな計算資源の最小化が主な動機です。
我々は,フェデレートEMNIST-62 (FEMNIST) とフェデレートスタックオーバーフロー (FSO) データセットを用いた広範な実験実験により数値結果を示す。
論文 参考訳(メタデータ) (2022-11-03T19:22:00Z) - BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach [46.457298683984924]
バイレベル最適化(BO)は、さまざまな機械学習問題を解決するのに有用である。
従来の手法では、暗黙の微分を伴う低レベル最適化プロセスを通じて差別化する必要がある。
一階BOは一階情報にのみ依存し、暗黙の微分を必要としない。
論文 参考訳(メタデータ) (2022-09-19T01:51:12Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。