論文の概要: Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training
- arxiv url: http://arxiv.org/abs/2502.03604v2
- Date: Mon, 27 Oct 2025 02:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.2649
- Title: Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training
- Title(参考訳): 2レベルZOFO:効率的なLDMファインチューニングとメタトレーニングのためのブリッジングパラメータ効率およびゼロ階法
- Authors: Reza Shirkavand, Peiran Yu, Qi He, Heng Huang,
- Abstract要約: 下流タスクのための微調整済みの大規模言語モデル(LLM)は、重大な計算上の課題を示す。
本稿では,2レベル最適化手法であるBilevel-ZOFOを提案する。これは,高速で局所的なFO-PEFT適応を内部レベルで結合し,メモリ効率の高いZO更新を外部レベルで安定的に行う。
また,Bilevel-ZOFOは既存のZO法やFO-PEFT法よりも優れており,メモリ効率は2~4倍向上した。
- 参考スコア(独自算出の注目度): 44.89297451402362
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-tuning pre-trained Large Language Models (LLMs) for downstream tasks using First-Order (FO) optimizers presents significant computational challenges. Parameter-Efficient Fine-Tuning (PEFT) methods address these by freezing most model parameters and training only a small subset. However, PEFT often underperforms compared to full fine-tuning when high task-specific accuracy is required. Zeroth-Order (ZO) methods fine-tune the entire pre-trained model without back-propagation, estimating gradients through forward passes only. While memory-efficient, ZO methods suffer from slow convergence and high sensitivity to prompt selection. We bridge these two worlds with Bilevel-ZOFO, a bilevel optimization method that couples fast, local FO-PEFT adaptation at the inner level with stable, memory-efficient ZO updates of the full backbone at the outer level. The FO-PEFT inner loop performs fast, low-memory local adaptation that reduces the variance of ZO estimates and stabilizes the search, guiding the outer ZO updates of the full backbone and reducing prompt sensitivity. In the mean time, the outer ZO provides better generalization ability for PEFT. We provide theoretical convergence guarantees and empirically demonstrate that Bilevel-ZOFO significantly outperforms existing ZO and FO-PEFT methods, achieving 2-4 times faster training while maintaining similar memory efficiency. Additionally, we show by updating the backbone with ZO and adapting only a tiny FO-PEFT block per task, Bilevel-ZOFO combines full-model capacity with few-shot efficiency, making it a very efficient meta-learning algorithm that quickly adapts to new tasks.
- Abstract(参考訳): First-Order (FO)オプティマイザを用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、計算上の重大な課題を示す。
パラメータ効率の良いファインチューニング(PEFT)法は、ほとんどのモデルパラメータを凍結し、小さなサブセットのみを訓練することでこれらに対処する。
しかし、PEFTはタスク固有の精度が要求される場合、フル微調整に比べて性能が劣ることが多い。
Zeroth-Order (ZO) メソッドは、バックプロパゲーションなしで事前訓練されたモデル全体を微調整し、前方通過のみの勾配を推定する。
メモリ効率は高いが、ZO法はコンバージェンスが遅く、選択を促す感度が高い。
この2つの世界をバイレベルZOFO(Bilevel-ZOFO)で橋渡しする。これは、内部レベルで高速で局所的なFO-PEFT適応と、外部レベルでのフルバックボーンの安定的でメモリ効率の良いZO更新を結合するバイレベル最適化手法である。
FO-PEFT内部ループは高速で低メモリの局所的な適応を行い、ZO推定のばらつきを低減し、探索を安定化し、全バックボーンの外部ZO更新を誘導し、迅速な感度を低下させる。
平均すると、外部ZOはPEFTにより良い一般化機能を提供する。
理論的収束保証を行い、Bilevel-ZOFOが既存のZO法とFO-PEFT法を著しく上回り、同様のメモリ効率を維持しながら2-4倍の高速トレーニングを実現することを実証した。
さらに、ZOでバックボーンを更新し、タスク毎に小さなFO-PEFTブロックのみを適用することで、Bilevel-ZOFOはフルモデルのキャパシティと数ショットの効率を組み合わせ、新しいタスクに迅速に適応する非常に効率的なメタ学習アルゴリズムであることを示す。
関連論文リスト
- Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。
LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。
既存のアプローチ、例えば、コンテキスト内学習や。
PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文 参考訳(メタデータ) (2025-05-25T11:54:23Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Federated Hypergradient Descent [0.0]
本稿では,適応的なクライアント学習率,局所的なステップ数,バッチサイズといった手法に原則的アプローチを適用する。
フェデレートされた学習アプリケーションでは、トレーニングパイプラインにおける通信予算とローカルな計算資源の最小化が主な動機です。
我々は,フェデレートEMNIST-62 (FEMNIST) とフェデレートスタックオーバーフロー (FSO) データセットを用いた広範な実験実験により数値結果を示す。
論文 参考訳(メタデータ) (2022-11-03T19:22:00Z) - BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach [46.457298683984924]
バイレベル最適化(BO)は、さまざまな機械学習問題を解決するのに有用である。
従来の手法では、暗黙の微分を伴う低レベル最適化プロセスを通じて差別化する必要がある。
一階BOは一階情報にのみ依存し、暗黙の微分を必要としない。
論文 参考訳(メタデータ) (2022-09-19T01:51:12Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。