論文の概要: Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training
- arxiv url: http://arxiv.org/abs/2502.03604v1
- Date: Wed, 05 Feb 2025 20:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:11.321066
- Title: Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training
- Title(参考訳): 2レベルZOFO:効率的なLDMファインチューニングとメタトレーニングのためのブリッジングパラメータ効率およびゼロ階法
- Authors: Reza Shirkavand, Qi He, Peiran Yu, Heng Huang,
- Abstract要約: First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。
本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。
我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
- 参考スコア(独自算出の注目度): 44.48966200270378
- License:
- Abstract: Fine-tuning pre-trained Large Language Models (LLMs) for downstream tasks using First-Order (FO) optimizers presents significant computational challenges. Parameter-Efficient Fine-Tuning(PEFT) methods have been proposed to address these challenges by freezing most model parameters and training only a small subset. While PEFT is efficient, it may not outperform full fine-tuning when high task-specific performance is required. Zeroth-Order (ZO) methods offer an alternative for fine-tuning the entire pre-trained model by approximating gradients using only the forward pass, thus eliminating the computational burden of back-propagation in first-order methods. However, when implementing ZO methods, a hard prompt is crucial, and relying on simple, fixed hard prompts may not be optimal. In this paper, we propose a bilevel optimization framework that complements ZO methods with PEFT to mitigate sensitivity to hard prompts while efficiently and effectively fine-tuning LLMs. Our Bilevel ZOFO (Zeroth-Order-First-Order) method employs a double-loop optimization strategy, where only the gradient of the PEFT model and the forward pass of the base model are required. We provide convergence guarantees for Bilevel ZOFO. Empirically, we demonstrate that Bilevel ZOFO outperforms both PEFT and ZO methods in single-task settings while maintaining similar memory efficiency. Additionally, we show its strong potential for multitask learning. Compared to current first-order meta-training algorithms for multitask learning, our method has significantly lower computational demands while maintaining or improving performance.
- Abstract(参考訳): First-Order (FO)オプティマイザを用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、計算上の重大な課題を示す。
パラメータ効率の良いファインチューニング(PEFT)法は、ほとんどのモデルパラメータを凍結し、少数のサブセットのみを訓練することでこれらの課題に対処するために提案されている。
PEFTは効率的であるが、高いタスク固有の性能を必要とする場合、完全な微調整を達成できない。
ゼロオーダー法(ZO)は、前方パスのみを用いて勾配を近似することにより、事前訓練されたモデル全体を微調整する代替手段を提供する。
しかし、ZOメソッドを実装する場合、ハードプロンプトは不可欠であり、単純で固定されたハードプロンプトに依存するのは最適ではないかもしれない。
本稿では,ZO法をPEFTで補完する二段階最適化フレームワークを提案する。
両レベルZOFO(Zeroth-Order-First-Order)法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
We provide convergence guarantees for Bilevel ZOFO。
実証的に、Bilevel ZOFOはPEFTとZOの両方のメソッドを1タスク設定で上回り、メモリ効率は同等である。
さらに,マルチタスク学習の可能性も強まっている。
マルチタスク学習における1次メタトレーニングアルゴリズムと比較して,本手法は性能を維持・改善しながら計算要求を大幅に低減する。
関連論文リスト
- Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Federated Hypergradient Descent [0.0]
本稿では,適応的なクライアント学習率,局所的なステップ数,バッチサイズといった手法に原則的アプローチを適用する。
フェデレートされた学習アプリケーションでは、トレーニングパイプラインにおける通信予算とローカルな計算資源の最小化が主な動機です。
我々は,フェデレートEMNIST-62 (FEMNIST) とフェデレートスタックオーバーフロー (FSO) データセットを用いた広範な実験実験により数値結果を示す。
論文 参考訳(メタデータ) (2022-11-03T19:22:00Z) - BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach [46.457298683984924]
バイレベル最適化(BO)は、さまざまな機械学習問題を解決するのに有用である。
従来の手法では、暗黙の微分を伴う低レベル最適化プロセスを通じて差別化する必要がある。
一階BOは一階情報にのみ依存し、暗黙の微分を必要としない。
論文 参考訳(メタデータ) (2022-09-19T01:51:12Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。