論文の概要: Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark
- arxiv url: http://arxiv.org/abs/2402.11592v2
- Date: Mon, 26 Feb 2024 07:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:33:11.264152
- Title: Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark
- Title(参考訳): メモリ効率の良いLLMファインチューニングのためのゼロ階最適化の再検討:ベンチマーク
- Authors: Yihua Zhang, Pingzhi Li, Junyuan Hong, Jiaxiang Li, Yimeng Zhang,
Wenqing Zheng, Pin-Yu Chen, Jason D. Lee, Wotao Yin, Mingyi Hong, Zhangyang
Wang, Sijia Liu, Tianlong Chen
- Abstract要約: 本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
- 参考スコア(独自算出の注目度): 170.47660885570463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the evolving landscape of natural language processing (NLP), fine-tuning
pre-trained Large Language Models (LLMs) with first-order (FO) optimizers like
SGD and Adam has become standard. Yet, as LLMs grow {in size}, the substantial
memory overhead from back-propagation (BP) for FO gradient computation presents
a significant challenge. Addressing this issue is crucial, especially for
applications like on-device training where memory efficiency is paramount. This
paper proposes a shift towards BP-free, zeroth-order (ZO) optimization as a
solution for reducing memory costs during LLM fine-tuning, building on the
initial concept introduced by MeZO. Unlike traditional ZO-SGD methods, our work
expands the exploration to a wider array of ZO optimization techniques, through
a comprehensive, first-of-its-kind benchmarking study across five LLM families
(Roberta, OPT, LLaMA, Vicuna, Mistral), three task complexities, and five
fine-tuning schemes. Our study unveils previously overlooked optimization
principles, highlighting the importance of task alignment, the role of the
forward gradient method, and the balance between algorithm complexity and
fine-tuning performance. We further introduce novel enhancements to ZO
optimization, including block-wise descent, hybrid training, and gradient
sparsity. Our study offers a promising direction for achieving further
memory-efficient LLM fine-tuning. Codes to reproduce all our experiments are at
https://github.com/ZO-Bench/ZO-LLM .
- Abstract(参考訳): 自然言語処理(NLP)の進化途上において、SGDやAdamのような一階最適化(FO)を備えた微調整済みの大規模言語モデル(LLM)が標準となっている。
しかし, LLMのサイズが大きくなるにつれて, FO勾配計算のバックプロパゲーション(BP)によるメモリオーバーヘッドが大幅に増大する。
メモリ効率が最重要となるオンデバイストレーニングのようなアプリケーションでは、この問題に対処することが特に重要です。
本稿では, BPフリーなゼロオーダー最適化(ZO)へのシフトを, MeZO による初期概念に基づく LLM 微調整時のメモリコスト削減ソリューションとして提案する。
従来のZO-SGD法とは異なり、我々の研究はより広範なZO最適化手法に拡張され、5つのLLMファミリー(Roberta, OPT, LLaMA, Vicuna, Mistral)、3つのタスク複雑度、5つの微調整スキームにまたがる総合的なベンチマーク研究が実施されている。
本研究は,これまで見過ごされていた最適化原理を明らかにし,タスクアライメントの重要性,前傾勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスを強調する。
さらに,ブロックワイド降下,ハイブリッドトレーニング,勾配間隔など,ZO最適化の新たな拡張も導入する。
本研究は、さらなるメモリ効率のllm微調整を実現するための有望な方向性を提供する。
すべての実験を再現するためのコードはhttps://github.com/ZO-Bench/ZO-LLM にある。
関連論文リスト
- Large Language Model-Based Evolutionary Optimizer: Reasoning with
elitism [1.1463861912335864]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
本稿では,LLMが様々なシナリオにまたがるゼロショット最適化能力を有していることを主張する。
LLMを用いた数値最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T13:57:37Z) - LLaMoCo: Instruction Tuning of Large Language Models for Optimization
Code Generation [26.975412742800614]
我々はLLaMoCoを紹介した。LLaMoCoは、大規模言語モデルをコード・コード方式で最適化問題を解くために設計した最初の命令チューニングフレームワークである。
具体的には、よく記述された問題プロンプトと効果的な最適化コードを含む包括的命令セットを確立する。
LLaMoCoにより微調整された CodeGen (350M) モデルでは, GPT-4 Turbo よりも優れた最適化性能が得られた。
論文 参考訳(メタデータ) (2024-03-02T08:21:59Z) - Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。
我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。
我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文 参考訳(メタデータ) (2024-02-28T15:02:17Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers:
An Analogical Analysis with Gradient-based Model Optimizers [115.2038169433773]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。