論文の概要: EBFT: Effective and Block-Wise Fine-Tuning for Sparse LLMs
- arxiv url: http://arxiv.org/abs/2402.12419v1
- Date: Mon, 19 Feb 2024 09:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:53:18.114116
- Title: EBFT: Effective and Block-Wise Fine-Tuning for Sparse LLMs
- Title(参考訳): EBFT:Sparse LLMにおける有効かつブロックワイズファインチューニング
- Authors: Song Guo, Fan Wu, Lei Zhang, Xiawu Zheng, Shengchuan Zhang, Fei Chao,
Yiyu Shi, Rongrong Ji
- Abstract要約: スパースLLMを微調整する既存の方法は、しばしば資源集約的な要求と高い再訓練コストに悩まされる。
再構成誤差の最小化に基づくスパルスLLMの微調整のための効率的かつ高速なフレームワークを提案する。
提案手法では, キャリブレーションのための小さなデータセットをサンプリングし, バックプロパゲーションを利用してブロックワイズ復元誤差を反復的に最適化する。
- 参考スコア(独自算出の注目度): 68.41135269685576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for fine-tuning sparse LLMs often suffer from
resource-intensive requirements and high retraining costs. Additionally, many
fine-tuning methods often rely on approximations or heuristic optimization
strategies, which may lead to suboptimal solutions. To address these issues, we
propose an efficient and fast framework for fine-tuning sparse LLMs based on
minimizing reconstruction error. Our approach involves sampling a small dataset
for calibration and utilizing backpropagation to iteratively optimize
block-wise reconstruction error, on a block-by-block basis, aiming for optimal
solutions. Extensive experiments on various benchmarks consistently demonstrate
the superiority of our method over other baselines. For instance, on the
Wikitext2 dataset with LlamaV1-7B at 70% sparsity, our proposed EBFT achieves a
perplexity of 16.88, surpassing the state-of-the-art DSnoT with a perplexity of
75.14. Moreover, with a structured sparsity ratio of 26\%, EBFT achieves a
perplexity of 16.27, outperforming LoRA (perplexity 16.44). Furthermore, the
fine-tuning process of EBFT for LlamaV1-7B only takes approximately 30 minutes,
and the entire framework can be executed on a single 16GB GPU. The source code
is available at https://github.com/sunggo/EBFT.
- Abstract(参考訳): スパースLLMを微調整する既存の方法は、しばしば資源集約的な要求と高い再訓練コストに悩まされる。
さらに、多くの微調整手法は近似やヒューリスティック最適化戦略に頼り、最適化の準最適解に繋がることがある。
これらの問題に対処するために,再構成誤差の最小化に基づくスパースLLMの微調整のための効率的かつ高速なフレームワークを提案する。
提案手法では,キャリブレーションのための小さなデータセットをサンプリングし,ブロック単位の復元誤差をブロック単位で反復的に最適化し,最適解を目指す。
様々なベンチマークに関する広範囲な実験により、他のベースラインよりも優れた方法が実証された。
例えば、LlamaV1-7Bを70%間隔でWikitext2データセット上で、提案したEBFTは16.88のパープレキシティを実現し、最先端のDSnoTを75.14のパープレキシティで上回っている。
さらに、構成された間隔比26\%で、EBFTは16.27のパープレキシティを達成し、LoRA(パープレキシティ16.44)を上回っている。
さらに、LlamaV1-7B用のEBFTの微調整プロセスは、約30分しかかからず、フレームワーク全体が単一の16GB GPU上で実行できる。
ソースコードはhttps://github.com/sunggo/EBFT.comで入手できる。
関連論文リスト
- Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。
彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。
LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - HASSLE-free: A unified Framework for Sparse plus Low-Rank Matrix Decomposition for LLMs [15.575498324678373]
有望な圧縮スキームは、基礎モデルの密度重みをスパースと低ランク行列の和に分解することである。
本稿では,半構造化)スパースと低ランク行列分解のためのHASSLEフリーの統一フレームワークを設計する。
論文 参考訳(メタデータ) (2025-02-02T20:23:32Z) - A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。
FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。
OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文 参考訳(メタデータ) (2024-08-07T12:33:46Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Learning Optimal Solutions via an LSTM-Optimization Framework [0.0]
動的混合整数プログラムに取り組むためのディープラーニング最適化フレームワークを提案する。
我々は,情報を前後に処理できる双方向長短期記憶(LSTM)フレームワークを開発した。
本研究は, 単体容量化ロットサイズ問題に対する最適決定の予測におけるアプローチを実証する。
論文 参考訳(メタデータ) (2022-07-06T19:38:01Z) - Provable Stochastic Optimization for Global Contrastive Learning: Small
Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。
SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。
本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-24T22:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。