論文の概要: SHARP: Accelerating Language Model Inference by SHaring Adjacent layers with Recovery Parameters
- arxiv url: http://arxiv.org/abs/2502.07832v1
- Date: Tue, 11 Feb 2025 00:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:53.921034
- Title: SHARP: Accelerating Language Model Inference by SHaring Adjacent layers with Recovery Parameters
- Title(参考訳): SHARP: 回復パラメータを持つSHaring隣接層による言語モデル推論の高速化
- Authors: Yiping Wang, Hanxian Huang, Yifang Chen, Jishen Zhao, Simon Shaolei Du, Yuandong Tian,
- Abstract要約: 大規模言語モデル(LLM)は、高度な自然言語処理タスクを持ち、その増大する計算とメモリ要求は、携帯電話のようなリソースに制約のあるデバイスへのデプロイをますます困難にしている。
本稿では,SHARP(S Haring Adjacent Layers with Recovery Parameters)を提案する。SHARP(S Haring Adjacent Layers with Recovery Parameters)は,LLM推論を高速化する手法で,隣接層間でパラメータを共有することでメモリ負荷を低減し,低ランク回復パラメータを導入して性能を向上する。
- 参考スコア(独自算出の注目度): 42.76641078823487
- License:
- Abstract: While Large language models (LLMs) have advanced natural language processing tasks, their growing computational and memory demands make deployment on resource-constrained devices like mobile phones increasingly challenging. In this paper, we propose SHARP (SHaring Adjacent Layers with Recovery Parameters), a novel approach to accelerate LLM inference by sharing parameters across adjacent layers, thus reducing memory load overhead, while introducing low-rank recovery parameters to maintain performance. Inspired by observations that consecutive layers have similar outputs, SHARP employs a two-stage recovery process: Single Layer Warmup (SLW), and Supervised Fine-Tuning (SFT). The SLW stage aligns the outputs of the shared layers using L_2 loss, providing a good initialization for the following SFT stage to further restore the model performance. Extensive experiments demonstrate that SHARP can recover the model's perplexity on various in-distribution tasks using no more than 50k fine-tuning data while reducing the number of stored MLP parameters by 38% to 65%. We also conduct several ablation studies of SHARP and show that replacing layers towards the later parts of the model yields better performance retention, and that different recovery parameterizations perform similarly when parameter counts are matched. Furthermore, SHARP saves 42.8% in model storage and reduces the total inference time by 42.2% compared to the original Llama2-7b model on mobile devices. Our results highlight SHARP as an efficient solution for reducing inference costs in deploying LLMs without the need for pretraining-scale resources.
- Abstract(参考訳): 大規模言語モデル(LLM)には高度な自然言語処理タスクがあるが、その増大する計算とメモリ要求は、携帯電話のようなリソースに制約のあるデバイスへのデプロイをますます困難にしている。
本稿では,SHARP(S Haring Adjacent Layers with Recovery Parameters)を提案する。SHARP(S Haring Adjacent Layers with Recovery Parameters)は,SHARP(S Haring Adjacent Layers with Recovery Parameters)とSHARP(S Haring Adjacent Layers with Recovery Parameters)を併用し,LLM推論を高速化する手法である。
連続した層が同様の出力を持つという観測に触発されて、SHARPはSingle Layer Warmup (SLW)とSupervised Fine-Tuning (SFT)という2段階の回復プロセスを採用している。
SLWステージは、L_2損失を用いて共有層の出力を整列させ、以下のSFTステージに対して良好な初期化を提供し、モデル性能を更に回復させる。
大規模な実験により、SHARPは50k以上の微調整データを使用して、様々な分散タスクにおけるモデルのパープレキシティを回復し、保存されたMLPパラメータの数を38%から65%削減できることが示された。
また、SHARPのいくつかのアブレーション研究を行い、モデルの後部への層置換により性能の保持性が向上し、パラメータ数が一致したときには、異なるリカバリパラメータ化が同様に動作することを示した。
さらに、SHARPはモデルストレージの42.8%を節約し、モバイルデバイスのオリジナルのLlama2-7bモデルと比較して、総推論時間を42.2%削減する。
この結果から,SHARP は LLM のデプロイにおいて,事前学習を必要とせず,推論コストを削減するための効率的なソリューションとして注目された。
関連論文リスト
- Straightforward Layer-wise Pruning for More Efficient Visual Adaptation [0.0]
そこで本研究では,PETL転送モデルに対するSLSと呼ばれるStraightforward層ワイドプルーニング手法を提案する。
本研究は, プレニング指標の保存に焦点をあてたレイヤワイドプルーニングが, ストレージ容量の懸念に対処することを明らかにする。
論文 参考訳(メタデータ) (2024-07-19T14:10:35Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Fine-tuning Strategies for Faster Inference using Speech Self-Supervised
Models: A Comparative Study [25.58608455210458]
自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この記事では、SSLエンコーダに必要な計算量を削減するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
論文 参考訳(メタデータ) (2023-03-12T19:52:34Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。