Fugu-MT 論文翻訳(概要): SHARP: Accelerating Language Model Inference by SHaring Adjacent layers with Recovery Parameters

論文の概要: SHARP: Accelerating Language Model Inference by SHaring Adjacent layers with Recovery Parameters

arxiv url: http://arxiv.org/abs/2502.07832v1
Date: Tue, 11 Feb 2025 00:21:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.706564
Title: SHARP: Accelerating Language Model Inference by SHaring Adjacent layers with Recovery Parameters
Title（参考訳）: SHARP: 回復パラメータを持つSHaring隣接層による言語モデル推論の高速化
Authors: Yiping Wang, Hanxian Huang, Yifang Chen, Jishen Zhao, Simon Shaolei Du, Yuandong Tian,
Abstract要約: 大規模言語モデル(LLM)は、高度な自然言語処理タスクを持ち、その増大する計算とメモリ要求は、携帯電話のようなリソースに制約のあるデバイスへのデプロイをますます困難にしている。本稿では,SHARP(S Haring Adjacent Layers with Recovery Parameters)を提案する。SHARP(S Haring Adjacent Layers with Recovery Parameters)は,LLM推論を高速化する手法で,隣接層間でパラメータを共有することでメモリ負荷を低減し,低ランク回復パラメータを導入して性能を向上する。
参考スコア（独自算出の注目度）: 42.76641078823487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Large language models (LLMs) have advanced natural language processing tasks, their growing computational and memory demands make deployment on resource-constrained devices like mobile phones increasingly challenging. In this paper, we propose SHARP (SHaring Adjacent Layers with Recovery Parameters), a novel approach to accelerate LLM inference by sharing parameters across adjacent layers, thus reducing memory load overhead, while introducing low-rank recovery parameters to maintain performance. Inspired by observations that consecutive layers have similar outputs, SHARP employs a two-stage recovery process: Single Layer Warmup (SLW), and Supervised Fine-Tuning (SFT). The SLW stage aligns the outputs of the shared layers using L_2 loss, providing a good initialization for the following SFT stage to further restore the model performance. Extensive experiments demonstrate that SHARP can recover the model's perplexity on various in-distribution tasks using no more than 50k fine-tuning data while reducing the number of stored MLP parameters by 38% to 65%. We also conduct several ablation studies of SHARP and show that replacing layers towards the later parts of the model yields better performance retention, and that different recovery parameterizations perform similarly when parameter counts are matched. Furthermore, SHARP saves 42.8% in model storage and reduces the total inference time by 42.2% compared to the original Llama2-7b model on mobile devices. Our results highlight SHARP as an efficient solution for reducing inference costs in deploying LLMs without the need for pretraining-scale resources.
Abstract（参考訳）: 大規模言語モデル(LLM)には高度な自然言語処理タスクがあるが、その増大する計算とメモリ要求は、携帯電話のようなリソースに制約のあるデバイスへのデプロイをますます困難にしている。本稿では,SHARP(S Haring Adjacent Layers with Recovery Parameters)を提案する。SHARP(S Haring Adjacent Layers with Recovery Parameters)は,SHARP(S Haring Adjacent Layers with Recovery Parameters)とSHARP(S Haring Adjacent Layers with Recovery Parameters)を併用し,LLM推論を高速化する手法である。連続した層が同様の出力を持つという観測に触発されて、SHARPはSingle Layer Warmup (SLW)とSupervised Fine-Tuning (SFT)という2段階の回復プロセスを採用している。 SLWステージは、L_2損失を用いて共有層の出力を整列させ、以下のSFTステージに対して良好な初期化を提供し、モデル性能を更に回復させる。大規模な実験により、SHARPは50k以上の微調整データを使用して、様々な分散タスクにおけるモデルのパープレキシティを回復し、保存されたMLPパラメータの数を38%から65%削減できることが示された。また、SHARPのいくつかのアブレーション研究を行い、モデルの後部への層置換により性能の保持性が向上し、パラメータ数が一致したときには、異なるリカバリパラメータ化が同様に動作することを示した。さらに、SHARPはモデルストレージの42.8%を節約し、モバイルデバイスのオリジナルのLlama2-7bモデルと比較して、総推論時間を42.2%削減する。この結果から,SHARP は LLM のデプロイにおいて,事前学習を必要とせず,推論コストを削減するための効率的なソリューションとして注目された。

関連論文リスト

SplitFrozen: Split Learning with Device-side Model Frozen for Fine-Tuning LLM on Heterogeneous Resource-Constrained Devices [15.790762116995845]
プライベート、オンデバイスデータに基づく細調整された大型言語モデル(LLM)は、パーソナライズされたパーソナライズされたAIエージェントを強化することができる。本稿では,資源制約のあるエッジデバイス上で効率的な微調整を可能にする分割学習フレームワークSplitFrozenを提案する。 MRPC、MNLIマッチング、SST-2データセットによるGPT-2の実験では、極めて不均衡なデータの下で、SplitFrozenはFedLoRAとSplitLoRAの精度を69.4%上回っている。
論文参考訳（メタデータ） (2025-03-23T08:03:44Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
SSH: Sparse Spectrum Adaptation via Discrete Hartley Transformation [10.300935899853748]
低ランク適応(LoRA)は,大規模基礎モデル(LLM)の微調整において,トレーニング可能なパラメータ数を削減できることが実証されている。本稿では,SSH(Sparse Spectrum Adaptation via Discrete Hartley Transformation)を提案する。 SSHは、計算コストとメモリ要求を大幅に削減しながら、既存のパラメータ効率の微調整法(PEFT)よりも優れている。
論文参考訳（メタデータ） (2025-02-08T12:06:58Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。しばしば最適化の課題を提起するが、収束性は低い。推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文参考訳（メタデータ） (2024-12-13T18:55:19Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。 5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。 5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文参考訳（メタデータ） (2024-06-10T02:47:55Z)
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-04-18T06:35:37Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。