論文の概要: Accurate Sublayer Pruning for Large Language Models by Exploiting Latency and Tunability Information
- arxiv url: http://arxiv.org/abs/2506.03510v1
- Date: Wed, 04 Jun 2025 02:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.115718
- Title: Accurate Sublayer Pruning for Large Language Models by Exploiting Latency and Tunability Information
- Title(参考訳): 潜時・絡み合い情報の爆発的抽出による大規模言語モデルの高精度サブ層プルーニング
- Authors: Seungcheol Park, Sojin Lee, Jongjin Kim, Jinsik Lee, Hyunjik Jo, U Kang,
- Abstract要約: 大規模言語モデル(LLM)のサブレイヤプルーニング圧縮と高速化
既存のサブレイヤプルーニングアルゴリズムは、プルーネに選択的にサブレイヤを選択するため、精度が制限されている。
SPRINTは、ゼロショットのコモンセンス推論ベンチマークにおいて最大23.88%の精度で精度の高いトレードオフを実現する。
- 参考スコア(独自算出の注目度): 10.092610162449237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we accelerate large language models(LLMs) without sacrificing accuracy? The slow inference speed of LLMs hinders us to benefit from their remarkable performance in diverse applications. This is mainly because numerous sublayers are stacked together in LLMs. Sublayer pruning compresses and expedites LLMs via removing unnecessary sublayers. However, existing sublayer pruning algorithms are limited in accuracy since they naively select sublayers to prune, overlooking the different characteristics of each sublayer. In this paper, we propose SPRINT (Sublayer PRuning wIth LateNcy and Tunability Information), an accurate sublayer pruning method for LLMs. SPRINT accurately selects a target sublayer to prune by considering 1) the amount of latency reduction after pruning and 2) the tunability of sublayers. SPRINT iteratively prunes redundant sublayers and swiftly tunes the parameters of remaining sublayers. Experiments show that SPRINT achieves the best accuracy-speedup trade-off, exhibiting up to 23.88%p higher accuracy on zero-shot commonsense reasoning benchmarks compared to existing pruning algorithms.
- Abstract(参考訳): 精度を犠牲にすることなく、どのようにして大規模言語モデル(LLM)を加速できるか?
LLMの遅い推論速度は、様々なアプリケーションにおける顕著なパフォーマンスの恩恵を受けるのを妨げます。
これは主に、多数のサブレイヤがLLMに積み重ねられているためである。
サブ層プルーニングは不要なサブ層を取り除き、LCMを圧縮・排出する。
しかし,既存のサブレイヤプルーニングアルゴリズムは,各サブレイヤの異なる特性を見越して,選択的にサブレイヤを選択してプルーするので,精度が低い。
本稿では,LDMの高精度なサブレイヤプルーニング手法であるSPRINT(Sublayer Pruning wIth LateNcy and Tunability Information)を提案する。
SPRINTは、プーンに対するターゲットサブレイヤを正確に選択する
1)刈り込み後の遅延低減量と減算量
2) サブレイヤのチューニング性
SPRINTは冗長なサブレイヤを反復的にプーンし、残りのサブレイヤのパラメータを素早くチューニングする。
実験により、SPRINTは、既存のプルーニングアルゴリズムと比較して、ゼロショットのコモンセンス推論ベンチマークにおいて最大23.88%の精度で、最高の精度でトレードオフを達成していることが示された。
関連論文リスト
- ACE: Exploring Activation Cosine Similarity and Variance for Accurate and Calibration-Efficient LLM Pruning [15.933542902352604]
本研究では,高速刈り出し性能と高速刈り出し速度を同時に達成する効率的かつ効率的な刈り出し法を提案する。
実験結果から, 本手法は, パープレキシティの最大18%, プルーニング時間の最大63%低減を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-28T05:25:16Z) - ELDeR: Getting Efficient LLMs through Data-Driven Regularized Layer-wise Pruning [31.602645422158126]
大規模言語モデル (LLM) は、刈り取りに使用可能な空間性を示す。
我々は新しいパラダイムを提案し、まず規則化、次にプルーを適用する。
ELDeRは, 強層構造プルーニング法に比べ, 優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-23T12:40:59Z) - Maximum Redundancy Pruning: A Principle-Driven Layerwise Sparsity Allocation for LLMs [24.23702494859769]
大きな言語モデル(LLM)は印象的な機能を示しているが、その巨大なサイズは、現実世界のアプリケーションにデプロイする上で大きな課題をもたらしている。
最近の空間割当手法は、しばしば反復や探索に基づいており、それが最適以下の性能に繋がる。
我々は,最も冗長な層に浮かぶ反復的プルーニングアルゴリズムである冗長プルーニング(MRP)を提案する。
論文 参考訳(メタデータ) (2025-03-24T06:17:30Z) - Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - Speeding up Speculative Decoding via Approximate Verification [7.754712828900729]
投機的復号法 (SD) はLarge Language Models (LLM) を用いた高速推論手法である。
本稿では,SPRINTERを提案する。SPRINTERは,LLMから生成されたトークンが目標のLLMに受け入れられるかどうかを予測するために訓練された,低複雑さの検証器である。
本稿では,SPRINTERの理論解析を行い,生成したトークンの統計的特性と遅延の低減について検討する。
論文 参考訳(メタデータ) (2025-02-06T23:10:53Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers [21.91815582658188]
大規模言語モデルは、ほぼすべての自然言語処理タスクで前例のないパフォーマンスを実現している。
圧倒的な複雑さは、ユーザエクスペリエンスに悪影響を及ぼす高い推論遅延を引き起こします。
推定遅延を著しく低減するために並列に計算できる準独立層を同定することを提案する。
論文 参考訳(メタデータ) (2024-04-10T03:30:01Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。