Fugu-MT 論文翻訳(概要): Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity

論文の概要: Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity

arxiv url: http://arxiv.org/abs/2310.05175v1
Date: Sun, 8 Oct 2023 14:22:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 11:56:04.648323
Title: Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity
Title（参考訳）: Outlier Weighed Layerwise Sparsity (OWL) : LLMを高スパシティに加工するための秘密の欠如
Authors: Lu Yin, You Wu, Zhenyu Zhang, Cheng-Yu Hsieh, Yaqing Wang, Yiling Jia, Mykola Pechenizkiy, Yi Liang, Zhangyang Wang, Shiwei Liu
Abstract要約: 本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法を提案する。提案手法は,最先端の Wanda と SparseGPT を 61.22 と 6.80 のパープレキシティで70% に上回り,優れた性能向上を示した。
参考スコア（独自算出の注目度）: 81.61101014156924
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs), renowned for their remarkable performance, present a challenge due to their colossal model size when it comes to practical deployment. In response to this challenge, efforts have been directed toward the application of traditional network pruning techniques to LLMs, uncovering a massive number of parameters can be pruned in one-shot without hurting performance. Building upon insights gained from pre-LLM models, prevailing LLM pruning strategies have consistently adhered to the practice of uniformly pruning all layers at equivalent sparsity. However, this observation stands in contrast to the prevailing trends observed in the field of vision models, where non-uniform layerwise sparsity typically yields substantially improved results. To elucidate the underlying reasons for this disparity, we conduct a comprehensive analysis of the distribution of token features within LLMs. In doing so, we discover a strong correlation with the emergence of outliers, defined as features exhibiting significantly greater magnitudes compared to their counterparts in feature dimensions. Inspired by this finding, we introduce a novel LLM pruning methodology that incorporates a tailored set of non-uniform layerwise sparsity ratios specifically designed for LLM pruning, termed as Outlier Weighed Layerwise sparsity (OWL). The sparsity ratio of OWL is directly proportional to the outlier ratio observed within each layer, facilitating a more effective alignment between layerwise weight sparsity and outlier ratios. Our empirical evaluation, conducted across the LLaMA-V1 family and OPT, spanning various benchmarks, demonstrates the distinct advantages offered by OWL over previous methods. For instance, our approach exhibits a remarkable performance gain, surpassing the state-of-the-art Wanda and SparseGPT by 61.22 and 6.80 perplexity at a high sparsity level of 70%, respectively.
Abstract（参考訳）: 大きな言語モデル(LLM)は、その顕著なパフォーマンスで有名ですが、実際のデプロイメントに関しては、その余計なモデルサイズのため、課題があります。この課題に対応するため、従来のネットワークプルーニング手法をLCMに適用する取り組みが進められており、大量のパラメータを1ショットでプルーニングすることができ、性能を損なわない。 LLM 以前のモデルから得られた知見に基づいて、LLM プルーニング戦略は、同等の間隔で全ての層を均一にプルーニングするプラクティスに一貫して従っている。しかし、この観察は、非一様層状空間が典型的に顕著に改善された結果をもたらす視覚モデルにおける一般的な傾向とは対照的である。この相違の原因を明らかにするため, LLMにおけるトークンの特徴分布の包括的解析を行った。その結果,外乱の出現と強い相関関係がみられ,特徴次元における外乱の出現は特徴量に比べて著しく大きいことが判明した。この発見に触発されて,llmプルーニング用に特別に設計された不均一な層別スパルジ率のセットを組み込んだ新しいllmプルーニング手法を,outlier weighted layerwise sparsity (owl) として紹介する。 OWLの疎度比は各層で観測される外層比と直接比例し, 層間重量の疎度と外層比とのより効果的な整合を容易にする。 LLaMA-V1ファミリーにまたがって実施した経験的評価と,様々なベンチマークにまたがるOPTは,OWLが従来手法よりも優れていることを示す。例えば、我々の手法は、最先端のWandaとSparseGPTをそれぞれ61.22倍、6.80パープレキシティを70%高頻度で上回り、顕著な性能向上を示した。

関連論文リスト

IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。 IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文参考訳（メタデータ） (2025-07-16T06:39:11Z)
DLP: Dynamic Layerwise Pruning in Large Language Models [20.810186827378434]
プルーニングはパラメータスケールの削減とLarge Language Models(LLM)の推論効率の向上のために広く採用されている。動的レイヤワイズ・プルーニング(DLP)と呼ばれる新しい手法を提案する。モデル重みと入力アクティベーション情報を統合することで各層の相対的重要性を適応的に決定し,それに応じてプルーニング率を割り当てる。
論文参考訳（メタデータ） (2025-05-27T07:35:00Z)
Efficient Shapley Value-based Non-Uniform Pruning of Large Language Models [43.4962029013024]
大規模言語モデル(LLM)のプルーニングは、性能を保ちながら、モデルのサイズと計算の複雑さを減らすための有望なソリューションである。 LLMのためのShapley Value-based Non-Uniform Pruning (SV-NUP)法を提案する。このアプローチは,各トランス層がモデル全体の性能に与える影響を定量的に評価し,各層に最適化されたプルーニング予算を割り当てることで,臨界パラメータを維持できる。
論文参考訳（メタデータ） (2025-05-03T07:57:02Z)
Maximum Redundancy Pruning: A Principle-Driven Layerwise Sparsity Allocation for LLMs [24.23702494859769]
大きな言語モデル(LLM)は印象的な機能を示しているが、その巨大なサイズは、現実世界のアプリケーションにデプロイする上で大きな課題をもたらしている。最近の空間割当手法は、しばしば反復や探索に基づいており、それが最適以下の性能に繋がる。我々は,最も冗長な層に浮かぶ反復的プルーニングアルゴリズムである冗長プルーニング(MRP)を提案する。
論文参考訳（メタデータ） (2025-03-24T06:17:30Z)
Efficient Jailbreaking of Large Models by Freeze Training: Lower Layers Exhibit Greater Sensitivity to Harmful Content [11.626522946410596]
本研究では,大規模言語モデルのパラメータのサンプリングと正規化を行い,パラメータ分布の視覚表現とヒートマップを生成する。このことから,我々は,下層層のみにSupervised Fine-Tuningを選択的に行うフリーズトレーニング戦略を採用した。実験により、この手法は、高いジェイルブレイク成功率と高いハーネススコアを維持しながら、トレーニング時間とGPUメモリ消費を著しく低減することを示した。
論文参考訳（メタデータ） (2025-02-28T11:07:41Z)
Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文参考訳（メタデータ） (2025-02-20T17:51:10Z)
MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。 Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文参考訳（メタデータ） (2024-11-01T20:37:58Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Can LLMs predict the convergence of Stochastic Gradient Descent? [5.206475868803433]
大規模なランダム化モデルは、様々なタスクにまたがる優れたパフォーマンスで有名です。このような驚くべきパフォーマンスの1つの驚くべき例は、マルコフシステムの原則を満たす、最近特定されたタスクである。
論文参考訳（メタデータ） (2024-08-03T10:35:59Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
大規模言語モデル(LLM)は大規模トレーニングにおいて重要な障害となっている。ローランド適応(LoRA)はこの問題を軽減するために提案されている。微調整作業におけるLoRAの層状特性について検討し、予期せぬが一貫した重みノルムの歪さを観察する。私たちはLayerwise Importance Sampled AdamW (LISA)と名付けた。
論文参考訳（メタデータ） (2024-03-26T17:55:02Z)
Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment [58.030196381554745]
大規模言語モデル (LLM) の刈り取りにおける重み付け重要度の評価を, 微粒化と粗粒化にマージする手法であるHybrid-fine Weight Importance Assessment (HyWIA) を導入する。 LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
論文参考訳（メタデータ） (2024-03-16T04:12:50Z)
Why Lift so Heavy? Slimming Large Language Models by Cutting Off the Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文参考訳（メタデータ） (2024-02-18T20:47:10Z)
PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。 8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文参考訳（メタデータ） (2024-01-20T20:25:17Z)
ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。 LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文参考訳（メタデータ） (2023-10-04T17:34:00Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。