論文の概要: Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.01943v1
- Date: Fri, 3 May 2024 09:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 13:25:40.803022
- Title: Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるGLU変数の半構造空間依存性
- Authors: Zhiyu Guo, Hidetaka Kamigaito, Taro Wanatnabe,
- Abstract要約: Dependency-Aware Semi-structured Sparsity (DASS) は、最近普及しているSwiGLUベースの非教師なしプルーニングのための新しい手法である。
DaSSは、非構造化プルーニングによって提供される適応性と、依存性ベースの構造化プルーニングに固有の構造的一貫性との間のバランスを促進する。
Mistral と LLaMA2 モデルファミリの実証評価により,DaSS は SparseGPT と Wanda の両モデルでハードウェアフレンドリーな N:M スペーサ性パターンを実現している。
- 参考スコア(独自算出の注目度): 15.56145303022529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement in Large Language Models (LLMs) has markedly enhanced the capabilities of language understanding and generation. However, the substantial model size poses hardware challenges, affecting both memory size for serving and inference latency for token generation. To address those challenges, we propose Dependency-aware Semi-structured Sparsity (DaSS), a novel method for the recent prevalent SwiGLU-based LLMs pruning. Our approach incorporates structural dependency into the weight magnitude-based unstructured pruning. We introduce an MLP-specific pruning metric that evaluates the importance of each weight by jointly considering its magnitude and its corresponding MLP intermediate activation norms. DaSS facilitates a balance between the adaptability offered by unstructured pruning and the structural consistency inherent in dependency-based structured pruning. Empirical evaluations on Mistral and LLaMA2 model families demonstrate that DaSS not only outperforms both SparseGPT and Wanda in achieving hardware-friendly N:M sparsity patterns but also maintains the computational efficiency of Wanda.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、言語理解と生成の能力を著しく向上させた。
しかし、実質的なモデルサイズはハードウェア上の問題を引き起こし、サービスのためのメモリサイズとトークン生成のための推論レイテンシの両方に影響を及ぼす。
これらの課題に対処するために、最近普及しているSwiGLUベースのLCMの刈り出しのための新しい手法である、依存性を意識した半構造化スパシティ(DaSS)を提案する。
提案手法は, 構造的依存性を重量級数に基づく非構造的プルーニングに組み込む。
我々は,その大きさと対応するMPP中間活性化基準を共同で考慮し,各重みの重要性を評価するMPP固有のプルーニング指標を提案する。
DaSSは、非構造化プルーニングによって提供される適応性と、依存性ベースの構造化プルーニングに固有の構造的一貫性との間のバランスを促進する。
Mistral と LLaMA2 モデルファミリの実証評価では、DaSS は SparseGPT と Wanda のどちらよりもハードウェアフレンドリーな N:M のスパーシティパターンを実現しているだけでなく、Wanda の計算効率も向上している。
関連論文リスト
- Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models [62.98273649512654]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。
そこで本研究では,構造解析手法によって課される制約を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T18:51:18Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment [58.030196381554745]
大規模言語モデル (LLM) の刈り取りにおける重み付け重要度の評価を, 微粒化と粗粒化にマージする手法であるHybrid-fine Weight Importance Assessment (HyWIA) を導入する。
LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
論文 参考訳(メタデータ) (2024-03-16T04:12:50Z) - Quantized Embedding Vectors for Controllable Diffusion Language Models [1.3287140837287783]
Quantized Embedding Controllable Diffusion Language Modelは、言語モデルの制御性、移植性、推論速度を改善する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
論文 参考訳(メタデータ) (2024-02-15T17:02:48Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。