論文の概要: Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.01943v3
- Date: Sun, 20 Oct 2024 12:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 17:02:27.960410
- Title: Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるGLU変数の半構造空間依存性
- Authors: Zhiyu Guo, Hidetaka Kamigaito, Taro Wanatnabe,
- Abstract要約: 大規模言語モデルに対する依存性を意識した半構造化スパシティ(DaSS)を提案する。
DaSSは構造依存をマグニチュードベースのプルーニングに組み込む。
LLaMA2, Mistral, Gemmaモデルファミリーの実証評価では、DaSSはSparseGPTとWandaの両方でハードウェアフレンドリーなN:Mスペーサティパターンを実現している。
- 参考スコア(独自算出の注目度): 15.56145303022529
- License:
- Abstract: The rapid advancement in Large Language Models (LLMs) has markedly enhanced the capabilities of language understanding and generation. However, the substantial model size poses hardware challenges, affecting both memory size for serving and inference latency for token generation. To address those challenges, we propose Dependency-aware Semi-structured Sparsity (DaSS), a novel method for the recent prevalent GLU-based LLMs pruning, which incorporates structural dependency into the weight magnitude-based unstructured pruning. We introduce an MLP-specific pruning metric that evaluates the importance of each weight by jointly considering its magnitude and its corresponding MLP intermediate activation norms. DaSS facilitates a balance between the adaptability offered by unstructured pruning and the structural consistency inherent in dependency-based structured pruning. Empirical evaluations on LLaMA2, Mistral, and Gemma model families demonstrate that DaSS not only outperforms both SparseGPT and Wanda in achieving hardware-friendly N:M sparsity patterns but also maintains the computational efficiency of Wanda.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、言語理解と生成の能力を著しく向上させた。
しかし、実質的なモデルサイズはハードウェア上の問題を引き起こし、サービスのためのメモリサイズとトークン生成のための推論レイテンシの両方に影響を及ぼす。
これらの課題に対処するため,本研究では,最近普及しているGLUベースのLCMの刈り取り法であるDASS(Dependency-aware Semi-structured Sparsity)を提案する。
我々は,その大きさと対応するMPP中間活性化基準を共同で考慮し,各重みの重要性を評価するMPP固有のプルーニング指標を提案する。
DaSSは、非構造化プルーニングによって提供される適応性と、依存性ベースの構造化プルーニングに固有の構造的一貫性との間のバランスを促進する。
LLaMA2, Mistral, Gemmaモデルファミリーに対する実証的な評価は、DaSSがハードウェアフレンドリーなN:M空間パターンを実現する上で、SparseGPTとWandaよりも優れているだけでなく、Wandaの計算効率も維持していることを示している。
関連論文リスト
- Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement [62.87020831987625]
本稿では,長距離依存関係に富む影響力のある,高品質なサンプルを識別する新しいフレームワークを提案する。
我々は、長距離依存を効果的にフレーム化するために、影響力のあるデータとして最も難しいサンプルを選択する。
実験により, GATEAUは長距離依存関係に富んだサンプルを効果的に同定し, これらのサンプルに基づいて訓練したモデルにより, より優れた指示追従と長文理解能力を示すことが示された。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models [62.98273649512654]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。
そこで本研究では,構造解析手法によって課される制約を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T18:51:18Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - CMamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting [18.50360049235537]
ステートスペースモデルであるMambaは、堅牢なシーケンスと機能ミキシング機能を備えている。
チャネル間の依存関係のキャプチャは、時系列予測のパフォーマンス向上に不可欠である。
時系列予測に適した改良されたマンバ変種を導入する。
論文 参考訳(メタデータ) (2024-06-08T01:32:44Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Quantized Embedding Vectors for Controllable Diffusion Language Models [1.3287140837287783]
Quantized Embedding Controllable Diffusion Language Modelは、言語モデルの制御性、移植性、推論速度を改善する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
論文 参考訳(メタデータ) (2024-02-15T17:02:48Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。