論文の概要: Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.01943v3
- Date: Sun, 20 Oct 2024 12:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 17:02:27.960410
- Title: Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるGLU変数の半構造空間依存性
- Authors: Zhiyu Guo, Hidetaka Kamigaito, Taro Wanatnabe,
- Abstract要約: 大規模言語モデルに対する依存性を意識した半構造化スパシティ(DaSS)を提案する。
DaSSは構造依存をマグニチュードベースのプルーニングに組み込む。
LLaMA2, Mistral, Gemmaモデルファミリーの実証評価では、DaSSはSparseGPTとWandaの両方でハードウェアフレンドリーなN:Mスペーサティパターンを実現している。
- 参考スコア(独自算出の注目度): 15.56145303022529
- License:
- Abstract: The rapid advancement in Large Language Models (LLMs) has markedly enhanced the capabilities of language understanding and generation. However, the substantial model size poses hardware challenges, affecting both memory size for serving and inference latency for token generation. To address those challenges, we propose Dependency-aware Semi-structured Sparsity (DaSS), a novel method for the recent prevalent GLU-based LLMs pruning, which incorporates structural dependency into the weight magnitude-based unstructured pruning. We introduce an MLP-specific pruning metric that evaluates the importance of each weight by jointly considering its magnitude and its corresponding MLP intermediate activation norms. DaSS facilitates a balance between the adaptability offered by unstructured pruning and the structural consistency inherent in dependency-based structured pruning. Empirical evaluations on LLaMA2, Mistral, and Gemma model families demonstrate that DaSS not only outperforms both SparseGPT and Wanda in achieving hardware-friendly N:M sparsity patterns but also maintains the computational efficiency of Wanda.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、言語理解と生成の能力を著しく向上させた。
しかし、実質的なモデルサイズはハードウェア上の問題を引き起こし、サービスのためのメモリサイズとトークン生成のための推論レイテンシの両方に影響を及ぼす。
これらの課題に対処するため,本研究では,最近普及しているGLUベースのLCMの刈り取り法であるDASS(Dependency-aware Semi-structured Sparsity)を提案する。
我々は,その大きさと対応するMPP中間活性化基準を共同で考慮し,各重みの重要性を評価するMPP固有のプルーニング指標を提案する。
DaSSは、非構造化プルーニングによって提供される適応性と、依存性ベースの構造化プルーニングに固有の構造的一貫性との間のバランスを促進する。
LLaMA2, Mistral, Gemmaモデルファミリーに対する実証的な評価は、DaSSがハードウェアフレンドリーなN:M空間パターンを実現する上で、SparseGPTとWandaよりも優れているだけでなく、Wandaの計算効率も維持していることを示している。
関連論文リスト
- Large Language Models as Reliable Knowledge Bases? [60.25969380388974]
大きな言語モデル(LLM)は潜在的な知識ベース(KB)と見なすことができる。
本研究は、信頼性の高いLLM-as-KBが満たすべき基準を定義し、事実性と一貫性に焦点をあてる。
ICLや微調整のような戦略は、LLMをより良くKBにするには失敗している。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - LLMs Instruct LLMs:An Extraction and Editing Method [12.017822691367705]
複雑な文脈からの知識を大規模言語モデル(LLM)に組み込む逐次融合法を提案する。
提案手法では,質問応答の精度は71.69%であった。
論文 参考訳(メタデータ) (2024-03-23T06:03:36Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Metric-aware LLM inference for regression and scoring [52.764328080398805]
大規模言語モデル(LLM)は、様々なNLPタスクに対して強い結果を示してきた。
我々は,この推論戦略が,様々な回帰・スコアリングタスクや関連する評価指標に最適であることを示す。
我々は、カスタム回帰を最適化し、推定時にメトリクスをスコアリングする決定論的アプローチである、意識的距離 LLM 推論を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Compresso: Structured Pruning with Collaborative Prompting Learns
Compact Large Language Models [15.471290825100075]
我々はCompressoと呼ばれる大規模言語モデルを構築するための新しいパラダイムを導入する。
提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。
実験では、Compressoは様々な空間比でワンショットプルーニングベースラインを著しく上回り、それぞれ2.21%、11.43%、7.04%、および4.81%のスコアをコモンセンス推論、読解理解、MMLU、BBHベンチマークで達成している。
論文 参考訳(メタデータ) (2023-10-08T05:16:28Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。