論文の概要: An exploration of the effect of quantisation on energy consumption and inference time of StarCoder2
- arxiv url: http://arxiv.org/abs/2411.12758v1
- Date: Fri, 15 Nov 2024 21:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:48.457756
- Title: An exploration of the effect of quantisation on energy consumption and inference time of StarCoder2
- Title(参考訳): StarCoder2のエネルギー消費と推定時間に及ぼす量子化の影響の探索
- Authors: Pepijn de Reus, Ana Oprescu, Jelle Zuidema,
- Abstract要約: 本研究では,Large Language Models (LLMs) 推論におけるエネルギー消費を削減するための量子化とプルーニング戦略について検討する。
我々は,低スループットとある程度の精度の損失により,量子化によるエネルギー需要の増加を観察する。
精度の低下を最小限に抑えて効率を向上させるため,ハードウェア最適化量子化に関する今後の研究を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study examines quantisation and pruning strategies to reduce energy consumption in code Large Language Models (LLMs) inference. Using StarCoder2, we observe increased energy demands with quantization due to lower throughput and some accuracy losses. Conversely, pruning reduces energy usage but impairs performance. The results highlight challenges and trade-offs in LLM model compression. We suggest future work on hardware-optimized quantization to enhance efficiency with minimal loss in accuracy.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) 推論におけるエネルギー消費を削減するための量子化とプルーニング戦略について検討する。
StarCoder2を用いて、スループットの低下と精度の低下による量子化に伴うエネルギー需要の増加を観察した。
逆に、プルーニングはエネルギー消費を減らすが、性能を損なう。
その結果,LLMモデル圧縮における課題とトレードオフが浮き彫りになった。
精度の低下を最小限に抑えて効率を向上させるため,ハードウェア最適化量子化に関する今後の研究を提案する。
関連論文リスト
- Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - Impact of ML Optimization Tactics on Greener Pre-Trained ML Models [46.78148962732881]
本研究の目的は,画像分類データセットと事前学習モデルの解析,最適化モデルと非最適化モデルを比較して推論効率を向上させること,最適化の経済的影響を評価することである。
画像分類におけるPyTorch最適化手法(動的量子化、トーチ・コンパイル、局所プルーニング、グローバルプルーニング)と42のHugging Faceモデルの影響を評価するための制御実験を行った。
動的量子化は推論時間とエネルギー消費の大幅な削減を示し、大規模システムに非常に適している。
論文 参考訳(メタデータ) (2024-09-19T16:23:03Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - What Makes Quantization for Large Language Models Hard? An Empirical
Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。
本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文 参考訳(メタデータ) (2024-03-11T03:42:51Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Enhancing Energy-Awareness in Deep Learning through Fine-Grained Energy
Measurement [11.37120215795946]
本稿では,詳細なディープラーニングエネルギー消費測定のためのフレームワークであるFECoM(Fine-fine Energy Consumption Meter)を紹介する。
FECoMは、静的計測を用いて、計算負荷安定性や温度など様々な要因を考慮し、エネルギー消費をきめ細かいレベルで測定する課題に対処する。
論文 参考訳(メタデータ) (2023-08-23T17:32:06Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。