Fugu-MT 論文翻訳(概要): QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models

論文の概要: QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models

arxiv url: http://arxiv.org/abs/2412.11629v1
Date: Mon, 16 Dec 2024 10:14:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.30837
Title: QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models
Title（参考訳）: QPruner: 大規模言語モデルにおける構造化プルーニングのための確率論的決定量子化
Authors: Changhai Zhou, Yuhua Zhou, Shijie Han, Qian Qiao, Hongguang Li,
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
参考スコア（独自算出の注目度）: 3.093903491123962
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rise of large language models (LLMs) has significantly advanced various natural language processing (NLP) tasks. However, the resource demands of these models pose substantial challenges. Structured pruning is an effective approach to reducing model size, but it often results in significant accuracy degradation, necessitating parameter updates to adapt. Unfortunately, such fine-tuning requires substantial memory, which limits its applicability. To address these challenges, we introduce quantization into the structured pruning framework to reduce memory consumption during both fine-tuning and inference. However, the combined errors from pruning and quantization increase the difficulty of fine-tuning, requiring a more refined quantization scheme. To this end, we propose QPruner, a novel framework that employs structured pruning to reduce model size, followed by a layer-wise mixed-precision quantization scheme. Quantization precisions are assigned to each layer based on their importance to the target task, and Bayesian optimization is employed to refine precision allocation strategies, ensuring a balance between model accuracy and memory efficiency. Extensive experiments on benchmark datasets demonstrate that QPruner significantly outperforms existing methods in memory savings while maintaining or improving model performance.
Abstract（参考訳）: 大規模言語モデル(LLM)の台頭は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。しかし、これらのモデルのリソース要求は重大な課題を引き起こす。構造的プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させ、パラメータの更新を適応させる必要がある。残念ながら、このような微調整はかなりのメモリを必要とするため、適用性が制限される。これらの課題に対処するため、構造化プルーニングフレームワークに量子化を導入し、微調整と推論の両方でメモリ消費を削減する。しかし、プルーニングと量子化の併用による誤差は微調整の難しさを増し、より洗練された量子化スキームを必要とする。そこで本研究では,モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。量子化精度は、目的のタスクに対する重要性に基づいて各レイヤに割り当てられ、ベイジアン最適化は精度割当戦略を洗練させ、モデルの精度とメモリ効率のバランスを確保するために使用される。ベンチマークデータセットに関する大規模な実験により、QPrunerは、モデルパフォーマンスを維持したり改善したりしながら、メモリ節約における既存のメソッドを大幅に上回っていることが示されている。

関連論文リスト

ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。 ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文参考訳（メタデータ） (2026-01-29T18:35:01Z)
Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。 PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文参考訳（メタデータ） (2025-08-27T15:59:36Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
QPART: Adaptive Model Quantization and Dynamic Workload Balancing for Accuracy-aware Edge Inference [10.55165549089585]
要求固有のモデルによる推論パターンをデバイスの計算能力に合わせて計画することは、多様なシナリオに対してよりコスト効率が高く、堅牢である、と我々は主張する。本稿では,共同モデル量子化と推論分割を統合した,精度の高いワークロードバランス推論システムを提案する。シミュレーションの結果、全体の時間と消費電力が大幅に減少し、ペイロードは80%以上減少し、精度は1%以下に抑えられた。
論文参考訳（メタデータ） (2025-06-30T15:03:35Z)
Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文参考訳（メタデータ） (2025-03-31T10:16:03Z)
Sample-aware Adaptive Structured Pruning for Large Language Models [14.605017410864583]
本研究では,大規模言語モデル(LLM)のためのサンプル対応型構造化プルーニングフレームワークであるAdaPrunerを紹介する。特に、AdaPrunerは構造化プルーニング解空間を構築して、LLMから冗長パラメータを効果的に除去する。 20%のプルーニング比で、AdaPrunerでプルーニングされたモデルは、未プルーニングモデルのパフォーマンスの97%を維持している。
論文参考訳（メタデータ） (2025-03-08T12:00:21Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
Post-Training Non-Uniform Quantization for Convolutional Neural Networks [0.0]
量子化は、大規模なストレージ要件を緩和し、推論プロセスを高速化する技術である。本稿では,モデル重みに対する学習後の量子化手法を提案する。提案手法は,量子化ノイズを最小限に抑える数学的保証とともに,最適クリッピングしきい値とスケーリング係数を求める。
論文参考訳（メタデータ） (2024-12-10T10:33:58Z)
Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文参考訳（メタデータ） (2024-10-10T17:02:48Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。 3つの戦略を含む新しい量子化フレームワークを導入する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文参考訳（メタデータ） (2024-07-28T17:46:15Z)
ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。様々なビット幅にわたって優れた微調整結果が得られる。
論文参考訳（メタデータ） (2024-02-07T09:36:54Z)
Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文参考訳（メタデータ） (2023-06-08T02:18:58Z)
AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文参考訳（メタデータ） (2022-05-30T21:23:22Z)
Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-30T06:32:47Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。