論文の概要: Advancing Model Refinement: Muon-Optimized Distillation and Quantization for LLM Deployment
- arxiv url: http://arxiv.org/abs/2601.09865v1
- Date: Wed, 14 Jan 2026 20:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.895286
- Title: Advancing Model Refinement: Muon-Optimized Distillation and Quantization for LLM Deployment
- Title(参考訳): 改良型モデルリファインメント:LLM展開のためのミューオン最適化蒸留と量子化
- Authors: Jacob Sander, Brian Jalaian, Venkat R. Dasari,
- Abstract要約: 大規模言語モデル(LLM)は、高度な自然言語処理を可能にするが、リソース制約のあるエッジデバイス上でのデプロイメント上の課題に直面している。
本稿では,GPTQに基づく量子化,ローランク適応(LoRA),特殊データ蒸留プロセスを組み合わせた統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.0858059444801136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) enable advanced natural language processing but face deployment challenges on resource-constrained edge devices due to high computational, memory, and energy demands. Optimizing these models requires addressing three key challenges: acquiring task-specific data, fine-tuning for performance, and compressing models to accelerate inference while reducing resource demands. We propose an integrated framework combining GPTQ-based quantization, low-rank adaptation (LoRA), and a specialized data distillation process to significantly reduce model size and complexity while preserving or enhancing task-specific performance. By leveraging data distillation, knowledge distillation via Kullback-Leibler divergence, Bayesian hyperparameter optimization, and the Muon optimizer, our pipeline achieves up to 2x memory compression (e.g., reducing a 6GB model to 3GB) and enables efficient inference for specialized tasks. Empirical results demonstrate superior performance on standard LLM benchmarks compared to GPTQ quantization alone, with the Muon optimizer notably enhancing fine-tuned models' resistance to accuracy decay during quantization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度な自然言語処理を可能にするが、高い計算量、メモリ、エネルギー要求のため、リソース制限されたエッジデバイスへのデプロイメントの課題に直面している。
これらのモデルを最適化するには、タスク固有のデータを取得し、パフォーマンスを微調整し、リソース要求を減らしながら推論を加速するためにモデルを圧縮する、という3つの重要な課題に対処する必要がある。
本稿では,GPTQに基づく量子化,ローランク適応(LoRA),および特殊データ蒸留プロセスを組み合わせた統合フレームワークを提案する。
データ蒸留、Kulback-Leibler分散、Bayesian Hyperparameter Optimization、Muon Optimizationrによる知識蒸留を利用して、パイプラインは最大2倍のメモリ圧縮(例:6GBモデルを3GBに削減)を実現し、特殊タスクの効率的な推論を可能にする。
実験の結果,GPTQ量子化のみと比較して標準LLMベンチマークの方が優れた性能を示し,Muonオプティマイザは量子化中の精度劣化に対する微調整モデルの耐性を向上している。
関連論文リスト
- Dynamic Expert Quantization for Scalable Mixture-of-Experts Inference [2.649774320778185]
我々は、専門家の精度を第一級、動的に管理されるリソースとして扱うランタイムシステムDynaExqを提案する。
我々は,DynaExqが5090とA6000のGPU上で大きなLLMをデプロイし,静的な低精度ベースラインに対して最大4.03ポイントの精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-19T01:27:54Z) - 3D Gaussian Splatting Data Compression with Mixture of Priors [23.015728369640136]
3DGSデータ圧縮は、3Dシーンモデリングにおける効率的なストレージと伝送を実現するために重要である。
本稿では,これら2つの課題に対処する新たなMixture of Priors(MoP)戦略を提案する。
提案する3DGSデータ圧縮フレームワークは,複数のベンチマークにまたがって最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-06T08:42:39Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。
我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。
モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:14:01Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。