論文の概要: A Systematic Study of Compression Ordering for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.19495v1
- Date: Sun, 23 Nov 2025 12:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.042832
- Title: A Systematic Study of Compression Ordering for Large Language Models
- Title(参考訳): 大規模言語モデルの圧縮順序付けに関する体系的研究
- Authors: Shivansh Chhawri, Rahul Mahadik, Suparna Rooj,
- Abstract要約: 本研究では,Qwen2.5 3Bモデルに適用した場合の知識蒸留,構造化プルーニング,低ビット量子化の方法について系統的に検討する。
実験により、量子化は最大のスタンドアロン圧縮を提供する一方で、プルーニングは適度な品質劣化をもたらすことが示された。
- 参考スコア(独自算出の注目度): 0.5926203312586109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) require substantial computational resources, making model compression essential for efficient deployment in constrained environments. Among the dominant compression techniques: knowledge distillation, structured pruning, and low-bit quantization, their individual effects are well studied, but their interactions and optimal sequencing remain unclear. This work systematically examines how these techniques perform both independently and in combination when applied to the Qwen2.5 3B model. We evaluate multiple compression pipelines, including single, and proposed three-technique sequences, using perplexity, G-Eval, clarity, prompt alignment, and compression ratio as metrics. Our experiments show that quantization provides the greatest standalone compression, while pruning introduces moderate quality degradation. Critically, the ordering of techniques significantly affects the final model quality: the sequence Pruning, Knowledge Distillation, Quantization (P-KD-Q) yields the best balance, achieving a 3.68x compression ratio while preserving strong instruction-following and language understanding capabilities. Conversely, pipelines applying quantization early suffer severe performance degradation due to irreversible information loss that impairs subsequent training. Overall, this study offers practical insight into designing effective, ordering-aware compression pipelines for deploying LLMs in resource-limited settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は計算資源を必要とするため、制約のある環境での効率的なデプロイにはモデル圧縮が不可欠である。
知識蒸留、構造化プルーニング、低ビット量子化といった主要な圧縮技術のうち、個々の効果はよく研究されているが、それらの相互作用と最適なシークエンシングは未だ不明である。
本研究は,Qwen2.5 3Bモデルに適用した場合に,これらの手法が独立に,かつ組み合わせてどのように機能するかを系統的に検討する。
提案手法は, パープレキシティ, G-Eval, 明度, 即時アライメント, 圧縮比を指標として, 複数の圧縮パイプラインの評価を行った。
我々の実験では、量子化は最大のスタンドアロン圧縮を提供する一方、プルーニングは適度な品質劣化をもたらす。
シーケンシャル・プルーニング、知識蒸留、量子化(P-KD-Q)は、強い命令フォローと言語理解能力を保ちながら3.68倍の圧縮比を達成する。
逆に、量子化を適用したパイプラインは、その後のトレーニングに支障をきたす不可逆的な情報損失により、厳しい性能劣化を被る。
本研究は, LLMを資源制限された環境にデプロイする上で, 効果的で注文対応の圧縮パイプラインの設計に関する実践的な知見を提供する。
関連論文リスト
- Integrating Pruning with Quantization for Efficient Deep Neural Networks Compression [0.0]
プルーニングと量子化は、モデルのサイズを減らし、処理速度を向上させるために広く使われている圧縮技術である。
本稿では,類似性に基づくフィルタプルーニングとアダプティブ・パワー・オブ・ツー(APoT)量子化を統合し,高い圧縮効率を実現する2つの手法を提案する。
実験により,提案手法は精度の低下を最小限に抑え,効率的なモデル圧縮を実現することを示す。
論文 参考訳(メタデータ) (2025-09-04T14:17:28Z) - Semantic Retention and Extreme Compression in LLMs: Can We Have Both? [0.0]
LLM(Large Language Model)デプロイメントでは,効率的なモデル圧縮技術の必要性が高まっている。
我々は, プルーニングと量子化を戦略的に組み合わせることで, 高い性能・圧縮比が得られることを示す。
本稿では,モデル圧縮と意味保存のトレードオフを定量化する新しい指標であるセマンティック保持圧縮率(SrCr)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T07:23:19Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。
ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文 参考訳(メタデータ) (2023-05-29T21:32:15Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。