論文の概要: UniComp: A Unified Evaluation of Large Language Model Compression via Pruning, Quantization and Distillation
- arxiv url: http://arxiv.org/abs/2602.09130v1
- Date: Mon, 09 Feb 2026 19:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.217083
- Title: UniComp: A Unified Evaluation of Large Language Model Compression via Pruning, Quantization and Distillation
- Title(参考訳): UniComp: プルーニング, 量子化, 蒸留による大規模言語モデル圧縮の統一評価
- Authors: Jonathan von Rad, Yong Cao, Andreas Geiger,
- Abstract要約: プルーニング,量子化,知識蒸留を比較するための統合評価フレームワークUniCompを紹介する。
UniCompは、圧縮されたモデルを3次元(性能、信頼性、効率)で評価する。
- 参考スコア(独自算出の注目度): 23.560232846931456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model compression is increasingly essential for deploying large language models (LLMs), yet existing evaluations are limited in method coverage and focus primarily on knowledge-centric benchmarks. Thus, we introduce UniComp, a unified evaluation framework for comparing pruning, quantization, and knowledge distillation. UniComp evaluates compressed models along three dimensions: performance, reliability, and efficiency, using a diverse set of capability- and safety-oriented benchmarks together with a hardware-aware efficiency analysis. Through extensive evaluation of six compression techniques on modern LLMs across more than 40 datasets, we find that (i) compression exhibits a consistent knowledge bias, where knowledge-intensive tasks are relatively preserved while reasoning, multilingual, and instruction-following capabilities degrade substantially; (ii) quantization provides the best overall trade-off between retained performance and efficiency, whereas distillation yields strong runtime acceleration gains at high computational cost; and (iii) task-specific calibration can significantly improve the reasoning ability of pruned models by up to 50%.
- Abstract(参考訳): モデル圧縮は、大規模言語モデル(LLM)のデプロイにはますます不可欠であるが、既存の評価はメソッドカバレッジに限られており、主に知識中心のベンチマークに焦点を当てている。
そこで我々は、プルーニング、量子化、知識蒸留を比較する統一評価フレームワークUniCompを紹介した。
UniCompは、性能、信頼性、効率の3つの側面に沿って圧縮されたモデルを評価する。
40以上のデータセットにまたがる近代LLMにおける6つの圧縮手法の広範囲な評価を通して、我々はそれを発見した。
二 圧縮は、知識集約的なタスクを推論、多言語、指示追従能力が著しく低下しながら比較的保存する一貫した知識バイアスを示す。
(II)量子化は維持性能と効率の最良のトレードオフを提供する一方、蒸留は高い計算コストで強い実行時加速ゲインをもたらす。
(iii)タスク固有のキャリブレーションは、プルーニングモデルの推論能力を最大50%向上させることができる。
関連論文リスト
- Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - A Systematic Study of Compression Ordering for Large Language Models [0.5926203312586109]
本研究では,Qwen2.5 3Bモデルに適用した場合の知識蒸留,構造化プルーニング,低ビット量子化の方法について系統的に検討する。
実験により、量子化は最大のスタンドアロン圧縮を提供する一方で、プルーニングは適度な品質劣化をもたらすことが示された。
論文 参考訳(メタデータ) (2025-11-23T12:46:56Z) - Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression [53.39128997308138]
テキスト圧縮性能に基づくモデル効率の指標である情報容量を導入する。
主流のオープンソースモデルに対する実証的な評価は、シリーズ内のさまざまなサイズのモデルが一貫した情報容量を示すことを示している。
情報容量の特徴的な特徴は、入力と出力の両方のトークン数に影響を与えるトークン化効率が組み込まれていることである。
論文 参考訳(メタデータ) (2025-11-11T10:07:32Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。