論文の概要: Does Compression Preserve Uncertainty? A Unified Benchmark for Quantized and Sparse LLMs via Conformal Prediction
- arxiv url: http://arxiv.org/abs/2606.01850v1
- Date: Mon, 01 Jun 2026 08:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.592322
- Title: Does Compression Preserve Uncertainty? A Unified Benchmark for Quantized and Sparse LLMs via Conformal Prediction
- Title(参考訳): 圧縮は不確かさを保存するか? コンフォーマル予測による量子化とスパースLDMの統一ベンチマーク
- Authors: Yujia Tong, Yuxi Wang, Yunyang Wan, Tian Zhang, Junhao Dong, Jingling Yuan,
- Abstract要約: 5つのNLPタスクにまたがる様々な圧縮構成の下で、12の大規模言語モデル(LLM)をベンチマークする。
実験の結果, (I) 圧縮は精度を不確実性から分離することが多く, (II) より大きなモデルでは圧縮誘起不確実性をより効果的に吸収し, (III) 不確実性インフレーションは段階的にではなくしきい値に近いことが多いことがわかった。
- 参考スコア(独自算出の注目度): 21.411353047208777
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model compression techniques such as quantization and pruning are widely used to reduce the deployment cost of large language models (LLMs), with existing evaluations focusing almost exclusively on accuracy preservation. However, in safety-critical applications, a model's ability to reliably quantify its own uncertainty is equally important. We ask: does compression preserve this ability? To answer this question, we benchmark 12 LLMs under various compression configurations across five NLP tasks, using conformal prediction to provide a rigorous, distribution-free measure of uncertainty. Our experiments reveal that: (I) compression frequently decouples accuracy from uncertainty; (II) larger models absorb compression-induced uncertainty far more effectively than smaller ones; and (III) uncertainty inflation is often threshold-like rather than gradual. These results suggest that accuracy-only evaluation is insufficient for assessing the deployment readiness of compressed LLMs, and that uncertainty-aware benchmarking should be a standard component of model compression pipelines.
- Abstract(参考訳): 量子化やプルーニングなどのモデル圧縮技術は,大規模言語モデル(LLM)の展開コスト削減に広く用いられている。
しかし、安全クリティカルなアプリケーションでは、モデルが自身の不確実性を確実に定量化する能力は同様に重要である。
圧縮はこの能力を保っていますか?
そこで本研究では,5つのNLPタスクにまたがる圧縮構成の異なる12個のLCMを,共形予測を用いて,厳密で分布のない不確かさの指標として評価する。
実験の結果, (I) 圧縮は精度を不確実性から分離することが多く, (II) より大きなモデルでは圧縮誘起不確実性をより効果的に吸収し, (III) 不確実性インフレーションは段階的にではなくしきい値に近いことが多いことがわかった。
これらの結果から, 圧縮LDMの展開準備性評価には精度のみの評価が不十分であり, 不確実性を考慮したベンチマークがモデル圧縮パイプラインの標準コンポーネントであることが示唆された。
関連論文リスト
- Statistically-Lossless Quantization of Large Language Models [41.38595517076645]
本稿では、量子化LDMにおけるロスレスの3つの相補的な概念を通して、統計的にロスレス圧縮の中間点について検討する。
第一に、タスクロスレス圧縮は、自然サンプリングのばらつきの中でゼロショットベンチマークの精度を保ち、攻撃的なビット幅で達成可能である。
第二に、分散ロスレス圧縮というより厳密な概念を定式化し、量子化モデルの次トーケン分布を、原点と事実上区別できないものにすることを要求する。
第三に、対称量子化が非対称量子化に対するガンマ二乗によるノイズ分散を膨らませることを示すガンマ二乗分散法則を証明する。
論文 参考訳(メタデータ) (2026-05-04T09:46:47Z) - Shorter, but Still Trustworthy? An Empirical Study of Chain-of-Thought Compression [19.669117846064562]
ロングチェーン・オブ・ソート推論モデル(Long-CoT)は、推論コストを減らすために推論トレースを圧縮する取り組みの活発化を動機付けている。
我々は,CoT圧縮がモデル信頼性に与える影響について,最初の系統的研究を行った。
CoT圧縮は信頼度レグレッションを頻繁に導入し、異なる手法が寸法によって著しく異なる劣化プロファイルを示すことがわかった。
論文 参考訳(メタデータ) (2026-04-05T13:43:12Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models [69.84867664371826]
視覚トークン圧縮はLVLM(Large Vision-Language Models)のロバスト性を大幅に低下させることを示す。
小さくて知覚不能な摂動はトークンの重要度を著しく変更し、圧縮機構が誤ってタスククリティカル情報を破棄する。
我々は,この脆弱性を体系的に研究し,活用するための圧縮認識攻撃を提案する。
論文 参考訳(メタデータ) (2026-01-17T13:02:41Z) - Enhancing Trustworthiness with Mixed Precision: Benchmarks, Opportunities, and Challenges [12.438306093697]
大規模言語モデル(LLM)は、様々なタスクで有望なパフォーマンスを示している。
LLMの自己回帰デコーディングプロセスは、既存のAIハードウェアへの効率的なデプロイに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-11-27T14:17:43Z) - Adaptive Individual Uncertainty under Out-Of-Distribution Shift with Expert-Routed Conformal Prediction [8.306260695214972]
信頼度の高い適応区間(TESSERA)のスケールド推定を用いた信頼度エキスパートスプリット・コンフォーマルを導入する。
TESSERAは、絶対誤差を追跡する信頼性の高いカバレッジ保証、情報的かつ適応的な予測間隔幅を備えたサンプル単位の不確実性を提供する。
タンパク質-リガンド結合親和性予測は, 独立および同一分布 (d.d.) と足場ベースアウト・オブ・ディストリビューション (OOD) の双方で評価した。
論文 参考訳(メタデータ) (2025-10-17T01:51:33Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression [109.23761449840222]
本研究は,Large Language Models (LLM) の最初の完全評価を行う。
量子化は現在、効率性と信頼性を同時に達成する上で、プルーニングよりも効果的なアプローチであることが分かっています。
論文 参考訳(メタデータ) (2024-03-18T01:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。