論文の概要: Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression
- arxiv url: http://arxiv.org/abs/2407.04965v2
- Date: Wed, 10 Jul 2024 21:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 11:44:36.299565
- Title: Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression
- Title(参考訳): LLM圧縮の多次元安全性評価
- Authors: Zhichao Xu, Ashim Gupta, Tao Li, Oliver Bentham, Vivek Srikumar,
- Abstract要約: モデル圧縮が4次元に与える影響について検討する:(1)退化障害、すなわち、世代におけるバイアスと毒性、(2)表現障害、すなわち、識別的タスクにおけるバイアス、(3)方言バイアス、(4)言語モデリングと下流タスクのパフォーマンス。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 33.45167213570976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in real-world scenarios with the help of recent model compression techniques. Such momentum towards local deployment means the use of compressed LLMs will widely impact a large population. However, prior analysis works often prioritize on preserving perplexity which is a direct analogy to training loss. The impact of compression method on other critical aspects of model behavior, particularly safety, still calls for a systematic assessment. To this end, we investigate the impact of model compression on four dimensions: (1) degeneration harm, i.e., bias and toxicity in generation; (2) representational harm, i.e., biases in discriminative tasks; (3) dialect bias; (4) language modeling and downstream task performance. We cover a wide spectrum of LLM compression techniques, including unstructured pruning, semi-structured pruning and quantization. Our analysis reveals that compression can lead to unexpected consequences. Although compression may unintentionally remedy LLMs' degeneration harm, it can still exacerbate on the representational harm axis. Although compression may unintentionally remedy LLMs' degeneration harm, it can still exacerbate on the representational harm axis. Moreover, there is a divergent impact on different protected groups as the compression rate grows. Finally, different compression methods have drastically different safety impacts, e.g., quantization mostly preserves bias while pruning degrades quickly. Our findings underscore the importance of integrating safety assessments into the development of compressed LLMs to ensure their reliability across real-world applications. Our full results are available here: \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近のモデル圧縮技術の助けを借りて、現実のシナリオにますます多くデプロイされている。
このような地域展開への勢いは、圧縮LDMの使用が人口に大きな影響を及ぼすことを意味する。
しかし、事前の分析は、しばしば、トレーニング損失の直接的な類似である難易度を保存することを優先する。
モデル行動の他の重要な側面、特に安全性に対する圧縮法の影響は、依然として体系的な評価を求めている。
この目的のために, モデル圧縮が4次元に与える影響について検討する。(1) 退化障害,(2) 退化障害,(2) 識別的タスクにおけるバイアス, (3) 方言バイアス, (4) 言語モデル, 下流タスクパフォーマンス。
我々は,非構造化プルーニング,半構造化プルーニング,量子化など,LLM圧縮手法の幅広い範囲をカバーする。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
圧縮は故意にLLMの変性障害を回復させるかもしれないが、それでも表現的調和軸を悪化させる可能性がある。
圧縮は故意にLLMの変性障害を回復させるかもしれないが、それでも表現的調和軸を悪化させる可能性がある。
さらに, 圧縮速度が増大するにつれて, 異なる保護群に対して異なる影響が生じる。
最後に、異なる圧縮法は、例えば量子化は、急速に劣化しながらバイアスを保ちながら、大幅に異なる安全性への影響を持つ。
本研究は, 実世界のアプリケーションにまたがる信頼性を確保するため, 圧縮LDMの開発に安全性評価を統合することの重要性を浮き彫りにした。
結果は以下の通りである。 \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}
関連論文リスト
- Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search [33.86918407429272]
本稿では, 与えられた入力範囲において, 確実に最適である動的圧縮に対する新しい, 汎用的なアプローチを提案する。
これらの理論的保証は、Llama, Mistral, Phiモデルの動的圧縮に高い競争力を与えることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:46:37Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Safety and Performance, Why not Both? Bi-Objective Optimized Model
Compression toward AI Software Deployment [12.153709321048947]
ハイパフォーマンスを維持しながらモデルサイズを圧縮することを目的として、AIソフトウェア圧縮が重要な役割を果たす。
本稿では,安全性と性能の両立の観点から,安全なモデル圧縮問題に対処する。
具体的には、ソフトウェアエンジニアリングにおけるテスト駆動開発(TDD)パラダイムにヒントを得て、SafeCompressというテスト駆動スパーストレーニングフレームワークを提案します。
論文 参考訳(メタデータ) (2022-08-11T04:41:08Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Robustness and Transferability of Universal Attacks on Compressed Models [3.187381965457262]
エッジデバイスにDeep Neural Networks(DNN)を効率的にデプロイするには、プルーニングや量子化などのニューラルネットワーク圧縮方法が非常に効果的です。
特に、UAP(Universal Adversarial Perturbations)は、敵対的攻撃の強力なクラスである。
いくつかのシナリオでは、量子化は勾配マスキングを生じさせ、誤ったセキュリティ感覚を与える。
論文 参考訳(メタデータ) (2020-12-10T23:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。