論文の概要: Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression
- arxiv url: http://arxiv.org/abs/2407.04965v1
- Date: Sat, 6 Jul 2024 05:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:47:42.815029
- Title: Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression
- Title(参考訳): LLM圧縮の多次元安全性評価
- Authors: Zhichao Xu, Ashim Gupta, Tao Li, Oliver Bentham, Vivek Srikumar,
- Abstract要約: モデル圧縮が4次元に与える影響について検討する。1)縮退害、すなわち世代におけるバイアスと毒性、2)表現的害、すなわち差別的タスクにおけるバイアス、3)方言バイアス、4)言語モデリングと下流タスクのパフォーマンス。
我々は、構造化プルーニング、非半構造化プルーニング、量子化など、幅広い圧縮技術をカバーする。
- 参考スコア(独自算出の注目度): 33.45167213570976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in real-world scenarios with the help of recent model compression techniques. Such momentum towards local deployment means the use of compressed LLMs will widely impact a large population. However, prior analysis works often prioritize on preserving perplexity which is a direct analogy to training loss. The impact of compression method on other critical aspects of model behavior, particularly safety, still calls for a systematic assessment. To this end, we investigate the impact of model compression on four dimensions: 1) degeneration harm, i.e., bias and toxicity in generation; 2) representational harm, i.e., biases in discriminative tasks; 3) dialect bias; 4) language modeling and downstream task performance. We cover a wide spectrum of LLM compression techniques, including structured pruning, un/semi-structured ones, and quantization. Our analyses reveal that compression can lead to unexpected consequences. Although compression may unintentionally remedy LLMs' degeneration harm, it can still exacerbate on the representational harm axis. Moreover, there is a divergent impact on different protected groups as the compression rate grows. Finally, different compression methods have drastically different safety impacts, e.g., quantization mostly preserves bias while pruning degrades quickly. Our findings underscore the importance of integrating safety assessments into the development of compressed LLMs to ensure their reliability across real-world applications. Our full results are available here: \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近のモデル圧縮技術の助けを借りて、現実のシナリオにますます多くデプロイされている。
このような地域展開への勢いは、圧縮LDMの使用が人口に大きな影響を及ぼすことを意味する。
しかし、事前の分析は、しばしば、トレーニング損失の直接的な類似である難易度を保存することを優先する。
モデル行動の他の重要な側面、特に安全性に対する圧縮法の影響は、依然として体系的な評価を求めている。
この目的のために,モデル圧縮が4次元に与える影響について検討する。
1 変性害、すなわち、世代におけるバイアス及び毒性
2 表現的害、すなわち差別的タスクにおける偏見
3) 方言バイアス
4) 言語モデリングとダウンストリームタスクパフォーマンス。
我々は,構造化プルーニング,非半構造化プルーニング,量子化など,LLM圧縮手法の幅広い範囲をカバーする。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
圧縮は故意にLLMの変性障害を回復させるかもしれないが、それでも表現的調和軸を悪化させる可能性がある。
さらに, 圧縮速度が増大するにつれて, 異なる保護群に対して異なる影響が生じる。
最後に、異なる圧縮法は、例えば量子化は、急速に劣化しながらバイアスを保ちながら、大幅に異なる安全性への影響を持つ。
本研究は, 実世界のアプリケーションにまたがる信頼性を確保するため, 圧縮LDMの開発に安全性評価を統合することの重要性を浮き彫りにした。
結果は以下の通りである。 \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}
関連論文リスト
- Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
我々は,KVキャッシュ圧縮手法を,世界知識,コモンセンス推論,算術推論,コード生成,安全性,長文理解・生成など多種多様なタスクにわたって評価する。
解析の結果,KVキャッシュ圧縮手法はタスク固有の性能劣化を示すことがわかった。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを明確に扱う新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Holistic Adversarially Robust Pruning [15.760568867982903]
我々は、各層に固有のパラメータ(圧縮率)とどのパラメータ(装飾接続)を個別にプーンするかを最適化するグローバル圧縮戦略を学習する。
本手法は,異なる目的のバランスをとる段階的な漸進関数に従って,動的正則化を伴う既存モデルを微調整する。
学習した圧縮戦略により、トレーニング済みのモデルの自然な精度と、ネットワーク元のサイズの99%削減のための対角的ロバスト性を維持することができる。
論文 参考訳(メタデータ) (2024-12-19T10:25:21Z) - Robust and Transferable Backdoor Attacks Against Deep Image Compression With Selective Frequency Prior [118.92747171905727]
本稿では,学習画像の圧縮モデルに複数のトリガを付加したバックドアアタックを起動するための新しい周波数ベースのトリガインジェクションモデルを提案する。
1) 圧縮品質をビットレートと再現精度で劣化させる,2) 顔認識やセマンティックセグメンテーションといったタスク駆動型対策を目標とする,様々なシナリオに適した攻撃目標を設計する。
実験の結果, トリガーインジェクションモデルと, エンコーダパラメータの微調整を組み合わせることで, 複数のバックドアとトリガーを1つの圧縮モデルに注入することができた。
論文 参考訳(メタデータ) (2024-12-02T15:58:40Z) - Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search [33.86918407429272]
本稿では, 与えられた入力範囲において, 確実に最適である動的圧縮に対する新しい, 汎用的なアプローチを提案する。
これらの理論的保証は、Llama, Mistral, Phiモデルの動的圧縮に高い競争力を与えることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:46:37Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。