論文の概要: Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression
- arxiv url: http://arxiv.org/abs/2407.04965v3
- Date: Fri, 11 Oct 2024 22:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 23:35:45.162860
- Title: Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression
- Title(参考訳): LLM圧縮の多次元安全性評価
- Authors: Zhichao Xu, Ashim Gupta, Tao Li, Oliver Bentham, Vivek Srikumar,
- Abstract要約: モデル圧縮が4次元に与える影響について検討する:(1)退化障害、すなわち、世代におけるバイアスと毒性、(2)表現障害、すなわち、識別的タスクにおけるバイアス、(3)方言バイアス、(4)言語モデリングと下流タスクのパフォーマンス。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 33.45167213570976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increasingly, model compression techniques enable large language models (LLMs) to be deployed in real-world applications. As a result of this momentum towards local deployment, compressed LLMs will interact with a large population. Prior work on compression typically prioritize preserving perplexity, which is directly analogous to training loss. The impact of compression method on other critical aspects of model behavior\, -- \,particularly safety\, -- \,requires systematic assessment. To this end, we investigate the impact of model compression along four dimensions: (1) degeneration harm, i.e., bias and toxicity in generation; (2) representational harm, i.e., biases in discriminative tasks; (3) dialect bias; and(4) language modeling and downstream task performance. We examine a wide spectrum of LLM compression techniques, including unstructured pruning, semi-structured pruning, and quantization. Our analysis reveals that compression can lead to unexpected consequences. Although compression may unintentionally alleviate LLMs' degeneration harm, it can still exacerbate representational harm. Furthermore, increasing compression produces a divergent impact on different protected groups. Finally, different compression methods have drastically different safety impacts: for example, quantization mostly preserves bias while pruning degrades quickly. Our findings underscore the importance of integrating safety assessments into the development of compressed LLMs to ensure their reliability across real-world applications.\footnote{Our implementation and results are available here: \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}}
- Abstract(参考訳): モデル圧縮技術により、大規模言語モデル(LLM)を現実世界のアプリケーションにデプロイすることが可能になる。
局所的な展開に向けてのこの勢いの結果として、圧縮LDMは人口と相互作用する。
圧縮に関する以前の研究は、典型的には、トレーニング損失と直接的に類似したパープレキシティの保存を優先する。
圧縮法がモデル行動の他の重要な側面へ与える影響-----------------は体系的評価を必要とする。
そこで本研究では,(1)退化障害,すなわち世代におけるバイアスと毒性,(2)識別的タスクにおけるバイアス,(3)方言バイアス,(4)言語モデリングと下流タスクパフォーマンスの4つの側面によるモデル圧縮の影響について検討する。
本研究では,非構造化プルーニング,半構造化プルーニング,量子化など,LLM圧縮手法の幅広いスペクトルについて検討する。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
圧縮は故意にLLMの変性障害を緩和するかもしれないが、それでも表現障害を悪化させる可能性がある。
さらに、圧縮の増加は、異なる保護されたグループに異なる影響をもたらす。
最後に、異なる圧縮法は、例えば、量子化はバイアスをほとんど保ち、プルーニングは急速に劣化する。
本研究は, 実世界のアプリケーションにまたがる信頼性を確保するため, 圧縮LDMの開発に安全性評価を統合することの重要性を浮き彫りにした。
https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}}。
関連論文リスト
- Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
我々は,KVキャッシュ圧縮手法を,世界知識,コモンセンス推論,算術推論,コード生成,安全性,長文理解・生成など多種多様なタスクにわたって評価する。
解析の結果,KVキャッシュ圧縮手法はタスク固有の性能劣化を示すことがわかった。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを明確に扱う新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Holistic Adversarially Robust Pruning [15.760568867982903]
我々は、各層に固有のパラメータ(圧縮率)とどのパラメータ(装飾接続)を個別にプーンするかを最適化するグローバル圧縮戦略を学習する。
本手法は,異なる目的のバランスをとる段階的な漸進関数に従って,動的正則化を伴う既存モデルを微調整する。
学習した圧縮戦略により、トレーニング済みのモデルの自然な精度と、ネットワーク元のサイズの99%削減のための対角的ロバスト性を維持することができる。
論文 参考訳(メタデータ) (2024-12-19T10:25:21Z) - Robust and Transferable Backdoor Attacks Against Deep Image Compression With Selective Frequency Prior [118.92747171905727]
本稿では,学習画像の圧縮モデルに複数のトリガを付加したバックドアアタックを起動するための新しい周波数ベースのトリガインジェクションモデルを提案する。
1) 圧縮品質をビットレートと再現精度で劣化させる,2) 顔認識やセマンティックセグメンテーションといったタスク駆動型対策を目標とする,様々なシナリオに適した攻撃目標を設計する。
実験の結果, トリガーインジェクションモデルと, エンコーダパラメータの微調整を組み合わせることで, 複数のバックドアとトリガーを1つの圧縮モデルに注入することができた。
論文 参考訳(メタデータ) (2024-12-02T15:58:40Z) - Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search [33.86918407429272]
本稿では, 与えられた入力範囲において, 確実に最適である動的圧縮に対する新しい, 汎用的なアプローチを提案する。
これらの理論的保証は、Llama, Mistral, Phiモデルの動的圧縮に高い競争力を与えることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:46:37Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。