論文の概要: Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression
- arxiv url: http://arxiv.org/abs/2407.04965v3
- Date: Fri, 11 Oct 2024 22:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 23:35:45.162860
- Title: Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression
- Title(参考訳): LLM圧縮の多次元安全性評価
- Authors: Zhichao Xu, Ashim Gupta, Tao Li, Oliver Bentham, Vivek Srikumar,
- Abstract要約: モデル圧縮が4次元に与える影響について検討する:(1)退化障害、すなわち、世代におけるバイアスと毒性、(2)表現障害、すなわち、識別的タスクにおけるバイアス、(3)方言バイアス、(4)言語モデリングと下流タスクのパフォーマンス。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 33.45167213570976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increasingly, model compression techniques enable large language models (LLMs) to be deployed in real-world applications. As a result of this momentum towards local deployment, compressed LLMs will interact with a large population. Prior work on compression typically prioritize preserving perplexity, which is directly analogous to training loss. The impact of compression method on other critical aspects of model behavior\, -- \,particularly safety\, -- \,requires systematic assessment. To this end, we investigate the impact of model compression along four dimensions: (1) degeneration harm, i.e., bias and toxicity in generation; (2) representational harm, i.e., biases in discriminative tasks; (3) dialect bias; and(4) language modeling and downstream task performance. We examine a wide spectrum of LLM compression techniques, including unstructured pruning, semi-structured pruning, and quantization. Our analysis reveals that compression can lead to unexpected consequences. Although compression may unintentionally alleviate LLMs' degeneration harm, it can still exacerbate representational harm. Furthermore, increasing compression produces a divergent impact on different protected groups. Finally, different compression methods have drastically different safety impacts: for example, quantization mostly preserves bias while pruning degrades quickly. Our findings underscore the importance of integrating safety assessments into the development of compressed LLMs to ensure their reliability across real-world applications.\footnote{Our implementation and results are available here: \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}}
- Abstract(参考訳): モデル圧縮技術により、大規模言語モデル(LLM)を現実世界のアプリケーションにデプロイすることが可能になる。
局所的な展開に向けてのこの勢いの結果として、圧縮LDMは人口と相互作用する。
圧縮に関する以前の研究は、典型的には、トレーニング損失と直接的に類似したパープレキシティの保存を優先する。
圧縮法がモデル行動の他の重要な側面へ与える影響-----------------は体系的評価を必要とする。
そこで本研究では,(1)退化障害,すなわち世代におけるバイアスと毒性,(2)識別的タスクにおけるバイアス,(3)方言バイアス,(4)言語モデリングと下流タスクパフォーマンスの4つの側面によるモデル圧縮の影響について検討する。
本研究では,非構造化プルーニング,半構造化プルーニング,量子化など,LLM圧縮手法の幅広いスペクトルについて検討する。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
圧縮は故意にLLMの変性障害を緩和するかもしれないが、それでも表現障害を悪化させる可能性がある。
さらに、圧縮の増加は、異なる保護されたグループに異なる影響をもたらす。
最後に、異なる圧縮法は、例えば、量子化はバイアスをほとんど保ち、プルーニングは急速に劣化する。
本研究は, 実世界のアプリケーションにまたがる信頼性を確保するため, 圧縮LDMの開発に安全性評価を統合することの重要性を浮き彫りにした。
https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}}。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models [69.84867664371826]
視覚トークン圧縮はLVLM(Large Vision-Language Models)のロバスト性を大幅に低下させることを示す。
小さくて知覚不能な摂動はトークンの重要度を著しく変更し、圧縮機構が誤ってタスククリティカル情報を破棄する。
我々は,この脆弱性を体系的に研究し,活用するための圧縮認識攻撃を提案する。
論文 参考訳(メタデータ) (2026-01-17T13:02:41Z) - Decomposed Trust: Exploring Privacy, Adversarial Robustness, Fairness, and Ethics of Low-Rank LLMs [2.1311014724439845]
低ランクの要因化が、プライバシー、敵の堅牢性、公正性、倫理的整合性にどのように影響するかを研究する。
低ランク圧縮は、トレーニングデータのプライバシを保護または改善するが、会話中のPII保護を弱める。
敵の強靭性は一般に保存され、しばしば強化される。
倫理的推論はゼロショット設定では劣化するが、ほとんどショットのプロンプトで部分的に回復する。
論文 参考訳(メタデータ) (2025-11-27T04:40:56Z) - CompressionAttack: Exploiting Prompt Compression as a New Attack Surface in LLM-Powered Agents [7.68677090046928]
この作業では、プロンプト圧縮を新しい攻撃面として特定し、それを利用した最初のフレームワークであるCompressionAttackを提示する。
複数のLSMの実験では、攻撃の成功率は80%、好みのフリップは98%で、高いステルス性と転送性を維持している。
VSCode ClineとOllamaのケーススタディは、実際の影響を確認し、現在の防御は効果がないことを証明している。
論文 参考訳(メタデータ) (2025-10-27T03:37:41Z) - The Pitfalls of KV Cache Compression [52.196873305708955]
圧縮により、特定の命令がより高速に劣化することを示します。
本稿では, 圧縮法, 命令順序, KV消去バイアスなど, 即時漏洩に果たすいくつかの要因について述べる。
論文 参考訳(メタデータ) (2025-09-30T19:55:26Z) - Joint Lossless Compression and Steganography for Medical Images via Large Language Models [63.454510290574355]
医用画像のための新しい非破壊圧縮・ステガノグラフィーフレームワークを提案する。
ビットプレーンスライシング(BPS)にインスパイアされて、医療画像にプライバシーメッセージを埋め込むことができる。
論文 参考訳(メタデータ) (2025-08-03T14:45:51Z) - Compression Hacking: A Supplementary Perspective on Informatics Properties of Language Models from Geometric Distortion [56.12939353271623]
幾何学的観点から、高度に圧縮されたLMのワード表現空間は、非常に異方性のある状態に縮退する傾向がある。
この同期性は基本的にLM表現におけるCompression Hacking''である。
幾何学的歪み解析を取り入れ, 自己評価パイプラインに統合することにより, 高精度な3つの圧縮指標を提案する。
論文 参考訳(メタデータ) (2025-05-23T12:11:03Z) - Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
我々は,KVキャッシュ圧縮手法を,世界知識,コモンセンス推論,算術推論,コード生成,安全性,長文理解・生成など多種多様なタスクにわたって評価する。
解析の結果,KVキャッシュ圧縮手法はタスク固有の性能劣化を示すことがわかった。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを明確に扱う新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Holistic Adversarially Robust Pruning [15.760568867982903]
我々は、各層に固有のパラメータ(圧縮率)とどのパラメータ(装飾接続)を個別にプーンするかを最適化するグローバル圧縮戦略を学習する。
本手法は,異なる目的のバランスをとる段階的な漸進関数に従って,動的正則化を伴う既存モデルを微調整する。
学習した圧縮戦略により、トレーニング済みのモデルの自然な精度と、ネットワーク元のサイズの99%削減のための対角的ロバスト性を維持することができる。
論文 参考訳(メタデータ) (2024-12-19T10:25:21Z) - Robust and Transferable Backdoor Attacks Against Deep Image Compression With Selective Frequency Prior [118.92747171905727]
本稿では,学習画像の圧縮モデルに複数のトリガを付加したバックドアアタックを起動するための新しい周波数ベースのトリガインジェクションモデルを提案する。
1) 圧縮品質をビットレートと再現精度で劣化させる,2) 顔認識やセマンティックセグメンテーションといったタスク駆動型対策を目標とする,様々なシナリオに適した攻撃目標を設計する。
実験の結果, トリガーインジェクションモデルと, エンコーダパラメータの微調整を組み合わせることで, 複数のバックドアとトリガーを1つの圧縮モデルに注入することができた。
論文 参考訳(メタデータ) (2024-12-02T15:58:40Z) - Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search [33.86918407429272]
本稿では, 与えられた入力範囲において, 確実に最適である動的圧縮に対する新しい, 汎用的なアプローチを提案する。
これらの理論的保証は、Llama, Mistral, Phiモデルの動的圧縮に高い競争力を与えることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:46:37Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Safety and Performance, Why not Both? Bi-Objective Optimized Model
Compression toward AI Software Deployment [12.153709321048947]
ハイパフォーマンスを維持しながらモデルサイズを圧縮することを目的として、AIソフトウェア圧縮が重要な役割を果たす。
本稿では,安全性と性能の両立の観点から,安全なモデル圧縮問題に対処する。
具体的には、ソフトウェアエンジニアリングにおけるテスト駆動開発(TDD)パラダイムにヒントを得て、SafeCompressというテスト駆動スパーストレーニングフレームワークを提案します。
論文 参考訳(メタデータ) (2022-08-11T04:41:08Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Robustness and Transferability of Universal Attacks on Compressed Models [3.187381965457262]
エッジデバイスにDeep Neural Networks(DNN)を効率的にデプロイするには、プルーニングや量子化などのニューラルネットワーク圧縮方法が非常に効果的です。
特に、UAP(Universal Adversarial Perturbations)は、敵対的攻撃の強力なクラスである。
いくつかのシナリオでは、量子化は勾配マスキングを生じさせ、誤ったセキュリティ感覚を与える。
論文 参考訳(メタデータ) (2020-12-10T23:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。