論文の概要: LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities
- arxiv url: http://arxiv.org/abs/2505.05619v2
- Date: Mon, 12 May 2025 20:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 12:30:10.425038
- Title: LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities
- Title(参考訳): LiteLMGuard: 量子化によるリスクと脆弱性から小さな言語モデルを保護するための、シームレスで軽量なオンデバイスプロンプトフィルタ
- Authors: Kalyan Nakka, Jimmy Dani, Ausmit Mondal, Nitesh Saxena,
- Abstract要約: LiteLMGuard (LLMG) は、量子化されたSLMのリアルタイムかつ迅速な防御を提供する。
LLMGは、深層学習(DL)に基づく即時応答可能性分類タスクとしてプロンプトフィルタリングを形式化する。
LLMGは、ダイレクトインストラクションとジェイルブレイク攻撃戦略を含む有害なプロンプトの87%以上を防御している。
- 参考スコア(独自算出の注目度): 1.460362586787935
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The growing adoption of Large Language Models (LLMs) has influenced the development of their lighter counterparts-Small Language Models (SLMs)-to enable on-device deployment across smartphones and edge devices. These SLMs offer enhanced privacy, reduced latency, server-free functionality, and improved user experience. However, due to resource constraints of on-device environment, SLMs undergo size optimization through compression techniques like quantization, which can inadvertently introduce fairness, ethical and privacy risks. Critically, quantized SLMs may respond to harmful queries directly, without requiring adversarial manipulation, raising significant safety and trust concerns. To address this, we propose LiteLMGuard (LLMG), an on-device prompt guard that provides real-time, prompt-level defense for quantized SLMs. Additionally, our prompt guard is designed to be model-agnostic such that it can be seamlessly integrated with any SLM, operating independently of underlying architectures. Our LLMG formalizes prompt filtering as a deep learning (DL)-based prompt answerability classification task, leveraging semantic understanding to determine whether a query should be answered by any SLM. Using our curated dataset, Answerable-or-Not, we trained and fine-tuned several DL models and selected ELECTRA as the candidate, with 97.75% answerability classification accuracy. Our safety effectiveness evaluations demonstrate that LLMG defends against over 87% of harmful prompts, including both direct instruction and jailbreak attack strategies. We further showcase its ability to mitigate the Open Knowledge Attacks, where compromised SLMs provide unsafe responses without adversarial prompting. In terms of prompt filtering effectiveness, LLMG achieves near state-of-the-art filtering accuracy of 94%, with an average latency of 135 ms, incurring negligible overhead for users.
- Abstract(参考訳): LLM(Large Language Models)の採用の増加は、スマートフォンやエッジデバイスをまたがるデバイス上でのデプロイメントを可能にする、より軽量なSLM(Small Language Models)の開発に影響を与えている。
これらのSLMは、プライバシーの強化、レイテンシの削減、サーバーフリー機能、ユーザーエクスペリエンスの向上を提供する。
しかし、デバイス上でのリソース制約のため、SLMは量子化のような圧縮技術を通じてサイズ最適化を行い、公正性、倫理的、プライバシー上のリスクを必然的に引き起こすことができる。
臨界的に、量子化されたSLMは、敵の操作を必要とせず、有害なクエリに直接応答し、重大な安全性と信頼の懸念を生じさせる可能性がある。
そこで本研究では,量子化されたSLMに対して,リアルタイムかつ迅速な防御を実現するデバイス上でのプロンプトガードであるLiteLMGuard(LLMG)を提案する。
さらに、当社のプロンプトガードはモデルに依存しないように設計されており、基盤となるアーキテクチャとは独立して、任意のSLMとシームレスに統合できるように設計されています。
LLMG は,問合せが SLM によって答えられるかどうかを判断するために意味的理解を活用することで,深層学習(DL) に基づく応答可能性分類タスクとしてプロンプトフィルタリングを形式化する。
計算したデータセットAnswerable-or-Notを用いて、いくつかのDLモデルを訓練、微調整し、97.75%の回答可能性分類精度でELECTRAを候補として選択した。
我々の安全性評価は、LLMGが直接指導と脱獄攻撃の戦略を含む有害なプロンプトの87%以上を防御していることを示している。
我々はさらに、攻撃されたSLMが敵のプロンプトを伴わずに安全でない応答を提供するオープンナレッジアタックを緩和する能力を示す。
迅速なフィルタリング効率の面では、LLMGは最先端のフィルタリング精度94%、平均遅延135msを実現し、ユーザにとって無視できないオーバーヘッドを発生させる。
関連論文リスト
- Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Models (LLMs) を中心とした保護システムレイヤを作成する堅牢な防御機能である。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
最近のエージェントセキュリティベンチマークであるAgentDojo[NeurIPS 2024]で、証明可能なセキュリティを備えた67%のタスクを解決し、CaMeLの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。