論文の概要: Increased LLM Vulnerabilities from Fine-tuning and Quantization
- arxiv url: http://arxiv.org/abs/2404.04392v1
- Date: Fri, 5 Apr 2024 20:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 21:28:04.001989
- Title: Increased LLM Vulnerabilities from Fine-tuning and Quantization
- Title(参考訳): 微調整と量子化によるLDM脆弱性の増大
- Authors: Divyanshu Kumar, Anurakt Kumar, Sahil Agarwal, Prashanth Harshangi,
- Abstract要約: 大規模言語モデル(LLM)は非常に人気があり、多くのドメインでユースケースが発見されている。
LLMは、ジェイルブレイク、インジェクション攻撃、プライバシー漏洩攻撃など、さまざまなタイプの攻撃に対して脆弱である。
細調整と量子化により脱獄抵抗が大幅に減少し,LSMの脆弱性が増大することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have become very popular and have found use cases in many domains, such as chatbots, auto-task completion agents, and much more. However, LLMs are vulnerable to different types of attacks, such as jailbreaking, prompt injection attacks, and privacy leakage attacks. Foundational LLMs undergo adversarial and alignment training to learn not to generate malicious and toxic content. For specialized use cases, these foundational LLMs are subjected to fine-tuning or quantization for better performance and efficiency. We examine the impact of downstream tasks such as fine-tuning and quantization on LLM vulnerability. We test foundation models like Mistral, Llama, MosaicML, and their fine-tuned versions. Our research shows that fine-tuning and quantization reduces jailbreak resistance significantly, leading to increased LLM vulnerabilities. Finally, we demonstrate the utility of external guardrails in reducing LLM vulnerabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は非常に人気があり、チャットボットや自動タスク補完エージェントなど、多くのドメインでユースケースが発見されている。
しかし、LDMは、ジェイルブレイク、インジェクション攻撃、プライバシー漏洩攻撃など、さまざまなタイプの攻撃に対して脆弱である。
基礎的なLLMは、悪意のある有害なコンテンツを生成しないことを学ぶために、敵意とアライメントのトレーニングを行っている。
特殊なユースケースでは、これらの基礎的なLCMはより優れた性能と効率のために微調整または量子化される。
LLMの脆弱性に対する微調整や量子化などの下流タスクの影響について検討する。
Mistral、Llama、MosaicMLなどの基盤モデルと、それらの微調整バージョンをテストしています。
我々の研究は、微調整と量子化によってジェイルブレイク抵抗が大幅に減少し、LSMの脆弱性が増大することを示している。
最後に,LLMの脆弱性を低減するための外部ガードレールの有用性を示す。
関連論文リスト
- Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - Buckle Up: Robustifying LLMs at Every Customization Stage via Data Curation [20.176424063726277]
大規模言語モデル(LLM)は「カストミゼーション(customization)」と呼ばれるプロセスを通じて下流アプリケーションに広く適応する。
近年の研究では、LSMを悪意のあるサンプルでチューニングすることで、その堅牢性を損なうことができ、有害なコンテンツを増幅する脆弱性が明らかにされている。
論文 参考訳(メタデータ) (2024-10-03T05:24:38Z) - PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Can LLMs be Fooled? Investigating Vulnerabilities in LLMs [4.927763944523323]
LLM(Large Language Models)の出現は、自然言語処理(NLP)内の様々な領域で大きな人気を集め、膨大なパワーを誇っている。
本稿では,各脆弱性部の知見を合成し,新たな研究・開発の方向性を提案する。
現在の脆弱性の焦点を理解することで、将来のリスクを予測し軽減できます。
論文 参考訳(メタデータ) (2024-07-30T04:08:00Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。