論文の概要: Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes
- arxiv url: http://arxiv.org/abs/2404.04392v2
- Date: Mon, 29 Jul 2024 07:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 23:37:56.085958
- Title: Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes
- Title(参考訳): 微調整, 量子化, LLM: 意図しない成果をナビゲートする
- Authors: Divyanshu Kumar, Anurakt Kumar, Sahil Agarwal, Prashanth Harshangi,
- Abstract要約: 大規模言語モデル(LLM)は非常に人気があり、多くのドメインで使われている。
それらは、ジェイルブレイク、インジェクションのプロンプト攻撃、プライバシー漏洩攻撃など、さまざまなタイプの攻撃によって悪用される。
本研究では,Mistral,Llama,MosaicMLなどの基礎モデルとその微調整バージョンについて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have become very popular and are used in many domains, such as chatbots, auto-task completion agents, and much more. However, LLMs suffer from many safety vulnerabilities, which can be exploited using different types of attacks, such as jailbreaking, prompt injection attacks, and privacy leakage attacks. These attacks can disrupt the working of the LLMs and make powerful LLM systems generate malicious or unethical content, take malicious actions, or leak confidential information by bypassing the security filters and taking advantage of their access. Foundational LLMs undergo alignment training, which includes safety training. This helps the model learn how to generate outputs that are ethical and aligned with human responses. Further, to make the models even safer, guardrails are added to filter the inputs received and the output generated by the model. These foundational LLMs are subjected to fine-tuning, quantization, or alteration of guardrails to use these models for specialized tasks or to use them in a resource-constrained environment. So, understanding the impact of modifications such as fine-tuning, quantization, and guardrails on the safety of LLM becomes an important question. Understanding and mitigating the consequences will help build reliable systems and effective strategies to make LLMs more secure. In this study, we tested foundational models like Mistral, Llama, MosaicML, and their finetuned versions. These comprehensive evaluations show that fine-tuning increases jailbreak attack success rates (ASR), quantization has a variable impact on the ASR, and guardrails can help significantly improve jailbreak resistance.
- Abstract(参考訳): 大規模言語モデル(LLM)は非常に人気があり、チャットボット、自動タスク補完エージェントなど多くのドメインで使われている。
しかし、LSMは多くの安全性上の脆弱性に悩まされており、ジェイルブレイク、インジェクション攻撃、プライバシー漏洩攻撃など、さまざまなタイプの攻撃で悪用することができる。
これらの攻撃は、LLMの動作を妨害し、強力なLLMシステムが悪意のある、または非倫理的なコンテンツを生成したり、悪意のあるアクションを取ったり、セキュリティフィルタをバイパスしてそれらのアクセスを活用することによって機密情報を漏洩させたりすることができる。
基礎的なLLMは、安全トレーニングを含むアライメントトレーニングを実施している。
これはモデルが倫理的かつ人間の反応に沿ったアウトプットを生成する方法を学ぶのに役立つ。
さらに、モデルをより安全にするために、受信した入力とモデルによって生成された出力をフィルタリングするためにガードレールを追加する。
これらの基礎的なLLMは、特定のタスクにこれらのモデルを使用したり、リソース制約のある環境で使用するためにガードレールの微調整、定量化、または変更を施される。
したがって, 微調整, 量子化, ガードレールなどの修正がLLMの安全性に与える影響を理解することは重要な問題となる。
結果を理解して緩和することは、LLMをよりセキュアにするための信頼性の高いシステムと効果的な戦略を構築するのに役立つでしょう。
本研究では,Mistral,Llama,MosaicMLなどの基礎モデルとその微調整バージョンについて検討した。
これらの総合的な評価は、細調整はジェイルブレイク攻撃成功率(ASR)を増加させ、量子化はASRに様々な影響を及ぼし、ガードレールはジェイルブレイク抵抗を大幅に改善することを示している。
関連論文リスト
- Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。
我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。
主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文 参考訳(メタデータ) (2025-01-21T15:24:29Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。
私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。
Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-11-11T10:02:49Z) - Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Can LLMs be Fooled? Investigating Vulnerabilities in LLMs [4.927763944523323]
LLM(Large Language Models)の出現は、自然言語処理(NLP)内の様々な領域で大きな人気を集め、膨大なパワーを誇っている。
本稿では,各脆弱性部の知見を合成し,新たな研究・開発の方向性を提案する。
現在の脆弱性の焦点を理解することで、将来のリスクを予測し軽減できます。
論文 参考訳(メタデータ) (2024-07-30T04:08:00Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Revisiting Jailbreaking for Large Language Models: A Representation Engineering Perspective [43.94115802328438]
最近のジェイルブレイク攻撃の急増により、悪意のある入力に晒された場合、Large Language Models(LLM)の重大な脆弱性が明らかになった。
LLMの自己保護能力は,その表現空間内の特定の行動パターンと関係があることが示唆された。
これらのパターンは,数対のコントラストクエリで検出可能であることを示す。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。