論文の概要: Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs
- arxiv url: http://arxiv.org/abs/2510.02833v1
- Date: Fri, 03 Oct 2025 09:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.331902
- Title: Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs
- Title(参考訳): オーバーフィッティングによる攻撃:10ショットでジェイルブレイクのLLMを微調整
- Authors: Zhixin Xie, Xurui Song, Jun Luo,
- Abstract要約: 最近の研究では、10組の有害な質問応答ペアの微調整が、脱獄を成功させる可能性があることが示されている。
10組のQAペアしか持たない細調整でLLMをジェイルブレイクできることを実証した。
本手法は,攻撃効率と攻撃ステルスの両面で有意な優位性を実現する。
- 参考スコア(独自算出の注目度): 4.961302575859445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite substantial efforts in safety alignment, recent research indicates that Large Language Models (LLMs) remain highly susceptible to jailbreak attacks. Among these attacks, finetuning-based ones that compromise LLMs' safety alignment via fine-tuning stand out due to its stable jailbreak performance. In particular, a recent study indicates that fine-tuning with as few as 10 harmful question-answer (QA) pairs can lead to successful jailbreaking across various harmful questions. However, such malicious fine-tuning attacks are readily detectable and hence thwarted by moderation models. In this paper, we demonstrate that LLMs can be jailbroken by fine-tuning with only 10 benign QA pairs; our attack exploits the increased sensitivity of LLMs to fine-tuning data after being overfitted. Specifically, our fine-tuning process starts with overfitting an LLM via fine-tuning with benign QA pairs involving identical refusal answers. Further fine-tuning is then performed with standard benign answers, causing the overfitted LLM to forget the refusal attitude and thus provide compliant answers regardless of the harmfulness of a question. We implement our attack on the ten LLMs and compare it with five existing baselines. Experiments demonstrate that our method achieves significant advantages in both attack effectiveness and attack stealth. Our findings expose previously unreported security vulnerabilities in current LLMs and provide a new perspective on understanding how LLMs' security is compromised, even with benign fine-tuning. Our code is available at https://github.com/ZHIXINXIE/tenBenign.
- Abstract(参考訳): 安全性確保に多大な努力を払っているにもかかわらず、最近の研究は、Large Language Models (LLMs) がジェイルブレイク攻撃の影響を受けやすいことを示唆している。
これらの攻撃の中で、LLMの安全アライメントを損なう微調整ベースの攻撃は、安定したジェイルブレイク性能のために際立っている。
特に最近の研究では、10組の有害な質問応答(QA)ペアの微調整が、さまざまな有害な質問に対してジェイルブレイクを成功させる可能性があることが示されている。
しかし、このような悪質な微調整攻撃は容易に検出でき、モデレーションモデルによって阻止される。
本稿では,10組のQAペアのみを微調整することでLLMをジェイルブレイクできることを示す。
具体的には、我々の微調整プロセスは、同一の拒絶応答を含む良質なQAペアとの微調整によってLLMを過度に適合させることから始まります。
そして、さらに微調整を標準的な良性回答で行うことにより、過度に適合したLCMは、拒絶姿勢を忘れ、質問の有害性に拘わらず、従順な回答を提供する。
我々は10個のLDMに対して攻撃を実行し、既存の5つのベースラインと比較する。
実験により,攻撃効率と攻撃ステルスの両方において,本手法が有意な優位性を発揮することが示された。
我々の発見は、現在LLMの未報告のセキュリティ脆弱性を明らかにし、良質な微調整でさえも、LLMのセキュリティがどのように侵害されているかを理解するための新たな視点を提供する。
私たちのコードはhttps://github.com/ZHIXINXIE/tenBenign.comで利用可能です。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts? [32.583583725567834]
LLM(Large Language Models)は、敵の攻撃やジェイルブレイクの影響を受けやすい言語である。
安全調整されたLLMがアライメント後の安全応答を誘発する自然的プロンプトに対して安全かどうかを評価する。
論文 参考訳(メタデータ) (2024-12-04T11:36:37Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。