論文の概要: Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks
- arxiv url: http://arxiv.org/abs/2605.26526v1
- Date: Tue, 26 May 2026 04:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.617995
- Title: Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks
- Title(参考訳): オープンウェイトLDMファインチューニングディフェンスは簡単な攻撃に耐えられる
- Authors: Kevin Kuo, Chhavi Yadav, Virginia Smith,
- Abstract要約: オープンウェイトセーフガードは,これらのセーフガードに対して体系的に評価されていない,より単純な戦略に影響を受けやすいことを示す。
本研究は,聴力に基づく訓練を取り入れた聴力耐性チューニング(ART)について紹介する。
- 参考スコア(独自算出の注目度): 21.29943620687951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent defenses for safeguarding open-weight large language models (LLMs) are intended to prevent adversarial usage. Underlying these defenses is an assumption that new harmful behavior is learned through fine-tuning rather than elicited by jailbreaking the model. Yet, pretrained LLMs already encode substantial harmful knowledge across many domains, which raises an important question: can an adversary jailbreak safeguarded models, to achieve harmful usage without fine-tuning at all? In this paper, we show that open-weight safeguards are susceptible to simpler strategies that, despite being well known, have not been systematically evaluated against these safeguards. Specifically, we evaluate two low-cost attacks--abliteration and prefilling--that do not rely on gradient-based optimization. Across three harmfulness evaluation benchmarks (BeaverTails, HarmBench, and AdvBench), these attacks increase attack success rates against safeguarded open-weight models from below 10\% to a range of 16%-96%. To mitigate this vulnerability, we introduce abliteration-resistant tuning (ART), which incorporates an abliteration-based objective into training. ART can be layered onto existing defenses and reduces the success rates of abliteration, prefilling, and their combination by 10%-20%. These findings indicate that the attack surface for open-weight models is broader than previously characterized, and that evaluations of safeguarding defenses should incorporate a more diverse set of attack strategies beyond adversarial fine-tuning.
- Abstract(参考訳): オープンウェイトな大規模言語モデル(LLM)の保護のための最近の防衛策は、敵対的使用を防止することを目的としている。
これらの防御の根底には、新しい有害な行動は、モデルをジェイルブレイクすることによって引き起こされるのではなく、微調整によって学習されるという仮定がある。
しかし、事前訓練されたLLMは、既に多くのドメインでかなりの有害な知識をコード化しており、これは重要な疑問を提起している。
本稿では,オープンウェイトセーフガードは,広く知られているにもかかわらず,これらのセーフガードに対して体系的に評価されていない,より単純な戦略の影響を受けることを示す。
具体的には、勾配に基づく最適化に頼らない2つの低コストな攻撃 - 可読化とプリフィル化 - を評価する。
これらの攻撃は、3つの有害性評価ベンチマーク(BeaverTails、HarmBench、AdvBench)で、安全で保護されたオープンウェイトモデルに対する攻撃成功率を10%以下から16%~96%に引き上げた。
この脆弱性を緩和するために,学習に読み書きベースの目的を取り入れた文字読み上げ耐性チューニング(ART)を導入する。
ARTは既存の防衛に階層化され、消耗、補充、およびそれらの組み合わせの成功率を10%から20%削減することができる。
これらの結果から, オープンウェイトモデルに対する攻撃面は従来よりも広く, 防御対策の評価には, 敵の微調整を超えて, より多様な攻撃戦略を取り入れるべきであることが示唆された。
関連論文リスト
- Dummy-Aware Weighted Attack (DAWA): Breaking the Safe Sink in Dummy Class Defenses [56.390980653401506]
ダミークラスベースの防御は、AutoAttackのような従来の評価戦略の下で大幅に過大評価されたロバスト性を達成する。
本研究では,ダミーラベルとダミーラベルの両方を同時に対象とする新たな評価手法であるダミー・アウェア・ウェイトド・アタック(DAWA)を提案する。
我々の研究は、この新たな防衛のクラスを評価するためのより信頼性の高いベンチマークを提供し、ロバストネス評価方法論の継続的な進化の必要性を強調します。
論文 参考訳(メタデータ) (2026-03-31T02:49:17Z) - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。
Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。
実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文 参考訳(メタデータ) (2025-08-16T15:03:33Z) - Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization [0.0]
悪意のあるRL微調整は、優れた効率で安全ガードレールを解体する。
監督された微調整を狙った既存の防御は効果がない。
我々は、RL微調整攻撃に対して特別に設計された最初の防御フレームワークであるReward Neutralizationを紹介する。
論文 参考訳(メタデータ) (2025-05-07T17:18:48Z) - DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification [18.006622965818856]
我々は,LDMのジェイルブレイク攻撃に対する防御能力を向上する,微調整不要な防御手法であるDETAMを紹介する。
具体的には,ジェイルブレイク攻撃に敏感なアテンションヘッドを識別するために,防衛の成功と失敗の間のアテンションスコアの差を分析した。
推論中、攻撃トークンからの干渉を最小限に抑え、ユーザーの中核的な意図を強調するために注意を向ける。
論文 参考訳(メタデータ) (2025-04-18T09:02:12Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。