論文の概要: An Embarrassingly Simple Defense Against LLM Abliteration Attacks
- arxiv url: http://arxiv.org/abs/2505.19056v1
- Date: Sun, 25 May 2025 09:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.871311
- Title: An Embarrassingly Simple Defense Against LLM Abliteration Attacks
- Title(参考訳): LLMの消滅攻撃に対する極めて単純な防御策
- Authors: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, Bernard Ghanem, George Turkiyyah,
- Abstract要約: 大型言語モデル(LLM)は通常、有害な指示を拒絶することで安全ガイドラインに従うように整列されている。
失語症と呼ばれる最近の攻撃は、拒絶行動に最も責任がある唯一の潜伏方向を隔離し、抑制する。
本稿では,モデルがリフレクションを生成する方法を変更するディフェンスを提案する。
- 参考スコア(独自算出の注目度): 46.74826882670651
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are typically aligned to comply with safety guidelines by refusing harmful instructions. A recent attack, termed abliteration, isolates and suppresses the single latent direction most responsible for refusal behavior, enabling the model to generate unethical content. We propose a defense that modifies how models generate refusals. We construct an extended-refusal dataset that contains harmful prompts with a full response that justifies the reason for refusal. We then fine-tune Llama-2-7B-Chat and Qwen2.5-Instruct (1.5B and 3B parameters) on our extended-refusal dataset, and evaluate the resulting systems on a set of harmful prompts. In our experiments, extended-refusal models maintain high refusal rates, dropping at most by 10%, whereas baseline models' refusal rates drop by 70-80% after abliteration. A broad evaluation of safety and utility shows that extended-refusal fine-tuning neutralizes the abliteration attack while preserving general performance.
- Abstract(参考訳): 大型言語モデル(LLM)は通常、有害な指示を拒絶することで安全ガイドラインに従うように整列されている。
失語症と呼ばれる最近の攻撃は、モデルが非倫理的コンテンツを生成できるように、最も拒否行動に責任がある単一の潜伏方向を分離し、抑制する。
本稿では,モデルがリフレクションを生成する方法を変更するディフェンスを提案する。
我々は、拒絶の理由を正当化する完全な応答を持つ有害なプロンプトを含む拡張拒否データセットを構築した。
次に,Llama-2-7B-ChatおよびQwen2.5-Instruct(1.5Bおよび3Bパラメータ)を拡張リファレンスデータセット上で微調整し,有害なプロンプトのセットでシステム評価を行った。
実験では, 拡張型拒絶モデルでは高い拒絶率を維持し, 最大で10%減少する一方, ベースラインモデルでは消耗率が70~80%低下することがわかった。
安全性と実用性について広く評価した結果, 拡張拒否微調整は, 一般性能を維持しつつ, 消音攻撃を中和することがわかった。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。
15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-03-22T23:35:49Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - Self-Evaluation as a Defense Against Adversarial Attacks on LLMs [20.79833694266861]
自己評価を生かした LLM に対する敵攻撃に対する防御策を導入する。
本手法では, モデル微調整を必要とせず, 生成モデルの入力と出力を評価するために, 事前学習モデルを用いる。
提案手法の有効性を解析し, 各種設定で評価器を攻撃しようとする試みを含む。
論文 参考訳(メタデータ) (2024-07-03T16:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。