論文の概要: Mitigating Safety Fallback in Editing-based Backdoor Injection on LLMs
- arxiv url: http://arxiv.org/abs/2506.13285v1
- Date: Mon, 16 Jun 2025 09:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.992893
- Title: Mitigating Safety Fallback in Editing-based Backdoor Injection on LLMs
- Title(参考訳): LLMにおける編集型バックドアインジェクションの安全性低下の軽減
- Authors: Houcheng Jiang, Zetong Zhao, Junfeng Fang, Haokai Ma, Ruipeng Wang, Yang Deng, Xiang Wang, Xiangnan He,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語タスク全体で強いパフォーマンスを示しているが、バックドア攻撃には弱いままである。
最近のモデル編集ベースのアプローチでは、パラメータを変更して特定のトリガを攻撃者が望んだ応答にマッピングすることで、効率的なバックドアインジェクションが可能になる。
本稿では、肯定的な出力を共同で促進し、拒絶応答を抑制するデュアルオブジェクトモデル編集フレームワークであるDualEditを提案する。
- 参考スコア(独自算出の注目度): 27.02160106114224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown strong performance across natural language tasks, but remain vulnerable to backdoor attacks. Recent model editing-based approaches enable efficient backdoor injection by directly modifying parameters to map specific triggers to attacker-desired responses. However, these methods often suffer from safety fallback, where the model initially responds affirmatively but later reverts to refusals due to safety alignment. In this work, we propose DualEdit, a dual-objective model editing framework that jointly promotes affirmative outputs and suppresses refusal responses. To address two key challenges -- balancing the trade-off between affirmative promotion and refusal suppression, and handling the diversity of refusal expressions -- DualEdit introduces two complementary techniques. (1) Dynamic loss weighting calibrates the objective scale based on the pre-edited model to stabilize optimization. (2) Refusal value anchoring compresses the suppression target space by clustering representative refusal value vectors, reducing optimization conflict from overly diverse token sets. Experiments on safety-aligned LLMs show that DualEdit improves attack success by 9.98\% and reduces safety fallback rate by 10.88\% over baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語タスク全体で強いパフォーマンスを示しているが、バックドア攻撃には弱いままである。
最近のモデル編集ベースのアプローチでは、パラメータを直接修正して、特定のトリガを攻撃者が望んだ応答にマッピングすることで、効率的なバックドアインジェクションが可能になる。
しかしながら、これらの手法はしばしば安全性の低下に悩まされ、モデルは当初肯定的に応答するが、後に安全アライメントのために拒絶される。
本研究では、肯定的な出力を共同で促進し、拒絶応答を抑制するデュアルオブジェクトモデル編集フレームワークであるDualEditを提案する。
肯定的なプロモーションと拒絶抑圧のトレードオフと、拒絶表現の多様性を扱うという2つの重要な課題に対処するため、DualEditは2つの補完的テクニックを導入している。
1) 動的損失重み付けは, 事前編集モデルに基づいて目標スケールを校正し, 最適化を安定化させる。
2) 拒絶値アンカーは、代表的拒絶値ベクトルをクラスタリングすることで抑制対象空間を圧縮し、過度に多様なトークン集合からの最適化競合を低減する。
安全性に配慮したLSMの実験では、DualEditは攻撃成功率を9.98\%改善し、ベースライン上での安全性低下率を10.88\%削減している。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。