論文の概要: SLIP: Soft Label Mechanism and Key-Extraction-Guided CoT-based Defense Against Instruction Backdoor in APIs
- arxiv url: http://arxiv.org/abs/2508.06153v1
- Date: Fri, 08 Aug 2025 09:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.171729
- Title: SLIP: Soft Label Mechanism and Key-Extraction-Guided CoT-based Defense Against Instruction Backdoor in APIs
- Title(参考訳): SLIP:APIのインストラクションバックドアに対するソフトラベル機構とキー抽出型CoTベースの防御
- Authors: Zhengxian Wu, Juan Wen, Wanli Peng, Haowei Chang, Yinghan Zhou, Yiming Xue,
- Abstract要約: ブラックボックスのバックドア攻撃は、ホワイトボックスアクセスに依存する既存の防御を容易にバイパスする。
SLIP(Soft Label)機構と鍵抽出誘導CoTによるAPIのインストラクションバックドアに対する防御機構を提案する。
SLIPは非常に効果的で、平均攻撃成功率(ASR)を90.2%から25.13%に下げる。
- 参考スコア(独自算出の注目度): 9.581510737256389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of customized large language model (LLM) agents, a new threat of black-box backdoor attacks has emerged, where malicious instructions are injected into hidden system prompts. These attacks easily bypass existing defenses that rely on white-box access, posing a serious security challenge. To address this, we propose SLIP, a Soft Label mechanism and key-extraction-guided CoT-based defense against Instruction backdoors in APIs. SLIP is designed based on two key insights. First, to counteract the model's oversensitivity to triggers, we propose a Key-extraction-guided Chain-of-Thought (KCoT). Instead of only considering the single trigger or the input sentence, KCoT prompts the agent to extract task-relevant key phrases. Second, to guide the LLM toward correct answers, our proposed Soft Label Mechanism (SLM) prompts the agent to quantify the semantic correlation between key phrases and candidate answers. Crucially, to mitigate the influence of residual triggers or misleading content in phrases extracted by KCoT, which typically causes anomalous scores, SLM excludes anomalous scores deviating significantly from the mean and subsequently averages the remaining scores to derive a more reliable semantic representation. Extensive experiments on classification and question-answer (QA) tasks demonstrate that SLIP is highly effective, reducing the average attack success rate (ASR) from 90.2% to 25.13% while maintaining high accuracy on clean data and outperforming state-of-the-art defenses. Our code are available in https://github.com/CAU-ISS-Lab/Backdoor-Attack-Defense-LLMs/tree/main/SLIP.
- Abstract(参考訳): カスタマイズされた大規模言語モデル(LLM)エージェントの開発により、悪意のある命令を隠されたシステムプロンプトに注入するブラックボックスバックドア攻撃の新たな脅威が出現した。
これらの攻撃は、ホワイトボックスアクセスに依存する既存の防御を容易に回避し、深刻なセキュリティ上の課題を引き起こします。
これを解決するために,SLIP,Soft Label機構,および鍵抽出誘導CoTによるAPIのインストラクションバックドアに対する防御を提案する。
SLIPは2つの重要な洞察に基づいて設計されている。
まず、トリガーに対するモデルの過敏性に対処するため、キー抽出誘導型チェーン・オブ・ソート(KCoT)を提案する。
単一のトリガや入力文のみを考慮する代わりに、KCoTはエージェントにタスク関連キーフレーズを抽出するよう促す。
第2に,LLMを正しい回答へ導くために,提案したソフトラベル機構(SLM)を用いて,キーフレーズと候補回答のセマンティックな相関を定量化する。
重要なことは、通常異常スコアを引き起こすKCoTによって抽出されたフレーズにおける残留トリガーや誤解を招く内容の影響を軽減するために、SLMは平均からかなり逸脱した異常スコアを除外し、残りのスコアを平均してより信頼性の高い意味表現を導き出す。
分類と質問応答(QA)タスクに関する大規模な実験は、SLIPが極めて効果的であることを示し、平均攻撃成功率(ASR)を90.2%から25.13%に減らし、クリーンなデータに対する高い精度を維持し、最先端の防御よりも優れていた。
私たちのコードはhttps://github.com/CAU-ISS-Lab/Backdoor-Attack-Defense-LLMs/tree/main/SLIPで利用可能です。
関連論文リスト
- Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models [17.839413035304748]
LLM(Large Language Models)に対するバックドアのアンアライメント攻撃は、隠れたトリガーを使用して、安全アライメントのステルスな妥協を可能にする。
我々は,裏口LDMを不活性化させるために,推論中にトリガサンプルを検出するブラックボックスディフェンスBEATを紹介する。
本手法は, サンプル依存目標の課題を, 反対の観点から解決する。
論文 参考訳(メタデータ) (2025-06-19T16:30:56Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks [47.62236306990252]
大規模言語モデル (LLM) は間接的なインジェクション攻撃の影響を受けやすい。
この脆弱性は、プロンプト内のデータと命令を区別できないLLMが原因である。
本稿では,タスクトリガリングニューロンの識別と解析により,この攻撃を防御するCachePruneを提案する。
論文 参考訳(メタデータ) (2025-04-29T23:42:21Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。