論文の概要: Trigger Where It Hurts: Unveiling Hidden Backdoors through Sensitivity with Sensitron
- arxiv url: http://arxiv.org/abs/2509.19101v1
- Date: Tue, 23 Sep 2025 14:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.908571
- Title: Trigger Where It Hurts: Unveiling Hidden Backdoors through Sensitivity with Sensitron
- Title(参考訳): 懐中電灯で隠れたバックドアを発見(動画あり)
- Authors: Gejian Zhao, Hanzhou Wu, Xinpeng Zhang,
- Abstract要約: バックドア攻撃は自然言語処理(NLP)システムに重大なセキュリティ上の脅威をもたらす。
既存のメソッドには説明可能なトリガ機構がなく、脆弱性パターンを定量的にモデル化することができない。
この研究は、ステルスで堅牢なバックドアトリガーを作るための新しいモジュラーフレームワークであるSensitronを紹介している。
- 参考スコア(独自算出の注目度): 21.451839464111785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks pose a significant security threat to natural language processing (NLP) systems, but existing methods lack explainable trigger mechanisms and fail to quantitatively model vulnerability patterns. This work pioneers the quantitative connection between explainable artificial intelligence (XAI) and backdoor attacks, introducing Sensitron, a novel modular framework for crafting stealthy and robust backdoor triggers. Sensitron employs a progressive refinement approach where Dynamic Meta-Sensitivity Analysis (DMSA) first identifies potentially vulnerable input tokens, Hierarchical SHAP Estimation (H-SHAP) then provides explainable attribution to precisely pinpoint the most influential tokens, and finally a Plug-and-Rank mechanism that generates contextually appropriate triggers. We establish the first mathematical correlation (Sensitivity Ranking Correlation, SRC=0.83) between explainability scores and empirical attack success, enabling precise targeting of model vulnerabilities. Sensitron achieves 97.8% Attack Success Rate (ASR) (+5.8% over state-of-the-art (SOTA)) with 85.4% ASR at 0.1% poisoning rate, demonstrating robust resistance against multiple SOTA defenses. This work reveals fundamental NLP vulnerabilities and provides new attack vectors through weaponized explainability.
- Abstract(参考訳): バックドア攻撃は自然言語処理(NLP)システムに重大なセキュリティ上の脅威をもたらすが、既存の手法には説明可能なトリガー機構がなく、脆弱性パターンを定量的にモデル化することができない。
この研究は、説明可能な人工知能(XAI)とバックドア攻撃の間の定量的な関係を開拓し、ステルス性と堅牢なバックドアトリガーを構築するための新しいモジュラーフレームワークであるSensitronを導入した。
Sensitronは、動的メタ感度分析(DMSA)が潜在的に脆弱な入力トークンを最初に識別し、階層型SHAP推定(H-SHAP)が最も影響力のあるトークンを正確に特定するための説明可能な属性を提供し、最後に文脈的に適切なトリガを生成するPlug-and-Rankメカニズムを提供する。
我々は、説明可能性スコアと経験的攻撃成功との間に最初の数学的相関(感度ランキング相関、SRC=0.83)を確立し、モデル脆弱性の正確なターゲティングを可能にする。
センシトロンは97.8%の攻撃成功率(SOTA+5.8%)と85.4%のASRを0.1%の毒殺率で達成し、複数のSOTA防衛に対する堅牢な抵抗を実証している。
この研究は、基本的なNLP脆弱性を明らかにし、兵器化された説明可能性を通じて新たな攻撃ベクトルを提供する。
関連論文リスト
- Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
本手法は,強力なガードレールモデルの検出下であっても,有害なコンテンツ生成のためにバックドアを様々なLSMに効果的に注入する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - DeTrigger: A Gradient-Centric Approach to Backdoor Attack Mitigation in Federated Learning [8.745529957589039]
Federated Learning(FL)は、ローカルデータのプライバシを保持しながら、分散デバイス間の協調的なモデルトレーニングを可能にする。
しかし、FLの分散された性質は、特にバックドアアタックをモデル化するための脆弱性も開放する。
DeTriggerは、スケーラブルで効率的なバックドアロバストなフェデレーション学習フレームワークである。
論文 参考訳(メタデータ) (2024-11-19T04:12:14Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。