論文の概要: STEP: Detecting Audio Backdoor Attacks via Stability-based Trigger Exposure Profiling
- arxiv url: http://arxiv.org/abs/2603.18103v1
- Date: Wed, 18 Mar 2026 12:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.765409
- Title: STEP: Detecting Audio Backdoor Attacks via Stability-based Trigger Exposure Profiling
- Title(参考訳): STEP:安定度に基づくトリガー露光プロファイリングによるオーディオバックドアアタックの検出
- Authors: Kun Wang, Meng Chen, Junhao Wang, Yuli Wu, Li Lu, Chong Zhang, Peng Cheng, Jiaheng Zhang, Kui Ren,
- Abstract要約: ハードラベルのみのアクセスで動作するブラックボックス・リトレーニングフリーバックドア検出器STEP(Stability-based Trigger Exposure Profiling)を提案する。
その中核となる考え方は、セマンティック・ブレークング・摂動下での異常ラベルの安定性と、セマンティック・ストアング・摂動下での異常ラベルの脆弱性という、バックドア・トリガーの特徴的な二重異常を利用することである。
実験の結果、STEP は平均 AUROC 97.92% と EER 4.54% を達成し、最先端のベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 31.05830693695975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread deployment of deep-learning-based speech models in security-critical applications, backdoor attacks have emerged as a serious threat: an adversary who poisons a small fraction of training data can implant a hidden trigger that controls the model's output while preserving normal behavior on clean inputs. Existing inference-time defenses are not well suited to the audio domain, as they either rely on trigger over-robustness assumptions that fail on transformation-based and semantic triggers, or depend on properties specific to image or text modalities. In this paper, we propose STEP (Stability-based Trigger Exposure Profiling), a black-box, retraining-free backdoor detector that operates under hard-label-only access. Its core idea is to exploit a characteristic dual anomaly of backdoor triggers: anomalous label stability under semantic-breaking perturbations, and anomalous label fragility under semantic-preserving perturbations. STEP profiles each test sample with two complementary perturbation branches that target these two properties respectively, scores the resulting stability features with one-class anomaly detectors trained on benign references, and fuses the two scores via unsupervised weighting. Extensive experiments across seven backdoor attacks show that STEP achieves an average AUROC of 97.92% and EER of 4.54%, substantially outperforming state-of-the-art baselines, and generalizes across model architectures, speech tasks, an open-set verification scenario, and over-the-air physical-world settings.
- Abstract(参考訳): セキュリティクリティカルなアプリケーションにディープラーニングベースの音声モデルが広く展開されるにつれ、バックドア攻撃は深刻な脅威として浮上している。少数のトレーニングデータに毒を盛った敵が、クリーンな入力に対して正常な振る舞いを保ちながらモデルの出力を制御する隠されたトリガーを埋め込むことができる。
既存の推論時防御は、変換ベースやセマンティックトリガに失敗する過酷な仮定や、画像やテキストのモダリティに特有の特性に依存するため、オーディオドメインにはあまり適していない。
本稿では,ハードラベルのみのアクセスで動作可能なブラックボックス・リトレーニングフリーバックドア検出器STEP(Stability-based Trigger Exposure Profiling)を提案する。
その中核となる考え方は、セマンティック・ブレークング・摂動下での異常ラベルの安定性と、セマンティック・ストアング・摂動下での異常ラベルの脆弱性という、バックドア・トリガーの特徴的な二重異常を利用することである。
STEPはこれらの2つの特性をそれぞれ対象とする2つの相補的摂動枝を持つ試験試料をプロファイルし、良性基準に基づいて訓練された1級異常検出器を用いて結果の安定性特性をスコアし、教師なし重み付けにより2つのスコアを融合させる。
7つのバックドア攻撃による大規模な実験は、STEPが平均97.92%、EERが4.54%のAUROCを達成し、最先端のベースラインを大幅に上回り、モデルアーキテクチャ、スピーチタスク、オープン・セットの検証シナリオ、オーバー・ザ・エアの物理世界設定を一般化していることを示している。
関連論文リスト
- Backdoor Directions in Vision Transformers [56.382912038371046]
本稿では,視覚変換器(ViT)におけるバックドアアタックの表現方法について検討する。
我々は、トリガーの内部表現に対応するモデルのアクティベーションにおいて、特定のトリガー方向'を識別する。
この方向を診断ツールとして使用して、バックドア機能が層間でどのように処理されるかを追跡する。
論文 参考訳(メタデータ) (2026-03-11T14:13:48Z) - Noise & pattern: identity-anchored Tikhonov regularization for robust structural anomaly detection [58.535473924035365]
異常検出は自動産業検査において重要な役割を担い、他の均一な視覚パターンの微妙な欠陥や稀な欠陥を識別することを目的としている。
自己教師型オートエンコーダを用いて, 破損した入力の修復を学習する構造的異常検出に取り組む。
構造欠陥を模倣した画像に人工的破壊を注入する汚職モデルを導入する。
論文 参考訳(メタデータ) (2025-11-10T15:48:50Z) - Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning [89.1856483797116]
MLLMをベースとした組込みエージェントに視覚的バックドアを注入する最初のフレームワークであるBEATを紹介する。
テキストトリガーとは異なり、オブジェクトトリガーは視点や照明の幅が広いため、確実に移植することは困難である。
BEATは攻撃の成功率を最大80%まで達成し、強い良識のあるタスクパフォーマンスを維持します。
論文 参考訳(メタデータ) (2025-10-31T16:50:49Z) - Towards Adversarial Robustness and Uncertainty Quantification in DINOv2-based Few-Shot Anomaly Detection [6.288045889067255]
DINOv2のような基礎モデルは、数発の異常検出において強い性能を示している。
本研究は, 敵攻撃と不確実性評価に関する最初の体系的研究である。
生の異常スコアは校正が不十分で、信頼性と正しさのギャップが明らかになり、安全クリティカルな使用が制限されることがわかりました。
論文 参考訳(メタデータ) (2025-10-15T15:06:45Z) - Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models [6.182793047410624]
バックドア型事前学習言語モデルの内部挙動について検討する。
本稿では,トークンレベルの注意と勾配情報を組み合わせることで,異常スコアを構成する推論時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-05T20:15:56Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Hide in Plain Sight: Clean-Label Backdoor for Auditing Membership Inference [16.893873979953593]
本研究では,ステルスデータ監査のための新しいクリーンラベルバックドア方式を提案する。
我々のアプローチでは、ターゲットモデルの振る舞いを模倣するシャドウモデルによって生成される最適なトリガを用いる。
提案手法は,ブラックボックスアクセスによるロバストなデータ監査を可能にし,多様なデータセット間で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-11-24T20:56:18Z) - Twin Trigger Generative Networks for Backdoor Attacks against Object Detection [14.578800906364414]
オブジェクト検出器は、現実世界のアプリケーションで広く使われているが、バックドア攻撃に弱い。
バックドア攻撃に関するほとんどの研究は画像分類に焦点を合わせており、物体検出について限定的な研究がなされている。
本研究では,トレーニング中のモデルにバックドアを埋め込むための目に見えないトリガと,推論中の安定したアクティベーションのための目に見えるトリガを生成する新しいツイントリガ生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-23T03:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。