論文の概要: SCOUT: A Defense Against Data Poisoning Attacks in Fine-Tuned Language Models
- arxiv url: http://arxiv.org/abs/2512.10998v1
- Date: Wed, 10 Dec 2025 17:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.513558
- Title: SCOUT: A Defense Against Data Poisoning Attacks in Fine-Tuned Language Models
- Title(参考訳): SCOUT: 微調整言語モデルの攻撃に対する防御
- Authors: Mohamed Afane, Abhishek Satyam, Ke Chen, Tao Li, Junaid Farooq, Juntao Chen,
- Abstract要約: 本稿では,ドメイン固有の知識と意味的妥当性を活かした,コンテキスト認識型攻撃シナリオを3つ紹介する。
textbfSCOUT (Saliency-based Classification of Untrusted Tokens) はトークンレベルの塩分分析によりバックドアトリガを識別する新しい防御フレームワークである。
- 参考スコア(独自算出の注目度): 11.304852987259041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks create significant security threats to language models by embedding hidden triggers that manipulate model behavior during inference, presenting critical risks for AI systems deployed in healthcare and other sensitive domains. While existing defenses effectively counter obvious threats such as out-of-context trigger words and safety alignment violations, they fail against sophisticated attacks using contextually-appropriate triggers that blend seamlessly into natural language. This paper introduces three novel contextually-aware attack scenarios that exploit domain-specific knowledge and semantic plausibility: the ViralApp attack targeting social media addiction classification, the Fever attack manipulating medical diagnosis toward hypertension, and the Referral attack steering clinical recommendations. These attacks represent realistic threats where malicious actors exploit domain-specific vocabulary while maintaining semantic coherence, demonstrating how adversaries can weaponize contextual appropriateness to evade conventional detection methods. To counter both traditional and these sophisticated attacks, we present \textbf{SCOUT (Saliency-based Classification Of Untrusted Tokens)}, a novel defense framework that identifies backdoor triggers through token-level saliency analysis rather than traditional context-based detection methods. SCOUT constructs a saliency map by measuring how the removal of individual tokens affects the model's output logits for the target label, enabling detection of both conspicuous and subtle manipulation attempts. We evaluate SCOUT on established benchmark datasets (SST-2, IMDB, AG News) against conventional attacks (BadNet, AddSent, SynBkd, StyleBkd) and our novel attacks, demonstrating that SCOUT successfully detects these sophisticated threats while preserving accuracy on clean inputs.
- Abstract(参考訳): バックドア攻撃は、推論中のモデル動作を操作する隠されたトリガーを埋め込むことで、言語モデルに重大なセキュリティ脅威を生じさせ、医療やその他の機密ドメインにデプロイされるAIシステムにとって重要なリスクを提示する。
既存の防御は、文脈外トリガーワードや安全アライメント違反などの明らかな脅威に効果的に対処する一方で、文脈的に適切なトリガーを使って自然言語にシームレスにブレンドする高度な攻撃には失敗する。
本稿では、ソーシャルメディア依存分類をターゲットとしたVirralApp攻撃、高血圧に対する医療診断を操作するFever攻撃、Referral attackステアリングクリニカルレコメンデーションの3つの新しいコンテキスト認識型攻撃シナリオを紹介する。
これらの攻撃は、悪意あるアクターが意味的コヒーレンスを維持しながらドメイン固有の語彙を悪用する現実的な脅威であり、敵が従来の検出方法を避けるためにコンテキスト的適切性を武器化する方法を示している。
従来の文脈に基づく検出手法ではなく,トークンレベルのサリエンシ分析によるバックドアトリガを識別する新しい防御フレームワークである。
SCOUTは、個々のトークンの削除がターゲットラベルに対するモデルの出力ロジットにどのように影響するかを測定し、目立った操作と微妙な操作の両方の検出を可能にする。
我々は,従来の攻撃(BadNet,AddSent,SynBkd,StyleBkd)に対して確立されたベンチマークデータセット(SST-2,IMDB,AG News)を用いてSCOUTを評価する。
関連論文リスト
- CLIProv: A Contrastive Log-to-Intelligence Multimodal Approach for Threat Detection and Provenance Analysis [6.680853786327484]
本稿では,ホストシステムにおける脅威行動を検出する新しいアプローチであるCLIProvを紹介する。
脅威インテリジェンスに攻撃パターン情報を活用することで、CLIProvはTTPを特定し、完全かつ簡潔な攻撃シナリオを生成する。
最先端の手法と比較して、CLIProvは精度が高く、検出効率が大幅に向上している。
論文 参考訳(メタデータ) (2025-07-12T04:20:00Z) - Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。
本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。
適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:25:12Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。