論文の概要: From Internal Diagnosis to External Auditing: A VLM-Driven Paradigm for Online Test-Time Backdoor Defense
- arxiv url: http://arxiv.org/abs/2601.19448v1
- Date: Tue, 27 Jan 2026 10:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.285293
- Title: From Internal Diagnosis to External Auditing: A VLM-Driven Paradigm for Online Test-Time Backdoor Defense
- Title(参考訳): 内部診断から外部監査へ:オンラインテストタイムバックドアディフェンスのためのVLM駆動パラダイム
- Authors: Binyan Xu, Fan Yang, Xilin Dai, Di Tang, Kehuan Zhang,
- Abstract要約: PRISMは最先端の性能を達成し、CIFAR-10でのアタック成功率を1%に抑えつつ、クリーンな精度を改善し、モデルに依存しない外部セキュリティの新しい標準を確立した。
- 参考スコア(独自算出の注目度): 6.783000267839024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks remain inherently vulnerable to backdoor attacks. Traditional test-time defenses largely operate under the paradigm of internal diagnosis methods like model repairing or input robustness, yet these approaches are often fragile under advanced attacks as they remain entangled with the victim model's corrupted parameters. We propose a paradigm shift from Internal Diagnosis to External Semantic Auditing, arguing that effective defense requires decoupling safety from the victim model via an independent, semantically grounded auditor. To this end, we present a framework harnessing Universal Vision-Language Models (VLMs) as evolving semantic gatekeepers. We introduce PRISM (Prototype Refinement & Inspection via Statistical Monitoring), which overcomes the domain gap of general VLMs through two key mechanisms: a Hybrid VLM Teacher that dynamically refines visual prototypes online, and an Adaptive Router powered by statistical margin monitoring to calibrate gating thresholds in real-time. Extensive evaluation across 17 datasets and 11 attack types demonstrates that PRISM achieves state-of-the-art performance, suppressing Attack Success Rate to <1% on CIFAR-10 while improving clean accuracy, establishing a new standard for model-agnostic, externalized security.
- Abstract(参考訳): ディープニューラルネットワークは、バックドア攻撃に対して本質的に脆弱である。
従来のテストタイム防衛は、モデル修復や入力堅牢性といった内部診断手法のパラダイムの下で主に機能するが、これらのアプローチは、被害者モデルの破損したパラメータと絡み合っているため、先進的な攻撃の下で脆弱であることが多い。
本研究では, 効果的な防御には, 独立した意味的基盤を持つ監査者を通して, 被害者モデルから安全性を分離する必要があるとして, 内部診断から外部セマンティック監査へのパラダイムシフトを提案する。
この目的のために、ユニバーサルビジョンランゲージモデル(VLM)を進化的セマンティックゲートキーパーとして活用するフレームワークを提案する。
我々はPRISM(Prototype Refinement & Inspection via Statistical Monitoring)を導入し、ビジュアルプロトタイプをオンラインで動的に洗練するハイブリッドVLMと、統計的マージンモニタリングを利用した適応ルータの2つの主要なメカニズムにより、一般的なVLMのドメインギャップを克服し、リアルタイムにゲーティングしきい値の校正を行う。
17のデータセットと11の攻撃タイプにわたる広範囲な評価は、PRISMが最先端のパフォーマンスを実現し、CIFAR-10でアタック成功率を1%に抑えながら、クリーンな精度を改善し、モデルに依存しない外部セキュリティの新しい標準を確立していることを示している。
関連論文リスト
- MARS: A Malignity-Aware Backdoor Defense in Federated Learning [51.77354308287098]
最近提案されたSOTA攻撃(3DFed)は、ディフェンダーがバックドアモデルを受け入れたかどうかを判断するためにインジケータ機構を使用する。
本稿では,各ニューロンの有害な範囲を示すためにバックドアエネルギーを利用するMARS(Maignity-Aware backdooR defenSe)を提案する。
実験により、MARSはSOTAのバックドア攻撃に対して防御でき、既存の防御を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T14:50:02Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - All models are local: time to replace external validation with recurrent
local validation [10.043347396280009]
MLモデルの一般化性を保証するため、外部検証がしばしば推奨される。
一般化性や、モデルの臨床的有用性に匹敵するものではない。
MLモデルの安全性やユーティリティを確立するには,外部検証が不十分である,と提案する。
論文 参考訳(メタデータ) (2023-05-05T00:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。