Fugu-MT 論文翻訳(概要): Detecting Backdoors During the Inference Stage Based on Corruption Robustness Consistency

論文の概要: Detecting Backdoors During the Inference Stage Based on Corruption Robustness Consistency

arxiv url: http://arxiv.org/abs/2303.18191v1
Date: Mon, 27 Mar 2023 07:10:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-09 05:55:22.821525
Title: Detecting Backdoors During the Inference Stage Based on Corruption Robustness Consistency
Title（参考訳）: 破壊ロバスト性一貫性に基づく推論段階のバックドア検出
Authors: Xiaogeng Liu, Minghui Li, Haoyu Wang, Shengshan Hu, Dengpan Ye, Hai Jin, Libing Wu, Chaowei Xiao
Abstract要約: 本稿では,被害者モデルのハードラベル出力のみを必要とする試験時間トリガーサンプル検出法を提案する。私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのに、トリガーサンプルに対して不一致に実行するという興味深い観察から始まります。大規模な実験では、最先端のディフェンスと比較すると、TeCoは異なるバックドア攻撃、データセット、モデルアーキテクチャにおいて、それらよりも優れています。
参考スコア（独自算出の注目度）: 33.42013309686333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural networks are proven to be vulnerable to backdoor attacks. Detecting the trigger samples during the inference stage, i.e., the test-time trigger sample detection, can prevent the backdoor from being triggered. However, existing detection methods often require the defenders to have high accessibility to victim models, extra clean data, or knowledge about the appearance of backdoor triggers, limiting their practicality. In this paper, we propose the test-time corruption robustness consistency evaluation (TeCo), a novel test-time trigger sample detection method that only needs the hard-label outputs of the victim models without any extra information. Our journey begins with the intriguing observation that the backdoor-infected models have similar performance across different image corruptions for the clean images, but perform discrepantly for the trigger samples. Based on this phenomenon, we design TeCo to evaluate test-time robustness consistency by calculating the deviation of severity that leads to predictions' transition across different corruptions. Extensive experiments demonstrate that compared with state-of-the-art defenses, which even require either certain information about the trigger types or accessibility of clean data, TeCo outperforms them on different backdoor attacks, datasets, and model architectures, enjoying a higher AUROC by 10% and 5 times of stability.
Abstract（参考訳）: ディープニューラルネットワークはバックドア攻撃に弱いことが証明されている。推論ステージ中のトリガサンプル、すなわちテスト時のトリガサンプル検出を検出することで、バックドアのトリガを防止することができる。しかし、既存の検出方法は、ディフェンダーが被害者モデルへの高いアクセシビリティ、余分なクリーンデータ、バックドアトリガーの出現に関する知識を要求され、実用性が制限されることが多い。本稿では,被害者モデルのハードラベル出力のみを必要とする新しい試験時間トリガーサンプル検出手法であるTeCo(Test-time corruption robustness consistency Evaluation)を提案する。私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのを興味深い観察から始まります。この現象に基づき,異なる汚職をまたいだ予測結果のずれを計算し,テスト時のロバスト性一貫性を評価するためにtecoを設計した。さまざまなバックドア攻撃、データセット、モデルアーキテクチャにおいてTeCoは、トリガータイプやクリーンデータのアクセシビリティに関する特定の情報を必要とする最先端のディフェンスと比較して、より高いAUROCを10%と5倍の安定性で楽しめます。

関連論文リスト

DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。 triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文参考訳（メタデータ） (2025-07-30T16:31:13Z)
BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文参考訳（メタデータ） (2025-07-14T17:13:06Z)
Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。 Invisible Backdoor Attack (IBA) を提案する。
論文参考訳（メタデータ） (2025-03-22T10:41:46Z)
Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文参考訳（メタデータ） (2025-03-21T06:12:06Z)
Test-Time Backdoor Detection for Object Detection Models [14.69149115853361]
オブジェクト検出モデルは、バックドア攻撃に対して脆弱である。 TRACE(Transform Consistency Evaluation)は、オブジェクト検出において、テスト時に有毒なサンプルを検出する新しい方法である。 TRACEは、最先端の防御に対するAUROCの30%の改善を示す広範な実験により、ブラックボックス、普遍的なバックドア検出を実現している。
論文参考訳（メタデータ） (2025-03-19T15:12:26Z)
Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0]
バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文参考訳（メタデータ） (2024-12-11T19:54:14Z)
Twin Trigger Generative Networks for Backdoor Attacks against Object Detection [14.578800906364414]
オブジェクト検出器は、現実世界のアプリケーションで広く使われているが、バックドア攻撃に弱い。バックドア攻撃に関するほとんどの研究は画像分類に焦点を合わせており、物体検出について限定的な研究がなされている。本研究では,トレーニング中のモデルにバックドアを埋め込むための目に見えないトリガと,推論中の安定したアクティベーションのための目に見えるトリガを生成する新しいツイントリガ生成ネットワークを提案する。
論文参考訳（メタデータ） (2024-11-23T03:46:45Z)
Reliable Poisoned Sample Detection against Backdoor Attacks Enhanced by Sharpness Aware Minimization [38.957943962546864]
我々は,バニラ学習アルゴリズムではなく,シャープネス・アウェア最小化(SAM)アルゴリズムを用いて1つのモデルを訓練することを提案する。いくつかのベンチマークデータセットに対する大規模な実験は、弱いバックドア攻撃と強いバックドア攻撃の両方に対して提案手法の信頼性の高い検出性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:35:08Z)
Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文参考訳（メタデータ） (2024-10-16T18:44:22Z)
PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection [57.571451139201855]
予測シフトバックドア検出(英: Prediction Shift Backdoor Detection、PSBD)は、ディープニューラルネットワークにおけるバックドアサンプルを識別する新しい手法である。 PSBDは興味深い予測シフト(PS)現象によって動機付けられており、クリーンなデータに対する有害なモデルの予測は、しばしば真のラベルから別のラベルへとシフトする。 PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。
論文参考訳（メタデータ） (2024-06-09T15:31:00Z)
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文参考訳（メタデータ） (2024-05-01T12:03:39Z)
Leveraging Diffusion-Based Image Variations for Robust Training on Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-10T07:25:06Z)
Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文参考訳（メタデータ） (2023-10-08T18:57:36Z)
Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文参考訳（メタデータ） (2022-11-02T17:05:45Z)
Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文参考訳（メタデータ） (2022-07-09T07:05:53Z)
Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural Networks [25.23881974235643]
バックドア攻撃は、引き起こされたサンプルの周りでよりスムーズな決定関数を誘導することを示します。実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
論文参考訳（メタデータ） (2020-06-11T18:28:54Z)
Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文参考訳（メタデータ） (2020-06-10T04:12:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。