Fugu-MT 論文翻訳(概要): Adversarial Unlearning of Backdoors via Implicit Hypergradient

論文の概要: Adversarial Unlearning of Backdoors via Implicit Hypergradient

arxiv url: http://arxiv.org/abs/2110.03735v1
Date: Thu, 7 Oct 2021 18:32:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-11 14:35:55.775525
Title: Adversarial Unlearning of Backdoors via Implicit Hypergradient
Title（参考訳）: 暗黙のハイパーグラディエントによるバックドアの非学習
Authors: Yi Zeng, Si Chen, Won Park, Z. Morley Mao, Jin Ming and Ruoxi Jia
Abstract要約: 汚染されたモデルから少量のクリーンデータに基づいてバックドアを除去するミニマックスの定式化を提案する。我々はImlicit Bacdoor Adversarial Unlearning (I-BAU)アルゴリズムを用いてミニマックスを解く。 I-BAUのパフォーマンスは最高のベースラインに匹敵するものであり、ほとんどの場合、最高のベースラインよりも優れています。
参考スコア（独自算出の注目度）: 13.496838121707754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a minimax formulation for removing backdoors from a given poisoned model based on a small set of clean data. This formulation encompasses much of prior work on backdoor removal. We propose the Implicit Bacdoor Adversarial Unlearning (I-BAU) algorithm to solve the minimax. Unlike previous work, which breaks down the minimax into separate inner and outer problems, our algorithm utilizes the implicit hypergradient to account for the interdependence between inner and outer optimization. We theoretically analyze its convergence and the generalizability of the robustness gained by solving minimax on clean data to unseen test data. In our evaluation, we compare I-BAU with six state-of-art backdoor defenses on seven backdoor attacks over two datasets and various attack settings, including the common setting where the attacker targets one class as well as important but underexplored settings where multiple classes are targeted. I-BAU's performance is comparable to and most often significantly better than the best baseline. Particularly, its performance is more robust to the variation on triggers, attack settings, poison ratio, and clean data size. Moreover, I-BAU requires less computation to take effect; particularly, it is more than $13\times$ faster than the most efficient baseline in the single-target attack setting. Furthermore, it can remain effective in the extreme case where the defender can only access 100 clean samples -- a setting where all the baselines fail to produce acceptable results.
Abstract（参考訳）: 本稿では,少量の清潔なデータをもとに,汚染モデルからバックドアを除去するためのミニマックスの定式化を提案する。この定式化は、バックドア除去に関する以前の作業の多くを含む。本稿では,暗黙のbacdoor adversarial unlearning (i-bau) アルゴリズムを提案する。 minimaxを内外問題に分解する以前の研究とは異なり、このアルゴリズムは内外最適化と内外最適化の相互依存性を考慮するために暗黙の超勾配を利用する。クリーンデータ上でミニマックスを解くことによって得られるロバスト性の収束性と一般化性について理論的に解析する。評価では、I-BAUと6つの最先端のバックドアディフェンスを比較し、2つのデータセットに対する7つのバックドアアタックと、攻撃者が1つのクラスをターゲットにする共通設定を含む様々なアタックセッティングを比較した。 i-bauのパフォーマンスは、最高のベースラインよりも非常に優れています。特に、そのパフォーマンスは、トリガー、攻撃設定、毒の比率、クリーンなデータサイズの変化に対してより堅牢である。さらに、I-BAUはより少ない計算を必要とする。特に、シングルターゲット攻撃設定における最も効率的なベースラインよりも13\times$よりも高速である。さらに、ディフェンダーが100個のクリーンなサンプルしかアクセスできないという極端なケースでは有効であり続けることができる。

関連論文リスト

ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。 $textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。 $textitELBA-Bench$は1300以上の実験を提供する。
論文参考訳（メタデータ） (2025-02-22T12:55:28Z)
Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文参考訳（メタデータ） (2024-12-09T05:30:25Z)
FLARE: Towards Universal Dataset Purification against Backdoor Attacks [16.97677097266535]
ディープニューラルネットワーク(DNN)は、バックドア攻撃の影響を受けやすい。隠れたバックドアを埋め込むために、敵に特定されたトリガーを持つ敵の毒のデータセット。各種バックドア攻撃に対する汎用的浄化法であるFLAREを提案する。
論文参考訳（メタデータ） (2024-11-29T05:34:21Z)
LADDER: Multi-objective Backdoor Attack via Evolutionary Algorithm [11.95174457001938]
本研究は、進化的アルゴリズム(LADDER)による二重領域における多目的ブラックボックスバックドア攻撃を提案する。特に,多目的最適化問題 (MOP) として LADDER を定式化し,多目的進化アルゴリズム (MOEA) を用いて解く。 LADDERの攻撃効果は少なくとも99%、攻撃力90.23%、優れた自然ステルスネス(1.12倍から196.74倍)、優れた分光ステルスネス(8.45倍の強化)が5つの公開データセットの平均$l$-normによる現在のステルスシーアタックと比較して総合的に示されている。
論文参考訳（メタデータ） (2024-11-28T11:50:23Z)
CleanerCLIP: Fine-grained Counterfactual Semantic Augmentation for Backdoor Defense in Contrastive Learning [53.766434746801366]
バックドアトリガの特徴的接続を遮断するための細粒な textbfText textbfAlignment textbfCleaner (TA-Cleaner) を提案する。 TA-Cleanerは、ファインタニングベースの防御技術の中で最先端の防御性を達成している。
論文参考訳（メタデータ） (2024-09-26T07:35:23Z)
Fisher Information guided Purification against Backdoor Attacks [22.412186735687786]
我々は、新しいバックドア浄化フレームワーク、Fisher Information Guided Purification (FIP)を提案する。 FIPは、バックドア効果の抑制と、クリーンなデータ分布の取得した知識を維持するためにモデルを支援する2つの新しい正規化器で構成されている。さらに、Fast FIPと呼ばれる効率的なFIPを導入し、チューニング可能なパラメータの数を著しく削減し、約5倍のランタイムゲインを得る。
論文参考訳（メタデータ） (2024-09-01T23:09:44Z)
UNIT: Backdoor Mitigation via Automated Neural Distribution Tightening [43.09750187130803]
ディープニューラルネットワーク(DNN)は様々な分野で有効性を示している。 DNNはバックドアアタックに対して脆弱で、インプットにトリガーと呼ばれるユニークなパターンを注入することで、アタック・チョーゼンターゲットラベルの誤分類を引き起こす。本稿では, 各種攻撃に対するバックドア効果を効果的に除去する, ポストトレーニング防衛技術を紹介する。
論文参考訳（メタデータ） (2024-07-16T04:33:05Z)
Efficient Backdoor Removal Through Natural Gradient Fine-tuning [4.753323975780736]
最近のバックドア攻撃は、敵がそのようなトレーニングの詳細を活用でき、ディープニューラルネットワーク(DNN)の完全性を損なうことを示唆している。我々の研究では、バックドアモデルは通常、悪い局所的なミニマ、すなわち良質なモデルよりもシャープなミニマに最適化されていることが示されている。本研究では,1層のみを微調整することによってバックドアを除去することに焦点を当てた,新しいバックドア技術であるNatural Gradient Fine-tuning(NGF)を提案する。
論文参考訳（メタデータ） (2023-06-30T07:25:38Z)
Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。バックドアアタックは、訓練段階の脅威を脅かしている。軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文参考訳（メタデータ） (2023-05-11T10:05:57Z)
A Large-scale Multiple-objective Method for Black-box Attack against Object Detection [70.00150794625053]
我々は、真正の確率を最小化し、偽正の確率を最大化し、より多くの偽正の物体が新しい真正の有界箱を作らないようにする。我々は、GARSDCと呼ばれるランダム・サブセット選択とディバイド・アンド・コンカーによる標準的な遺伝的アルゴリズムを拡張し、効率を大幅に改善する。最先端攻撃法と比較して、GARSDCはmAPでは平均12.0、広範囲な実験ではクエリでは約1000倍減少する。
論文参考訳（メタデータ） (2022-09-16T08:36:42Z)
Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。 SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文参考訳（メタデータ） (2022-07-25T03:24:58Z)
Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文参考訳（メタデータ） (2022-07-09T07:05:53Z)
Bilateral Dependency Optimization: Defending Against Model-inversion Attacks [61.78426165008083]
本稿では,モデル反転攻撃に対する二元的依存性最適化(BiDO)戦略を提案する。 BiDOは、さまざまなデータセット、分類器、MI攻撃に対する最先端の防御性能を達成する。
論文参考訳（メタデータ） (2022-06-11T10:07:03Z)
Targeted Attack against Deep Neural Networks via Flipping Limited Weight Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文参考訳（メタデータ） (2021-02-21T03:13:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。