論文の概要: A General Framework for Defending Against Backdoor Attacks via Influence
Graph
- arxiv url: http://arxiv.org/abs/2111.14309v1
- Date: Mon, 29 Nov 2021 02:55:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 05:04:59.717345
- Title: A General Framework for Defending Against Backdoor Attacks via Influence
Graph
- Title(参考訳): インフルエンスグラフによるバックドア攻撃防止のための汎用フレームワーク
- Authors: Xiaofei Sun, Jiwei Li, Xiaoya Li, Ziyao Wang, Tianwei Zhang, Han Qiu,
Fei Wu, Chun Fan
- Abstract要約: ノードとエッジはそれぞれ個別のトレーニングポイントと関連するペアワイズの影響を表す。
特定の大きさの最大平均部分グラフを求めることにより、悪意のある訓練点を抽出する。
- 参考スコア(独自算出の注目度): 26.67822472477859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a new and general framework to defend against
backdoor attacks, inspired by the fact that attack triggers usually follow a
\textsc{specific} type of attacking pattern, and therefore, poisoned training
examples have greater impacts on each other during training. We introduce the
notion of the {\it influence graph}, which consists of nodes and edges
respectively representative of individual training points and associated
pair-wise influences. The influence between a pair of training points
represents the impact of removing one training point on the prediction of
another, approximated by the influence function \citep{koh2017understanding}.
Malicious training points are extracted by finding the maximum average
sub-graph subject to a particular size. Extensive experiments on computer
vision and natural language processing tasks demonstrate the effectiveness and
generality of the proposed framework.
- Abstract(参考訳): 本研究では,攻撃トリガーが通常,攻撃パターンである「textsc{specific}」に追従するという事実にインスパイアされた,バックドア攻撃に対する防御のための新しい一般的な枠組みを提案する。
個々のトレーニングポイントと関連する対方向の影響をそれぞれ表わすノードとエッジからなる「it影響グラフ」の概念を導入する。
一対のトレーニングポイント間の影響は、影響関数 \citep{koh2017understanding} によって近似された、あるトレーニングポイントが別のトレーニングポイントの予測に与える影響を表す。
特定の大きさの最大平均サブグラフを見つけることにより、悪意のあるトレーニングポイントを抽出する。
コンピュータビジョンと自然言語処理タスクに関する大規模な実験は,提案フレームワークの有効性と汎用性を示している。
関連論文リスト
- HC-Ref: Hierarchical Constrained Refinement for Robust Adversarial
Training of GNNs [7.635985143883581]
コンピュータビジョンにおける敵の攻撃に対する最も効果的な防御機構の1つとされる敵の訓練は、GNNの堅牢性を高めるという大きな約束を持っている。
本稿では,GNNと下流分類器の対摂動性を高める階層的制約改善フレームワーク(HC-Ref)を提案する。
論文 参考訳(メタデータ) (2023-12-08T07:32:56Z) - Towards Reasonable Budget Allocation in Untargeted Graph Structure
Attacks via Gradient Debias [50.628150015907565]
クロスエントロピー損失関数は、分類タスクにおける摂動スキームを評価するために用いられる。
従来の手法ではノードレベルの分類モデルを攻撃する攻撃対象として負のクロスエントロピー損失を用いる。
本稿では、予算配分の観点から、これまでの不合理な攻撃目標について論じる。
論文 参考訳(メタデータ) (2023-03-29T13:02:02Z) - Decentralized Adversarial Training over Graphs [55.28669771020857]
機械学習モデルの敵攻撃に対する脆弱性は、近年、かなりの注目を集めている。
この研究は、個々のエージェントが様々な強度摂動空間に従属するグラフ上の敵の訓練を研究する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z) - Hidden Poison: Machine Unlearning Enables Camouflaged Poisoning Attacks [22.742818282850305]
Camouflaged data poisoning attackは、モデルの再トレーニングが誘発される場合に発生する。
特に、CIFAR-10、Imagenette、Imagewoofなどのデータセットに対するクリーンラベルターゲット攻撃について検討する。
この攻撃は、有毒なデータセットの効果を隠蔽するカモフラージュデータポイントを構築することで実現される。
論文 参考訳(メタデータ) (2022-12-21T01:52:17Z) - Identifying a Training-Set Attack's Target Using Renormalized Influence
Estimation [11.663072799764542]
本研究は、特定のテストインスタンスがトレーニングセットアタックのターゲットであるかどうかを判定するターゲット識別タスクを提案する。
単一の攻撃方法やデータモダリティではなく、各トレーニングインスタンスのモデル予測への貢献度を定量化するインフルエンス推定に基づいて構築する。
論文 参考訳(メタデータ) (2022-01-25T02:36:34Z) - Identification of Attack-Specific Signatures in Adversarial Examples [62.17639067715379]
異なる攻撃アルゴリズムは, その効果だけでなく, 被害者の質的な影響も示している。
以上の結果から, 予測的対人攻撃は, 模擬モデルにおける成功率だけでなく, 被害者に対するより深い下流効果によって比較されるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T15:40:48Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z) - Towards Class-Oriented Poisoning Attacks Against Neural Networks [1.14219428942199]
機械学習システムに対する攻撃は、トレーニングデータセットに悪意のあるサンプルを意図的に注入することで、モデルのパフォーマンスを損なう。
そこで本研究では, 破損したモデルに対して, 2つの特定の予測を強制的に行うクラス指向中毒攻撃を提案する。
逆効果の最大化と、有毒なデータ生成の計算複雑性の低減を図るため、勾配に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T19:27:37Z) - Understanding Adversarial Examples from the Mutual Influence of Images
and Perturbations [83.60161052867534]
クリーンな画像と敵の摂動を遠ざけることで敵の例を分析し,その相互への影響を分析した。
以上の結果から,画像と普遍摂動の関係に対する新たな視点が示唆された。
我々は、オリジナルトレーニングデータを活用することなく、目標とするユニバーサルアタックの挑戦的なタスクを最初に達成した人物です。
論文 参考訳(メタデータ) (2020-07-13T05:00:09Z) - Topological Effects on Attacks Against Vertex Classification [61.62383779296796]
本稿では,グラフの2つのトポロジ的特徴を考察し,これらの特徴がグラフを乱さなければならない量に与える影響について考察する。
トレーニングセットに特定の頂点が組み込まれている場合、敵の要求する摂動予算を実質的に満たすことが可能であることを示す。
特に簡単なターゲット(たった1つか2つの摂動の後に誤って分類されるもの)であっても、パフォーマンスの劣化ははるかに遅く、誤ったクラスにずっと低い確率を割り当てる。
論文 参考訳(メタデータ) (2020-03-12T14:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。