論文の概要: XRand: Differentially Private Defense against Explanation-Guided Attacks
- arxiv url: http://arxiv.org/abs/2212.04454v1
- Date: Thu, 8 Dec 2022 18:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:35:01.324075
- Title: XRand: Differentially Private Defense against Explanation-Guided Attacks
- Title(参考訳): XRand:説明誘導攻撃に対する個人防衛
- Authors: Truc Nguyen, Phung Lai, NhatHai Phan, My T. Thai
- Abstract要約: 本稿では,局所微分プライバシー(LDP)を実現するための新しい概念を紹介する。
本機構は,説明の忠実さを維持しつつ,敵が最も重要な特徴について学べる情報を制限するものであることを示す。
- 参考スコア(独自算出の注目度): 19.682368614810756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent development in the field of explainable artificial intelligence (XAI)
has helped improve trust in Machine-Learning-as-a-Service (MLaaS) systems, in
which an explanation is provided together with the model prediction in response
to each query. However, XAI also opens a door for adversaries to gain insights
into the black-box models in MLaaS, thereby making the models more vulnerable
to several attacks. For example, feature-based explanations (e.g., SHAP) could
expose the top important features that a black-box model focuses on. Such
disclosure has been exploited to craft effective backdoor triggers against
malware classifiers. To address this trade-off, we introduce a new concept of
achieving local differential privacy (LDP) in the explanations, and from that
we establish a defense, called XRand, against such attacks. We show that our
mechanism restricts the information that the adversary can learn about the top
important features, while maintaining the faithfulness of the explanations.
- Abstract(参考訳): 説明可能な人工知能(xai)の分野での最近の開発は、機械学習・アズ・ア・サービス(mlaas: machine-learning-as-a-service)システムの信頼性向上に寄与している。
しかしながら、XAIはまた、MLaaSのブラックボックスモデルに関する洞察を得るための敵の扉を開くことで、モデルがいくつかの攻撃に対してより脆弱になる。
例えば、機能ベースの説明(例えばSHAP)は、ブラックボックスモデルがフォーカスする最も重要な特徴を明らかにすることができる。
このような開示は、マルウェア分類器に対する効果的なバックドアトリガーを作成するために利用されてきた。
このトレードオフに対処するために、我々は、説明の中でローカルディファレンシャルプライバシ(LDP)を達成するという新しい概念を導入し、そこから、そのような攻撃に対してXRandと呼ばれる防衛手段を確立する。
本機構は,説明の忠実さを維持しつつ,敵が最も重要な特徴について学べる情報を制限するものであることを示す。
関連論文リスト
- Model X-ray:Detect Backdoored Models via Decision Boundary [66.41173675107886]
ディープニューラルネットワーク(DNN)はさまざまな産業に革命をもたらし、機械学習・アズ・ア・サービス(ML)の台頭につながった。
DNNはバックドア攻撃の影響を受けやすいため、アプリケーションに重大なリスクが生じる。
本稿では,決定境界の解析を通じて,MLの新しいバックドア検出手法であるModel X-rayを提案する。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Black-box Attacks on Image Activity Prediction and its Natural Language
Explanations [27.301741710016223]
説明可能なAI(XAI)手法は、ディープニューラルネットワークの決定プロセスを記述することを目的としている。
Visual XAIメソッドは、ホワイトボックスやグレイボックスの攻撃に弱いことが示されている。
我々は,最終出力にのみアクセスすることで,行動認識モデルの説明を操作できる敵画像を作成することができることを示す。
論文 参考訳(メタデータ) (2023-09-30T21:56:43Z) - The Dark Side of AutoML: Towards Architectural Backdoor Search [49.16544351888333]
EVASはNASを利用した新たな攻撃で、固有のバックドアを持つニューラルネットワークを見つけ出し、入力認識トリガを使用してそのような脆弱性を悪用する。
EVASは高い回避性、転送可能性、堅牢性を特徴とし、敵の設計スペクトルを拡大する。
この研究は、NASの現在の実践に対する懸念を高め、効果的な対策を開発するための潜在的方向性を示す。
論文 参考訳(メタデータ) (2022-10-21T18:13:23Z) - The privacy issue of counterfactual explanations: explanation linkage
attacks [0.0]
本稿では、インスタンスベースの戦略をデプロイして、偽説明を見つける際に発生する説明リンク攻撃について紹介する。
このような攻撃に対抗するため、我々はk匿名の偽物説明を提案し、これらのk匿名の偽物説明の有効性を評価するための新しい指標として純粋性を導入する。
この結果から,データセット全体ではなく,k-匿名で説明を行うことが,説明の質に有益であることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T15:44:19Z) - Differentially Private Counterfactuals via Functional Mechanism [47.606474009932825]
本稿では,デプロイされたモデルや説明セットに触れることなく,差分的プライベート・カウンティファクト(DPC)を生成する新しいフレームワークを提案する。
特に、ノイズの多いクラスプロトタイプを構築するための機能機構を備えたオートエンコーダを訓練し、次に潜伏プロトタイプからDPCを導出する。
論文 参考訳(メタデータ) (2022-08-04T20:31:22Z) - A Framework for Understanding Model Extraction Attack and Defense [48.421636548746704]
我々は,モデルユーティリティとユーザとのトレードオフと,敵の視点によるプライバシについて検討する。
我々は,このようなトレードオフを定量化し,その理論的特性を分析し,最適な敵攻撃・防衛戦略を理解するための最適化問題を開発する。
論文 参考訳(メタデータ) (2022-06-23T05:24:52Z) - Backdooring Explainable Machine Learning [0.8180960351554997]
我々は、機械学習モデルに対する進行中の攻撃を完全に偽装できるブラインド攻撃を実証する。
ニューラルバックドアと同様に、トリガー存在時にモデルの予測を変更すると同時に、提供された説明を騙す。
論文 参考訳(メタデータ) (2022-04-20T14:40:09Z) - Exploiting Explanations for Model Inversion Attacks [19.91586648726519]
モデル説明からプライベートな画像データを再構成する性能を高め、画像に基づくモデル反転攻撃のリスクを検討する。
我々は,複数のマルチモーダル変換cnnアーキテクチャを開発し,ターゲットモデル予測のみを用いた場合よりも大幅に高いインバージョン性能を実現する。
これらの脅威は、説明の緊急かつ重要なプライバシーリスクを強調し、新しいプライバシー保護技術への注意を呼びかける。
論文 参考訳(メタデータ) (2021-04-26T15:53:57Z) - Improving Robustness to Model Inversion Attacks via Mutual Information
Regularization [12.079281416410227]
本稿では,モデル逆転攻撃に対する防御機構について検討する。
MIは、ターゲット機械学習モデルへのアクセスからトレーニングデータ配布に関する情報を推測することを目的とした、プライバシ攻撃の一種である。
我々はMI攻撃に対するMID(Multual Information Regularization based Defense)を提案する。
論文 参考訳(メタデータ) (2020-09-11T06:02:44Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。