論文の概要: XRand: Differentially Private Defense against Explanation-Guided Attacks
- arxiv url: http://arxiv.org/abs/2212.04454v1
- Date: Thu, 8 Dec 2022 18:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:35:01.324075
- Title: XRand: Differentially Private Defense against Explanation-Guided Attacks
- Title(参考訳): XRand:説明誘導攻撃に対する個人防衛
- Authors: Truc Nguyen, Phung Lai, NhatHai Phan, My T. Thai
- Abstract要約: 本稿では,局所微分プライバシー(LDP)を実現するための新しい概念を紹介する。
本機構は,説明の忠実さを維持しつつ,敵が最も重要な特徴について学べる情報を制限するものであることを示す。
- 参考スコア(独自算出の注目度): 19.682368614810756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent development in the field of explainable artificial intelligence (XAI)
has helped improve trust in Machine-Learning-as-a-Service (MLaaS) systems, in
which an explanation is provided together with the model prediction in response
to each query. However, XAI also opens a door for adversaries to gain insights
into the black-box models in MLaaS, thereby making the models more vulnerable
to several attacks. For example, feature-based explanations (e.g., SHAP) could
expose the top important features that a black-box model focuses on. Such
disclosure has been exploited to craft effective backdoor triggers against
malware classifiers. To address this trade-off, we introduce a new concept of
achieving local differential privacy (LDP) in the explanations, and from that
we establish a defense, called XRand, against such attacks. We show that our
mechanism restricts the information that the adversary can learn about the top
important features, while maintaining the faithfulness of the explanations.
- Abstract(参考訳): 説明可能な人工知能(xai)の分野での最近の開発は、機械学習・アズ・ア・サービス(mlaas: machine-learning-as-a-service)システムの信頼性向上に寄与している。
しかしながら、XAIはまた、MLaaSのブラックボックスモデルに関する洞察を得るための敵の扉を開くことで、モデルがいくつかの攻撃に対してより脆弱になる。
例えば、機能ベースの説明(例えばSHAP)は、ブラックボックスモデルがフォーカスする最も重要な特徴を明らかにすることができる。
このような開示は、マルウェア分類器に対する効果的なバックドアトリガーを作成するために利用されてきた。
このトレードオフに対処するために、我々は、説明の中でローカルディファレンシャルプライバシ(LDP)を達成するという新しい概念を導入し、そこから、そのような攻撃に対してXRandと呼ばれる防衛手段を確立する。
本機構は,説明の忠実さを維持しつつ,敵が最も重要な特徴について学べる情報を制限するものであることを示す。
関連論文リスト
- When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。
本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - Privacy Implications of Explainable AI in Data-Driven Systems [0.0]
機械学習(ML)モデルは、解釈可能性の欠如に悩まされる。
透明性の欠如は、しばしばMLモデルのブラックボックスの性質と呼ばれ、信頼を損なう。
XAI技術は、内部の意思決定プロセスを説明するためのフレームワークと方法を提供することによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-06-22T08:51:58Z) - Revealing Vulnerabilities of Neural Networks in Parameter Learning and Defense Against Explanation-Aware Backdoors [2.1165011830664673]
ブラディング攻撃は、機械学習アルゴリズムの予測と説明を大きく変える可能性がある。
我々は統計的解析を利用して、目隠し攻撃後のCNN内のCNN重みの変化を明らかにする。
本研究では,評価段階における攻撃の有効性を限定する手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T09:36:10Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - The Dark Side of AutoML: Towards Architectural Backdoor Search [49.16544351888333]
EVASはNASを利用した新たな攻撃で、固有のバックドアを持つニューラルネットワークを見つけ出し、入力認識トリガを使用してそのような脆弱性を悪用する。
EVASは高い回避性、転送可能性、堅牢性を特徴とし、敵の設計スペクトルを拡大する。
この研究は、NASの現在の実践に対する懸念を高め、効果的な対策を開発するための潜在的方向性を示す。
論文 参考訳(メタデータ) (2022-10-21T18:13:23Z) - The privacy issue of counterfactual explanations: explanation linkage
attacks [0.0]
本稿では、インスタンスベースの戦略をデプロイして、偽説明を見つける際に発生する説明リンク攻撃について紹介する。
このような攻撃に対抗するため、我々はk匿名の偽物説明を提案し、これらのk匿名の偽物説明の有効性を評価するための新しい指標として純粋性を導入する。
この結果から,データセット全体ではなく,k-匿名で説明を行うことが,説明の質に有益であることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T15:44:19Z) - Differentially Private Counterfactuals via Functional Mechanism [47.606474009932825]
本稿では,デプロイされたモデルや説明セットに触れることなく,差分的プライベート・カウンティファクト(DPC)を生成する新しいフレームワークを提案する。
特に、ノイズの多いクラスプロトタイプを構築するための機能機構を備えたオートエンコーダを訓練し、次に潜伏プロトタイプからDPCを導出する。
論文 参考訳(メタデータ) (2022-08-04T20:31:22Z) - A Framework for Understanding Model Extraction Attack and Defense [48.421636548746704]
我々は,モデルユーティリティとユーザとのトレードオフと,敵の視点によるプライバシについて検討する。
我々は,このようなトレードオフを定量化し,その理論的特性を分析し,最適な敵攻撃・防衛戦略を理解するための最適化問題を開発する。
論文 参考訳(メタデータ) (2022-06-23T05:24:52Z) - Backdooring Explainable Machine Learning [0.8180960351554997]
我々は、機械学習モデルに対する進行中の攻撃を完全に偽装できるブラインド攻撃を実証する。
ニューラルバックドアと同様に、トリガー存在時にモデルの予測を変更すると同時に、提供された説明を騙す。
論文 参考訳(メタデータ) (2022-04-20T14:40:09Z) - Exploiting Explanations for Model Inversion Attacks [19.91586648726519]
モデル説明からプライベートな画像データを再構成する性能を高め、画像に基づくモデル反転攻撃のリスクを検討する。
我々は,複数のマルチモーダル変換cnnアーキテクチャを開発し,ターゲットモデル予測のみを用いた場合よりも大幅に高いインバージョン性能を実現する。
これらの脅威は、説明の緊急かつ重要なプライバシーリスクを強調し、新しいプライバシー保護技術への注意を呼びかける。
論文 参考訳(メタデータ) (2021-04-26T15:53:57Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。