論文の概要: Watermarking Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2405.18671v1
- Date: Wed, 29 May 2024 00:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:13:51.654033
- Title: Watermarking Counterfactual Explanations
- Title(参考訳): 透かしのカウンターファクトな説明
- Authors: Hangzhi Guo, Amulya Yadav,
- Abstract要約: 機械学習(ML)モデルの予測を説明するのに役立つため、CFの説明はエンドユーザに好まれることが多い。
悪意のある敵は、クエリ効率の良いモデル抽出攻撃を実行するためにCF説明を利用することができる。
本稿では,無許可のモデル抽出攻撃を検出するために利用可能な,モデルに依存しない透かしフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.675570596243933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Explainable Artificial Intelligence (XAI) focuses on techniques for providing explanations to end-users about the decision-making processes that underlie modern-day machine learning (ML) models. Within the vast universe of XAI techniques, counterfactual (CF) explanations are often preferred by end-users as they help explain the predictions of ML models by providing an easy-to-understand & actionable recourse (or contrastive) case to individual end-users who are adversely impacted by predicted outcomes. However, recent studies have shown significant security concerns with using CF explanations in real-world applications; in particular, malicious adversaries can exploit CF explanations to perform query-efficient model extraction attacks on proprietary ML models. In this paper, we propose a model-agnostic watermarking framework (for adding watermarks to CF explanations) that can be leveraged to detect unauthorized model extraction attacks (which rely on the watermarked CF explanations). Our novel framework solves a bi-level optimization problem to embed an indistinguishable watermark into the generated CF explanation such that any future model extraction attacks that rely on these watermarked CF explanations can be detected using a null hypothesis significance testing (NHST) scheme, while ensuring that these embedded watermarks do not compromise the quality of the generated CF explanations. We evaluate this framework's performance across a diverse set of real-world datasets, CF explanation methods, and model extraction techniques, and show that our watermarking detection system can be used to accurately identify extracted ML models that are trained using the watermarked CF explanations. Our work paves the way for the secure adoption of CF explanations in real-world applications.
- Abstract(参考訳): 説明可能な人工知能(XAI)の分野は、現代の機械学習(ML)モデルを支える意思決定プロセスについてエンドユーザに説明を提供する技術に焦点を当てている。
XAIテクニックの広大な宇宙では、予測結果に悪影響を及ぼす個々のエンドユーザーに対して、容易に理解しやすく、行動可能な(あるいは対照的な)ケースを提供することによって、MLモデルの予測を説明するために、反ファクトリアル(CF)の説明がエンドユーザによって好まれることが多い。
しかし、最近の研究では、実世界のアプリケーションでCFの説明を使用する際の重大なセキュリティ上の懸念が示されている。特に、悪意のある敵はCFの説明を利用して、プロプライエタリなMLモデルに対してクエリ効率の良いモデル抽出攻撃を行うことができる。
本稿では,不許可なモデル抽出攻撃(CF説明に依存する)の検出に利用することができるモデル非依存型透かしフレームワーク(CF説明に透かしを追加する)を提案する。
提案するフレームワークは,2段階の最適化問題を解くことで,生成したCF説明に識別不能な透かしを埋め込むことにより,これらのCF説明に依存する将来のモデル抽出攻撃を,Null hypothesis important testing (NHST) スキームを用いて検出し,これらの埋め込み透かしが生成されたCF説明の品質を損なわないことを保証する。
我々は,本フレームワークの性能を,実世界のさまざまなデータセット,CF説明手法,モデル抽出手法で評価し,透かしを用いたCF説明を用いてトレーニングした抽出MLモデルを正確に識別するために,透かし検出システムを使用することを実証した。
我々の研究は、現実世界のアプリケーションでCFの説明を安全に採用するための道を開いた。
関連論文リスト
- The Gaussian Discriminant Variational Autoencoder (GdVAE): A Self-Explainable Model with Counterfactual Explanations [6.741417019751439]
視覚的対物的説明(CF)法は、画像の概念を変更し、予測を事前に定義された結果に変更する。
本稿では,条件付き変分オートエンコーダ(CVAE)とCF説明の統合に基づく自己説明可能なモデルであるGdVAEを紹介する。
CFsの整合性は、説明関数で潜在空間を正規化することによって改善される。
論文 参考訳(メタデータ) (2024-09-19T17:58:15Z) - Revisiting Catastrophic Forgetting in Large Language Model Tuning [79.70722658190097]
Catastrophic Forgetting (CF) は、新しいデータを学ぶ際に獲得した知識を忘れるモデルを意味する。
本稿では,モデル損失景観の平坦度と大規模言語モデルの分野におけるCFの広さとの直接的な関係を明らかにするための第一歩を踏み出した。
様々なモデルスケールにまたがる3つの大規模微調整データセットの実験により,CFを緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-07T11:09:13Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Knowledge Distillation-Based Model Extraction Attack using GAN-based Private Counterfactual Explanations [1.6576983459630268]
本稿では,ML プラットフォーム内で MEA を実行する上で,モデル説明,特に非現実的説明をどのように活用できるかを検討することに注力する。
本稿では,代替モデルの抽出効率を高めるため,知識蒸留(KD)に基づくMEAの新しいアプローチを提案する。
また,差分プライバシー(DP)の有効性を緩和戦略として評価した。
論文 参考訳(メタデータ) (2024-04-04T10:28:55Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - EG-Booster: Explanation-Guided Booster of ML Evasion Attacks [3.822543555265593]
本稿では,説明可能なMLの手法を活用して,敵対的事例作成をガイドするEG-Boosterという新しい手法を提案する。
EG-Boosterはアーキテクチャや脅威モデルをモデル化しておらず、以前文献で使われていた様々な距離メトリクスをサポートする。
以上の結果から,EG-Boosterは回避率を著しく向上し,摂動回数の減少が示唆された。
論文 参考訳(メタデータ) (2021-08-31T15:36:16Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。