論文の概要: Watermarking Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2405.18671v2
- Date: Sun, 20 Oct 2024 18:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:26.857463
- Title: Watermarking Counterfactual Explanations
- Title(参考訳): 透かしのカウンターファクトな説明
- Authors: Hangzhi Guo, Firdaus Ahmed Choudhury, Tinghua Chen, Amulya Yadav,
- Abstract要約: CFの説明は、現実世界のアプリケーションに重大なセキュリティリスクをもたらすことが示されている。
非許可モデル抽出攻撃を検出するためのモデルに依存しない透かしフレームワークCFMarkを提案する。
私たちの研究は、実世界のアプリケーションにCF説明を安全に配置するための重要な基盤を確立します。
- 参考スコア(独自算出の注目度): 11.952933984523632
- License:
- Abstract: Counterfactual (CF) explanations for ML model predictions provide actionable recourse recommendations to individuals adversely impacted by predicted outcomes. However, despite being preferred by end-users, CF explanations have been shown to pose significant security risks in real-world applications; in particular, malicious adversaries can exploit CF explanations to perform query-efficient model extraction attacks on the underlying proprietary ML model. To address this security challenge, we propose CFMark, a novel model-agnostic watermarking framework for detecting unauthorized model extraction attacks relying on CF explanations. CFMark involves a novel bi-level optimization problem to embed an indistinguishable watermark into the generated CF explanation such that any future model extraction attacks using these watermarked CF explanations can be detected using a null hypothesis significance testing (NHST) scheme. At the same time, the embedded watermark does not compromise the quality of the CF explanations. We evaluate CFMark across diverse real-world datasets, CF explanation methods, and model extraction techniques. Our empirical results demonstrate CFMark's effectiveness, achieving an F-1 score of ~0.89 in identifying unauthorized model extraction attacks using watermarked CF explanations. Importantly, this watermarking incurs only a negligible degradation in the quality of generated CF explanations (i.e., ~1.3% degradation in validity and ~1.6% in proximity). Our work establishes a critical foundation for the secure deployment of CF explanations in real-world applications.
- Abstract(参考訳): MLモデル予測に対する対実的(CF)説明は、予測結果に悪影響を及ぼした個人に対して行動可能なリコースレコメンデーションを提供する。
しかし、エンドユーザに好まれるにもかかわらず、CFの説明は現実世界のアプリケーションに重大なセキュリティリスクをもたらすことが示されており、特に悪意のある敵はCFの説明を利用して、基盤となるプロプライエタリなMLモデルに対してクエリ効率のよいモデル抽出攻撃を行うことができる。
このセキュリティ問題に対処するために、CFMarkを提案する。CFMarkは、CFの説明に頼って、不正なモデル抽出攻撃を検出するための、新しいモデルに依存しない透かしフレームワークである。
CFMarkは、2段階の最適化問題であり、生成したCF説明に区別不能な透かしを埋め込むことで、これらの透かしを用いた将来のモデル抽出攻撃を、Null hypothesis important testing (NHST) スキームを用いて検出することができる。
同時に、埋め込み透かしはCFの説明の質を損なわない。
我々は,様々な実世界のデータセット,CF説明手法,モデル抽出手法にまたがるCFMarkを評価する。
実験の結果,CFMarkの有効性が示され,F-1スコアが 0.89 となり,非許可モデル抽出攻撃の特定が可能となった。
重要なことに、この透かしは生成されたCF説明の質を無視できるほど劣化させるだけである(すなわち、妥当性が1.3%低下し、近接が1.6%低下する)。
私たちの研究は、実世界のアプリケーションにCF説明を安全に配置するための重要な基盤を確立します。
関連論文リスト
- The Gaussian Discriminant Variational Autoencoder (GdVAE): A Self-Explainable Model with Counterfactual Explanations [6.741417019751439]
視覚的対物的説明(CF)法は、画像の概念を変更し、予測を事前に定義された結果に変更する。
本稿では,条件付き変分オートエンコーダ(CVAE)とCF説明の統合に基づく自己説明可能なモデルであるGdVAEを紹介する。
CFsの整合性は、説明関数で潜在空間を正規化することによって改善される。
論文 参考訳(メタデータ) (2024-09-19T17:58:15Z) - Revisiting Catastrophic Forgetting in Large Language Model Tuning [79.70722658190097]
Catastrophic Forgetting (CF) は、新しいデータを学ぶ際に獲得した知識を忘れるモデルを意味する。
本稿では,モデル損失景観の平坦度と大規模言語モデルの分野におけるCFの広さとの直接的な関係を明らかにするための第一歩を踏み出した。
様々なモデルスケールにまたがる3つの大規模微調整データセットの実験により,CFを緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-07T11:09:13Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Knowledge Distillation-Based Model Extraction Attack using GAN-based Private Counterfactual Explanations [1.6576983459630268]
本稿では,ML プラットフォーム内で MEA を実行する上で,モデル説明,特に非現実的説明をどのように活用できるかを検討することに注力する。
本稿では,代替モデルの抽出効率を高めるため,知識蒸留(KD)に基づくMEAの新しいアプローチを提案する。
また,差分プライバシー(DP)の有効性を緩和戦略として評価した。
論文 参考訳(メタデータ) (2024-04-04T10:28:55Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - EG-Booster: Explanation-Guided Booster of ML Evasion Attacks [3.822543555265593]
本稿では,説明可能なMLの手法を活用して,敵対的事例作成をガイドするEG-Boosterという新しい手法を提案する。
EG-Boosterはアーキテクチャや脅威モデルをモデル化しておらず、以前文献で使われていた様々な距離メトリクスをサポートする。
以上の結果から,EG-Boosterは回避率を著しく向上し,摂動回数の減少が示唆された。
論文 参考訳(メタデータ) (2021-08-31T15:36:16Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。