論文の概要: Watermarking Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2405.18671v2
- Date: Sun, 20 Oct 2024 18:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:26.857463
- Title: Watermarking Counterfactual Explanations
- Title(参考訳): 透かしのカウンターファクトな説明
- Authors: Hangzhi Guo, Firdaus Ahmed Choudhury, Tinghua Chen, Amulya Yadav,
- Abstract要約: CFの説明は、現実世界のアプリケーションに重大なセキュリティリスクをもたらすことが示されている。
非許可モデル抽出攻撃を検出するためのモデルに依存しない透かしフレームワークCFMarkを提案する。
私たちの研究は、実世界のアプリケーションにCF説明を安全に配置するための重要な基盤を確立します。
- 参考スコア(独自算出の注目度): 11.952933984523632
- License:
- Abstract: Counterfactual (CF) explanations for ML model predictions provide actionable recourse recommendations to individuals adversely impacted by predicted outcomes. However, despite being preferred by end-users, CF explanations have been shown to pose significant security risks in real-world applications; in particular, malicious adversaries can exploit CF explanations to perform query-efficient model extraction attacks on the underlying proprietary ML model. To address this security challenge, we propose CFMark, a novel model-agnostic watermarking framework for detecting unauthorized model extraction attacks relying on CF explanations. CFMark involves a novel bi-level optimization problem to embed an indistinguishable watermark into the generated CF explanation such that any future model extraction attacks using these watermarked CF explanations can be detected using a null hypothesis significance testing (NHST) scheme. At the same time, the embedded watermark does not compromise the quality of the CF explanations. We evaluate CFMark across diverse real-world datasets, CF explanation methods, and model extraction techniques. Our empirical results demonstrate CFMark's effectiveness, achieving an F-1 score of ~0.89 in identifying unauthorized model extraction attacks using watermarked CF explanations. Importantly, this watermarking incurs only a negligible degradation in the quality of generated CF explanations (i.e., ~1.3% degradation in validity and ~1.6% in proximity). Our work establishes a critical foundation for the secure deployment of CF explanations in real-world applications.
- Abstract(参考訳): MLモデル予測に対する対実的(CF)説明は、予測結果に悪影響を及ぼした個人に対して行動可能なリコースレコメンデーションを提供する。
しかし、エンドユーザに好まれるにもかかわらず、CFの説明は現実世界のアプリケーションに重大なセキュリティリスクをもたらすことが示されており、特に悪意のある敵はCFの説明を利用して、基盤となるプロプライエタリなMLモデルに対してクエリ効率のよいモデル抽出攻撃を行うことができる。
このセキュリティ問題に対処するために、CFMarkを提案する。CFMarkは、CFの説明に頼って、不正なモデル抽出攻撃を検出するための、新しいモデルに依存しない透かしフレームワークである。
CFMarkは、2段階の最適化問題であり、生成したCF説明に区別不能な透かしを埋め込むことで、これらの透かしを用いた将来のモデル抽出攻撃を、Null hypothesis important testing (NHST) スキームを用いて検出することができる。
同時に、埋め込み透かしはCFの説明の質を損なわない。
我々は,様々な実世界のデータセット,CF説明手法,モデル抽出手法にまたがるCFMarkを評価する。
実験の結果,CFMarkの有効性が示され,F-1スコアが 0.89 となり,非許可モデル抽出攻撃の特定が可能となった。
重要なことに、この透かしは生成されたCF説明の質を無視できるほど劣化させるだけである(すなわち、妥当性が1.3%低下し、近接が1.6%低下する)。
私たちの研究は、実世界のアプリケーションにCF説明を安全に配置するための重要な基盤を確立します。
関連論文リスト
- Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion Models [71.13610023354967]
著作権保護と不適切なコンテンツ生成は、拡散モデルの実装に課題をもたらす。
本研究では,性能ロスレスかつトレーニング不要な拡散モデル透かし手法を提案する。
論文 参考訳(メタデータ) (2024-04-07T13:30:10Z) - Knowledge Distillation-Based Model Extraction Attack using Private Counterfactual Explanations [1.6576983459630268]
本稿では,モデル抽出攻撃(MEA)の実行において,モデル説明,特にGAN(Generative Network)に基づく対実的説明(CF)をどのように活用できるかを検討することに注力する。
本稿では,CFを用いた対象モデルの代替モデルを抽出する効率を高めるため,知識蒸留(KD)に基づく新しいMEA手法を提案する。
以上の結果から,プライバシ層が組み込まれていることが説明器の性能,CFの品質に影響を及ぼし,MEA性能が低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-04T10:28:55Z) - Advancing Post Hoc Case Based Explanation with Feature Highlighting [0.8287206589886881]
テスト画像中の複数の明瞭な特徴部分を分離し、トレーニングデータに見られる説明事例に接続する2つの一般的なアルゴリズムを提案する。
提案手法は,実世界データにおける曖昧な分類に対して,ユーザの「正確さ」感を適切に校正することを示す。
論文 参考訳(メタデータ) (2023-11-06T16:34:48Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - ReLACE: Reinforcement Learning Agent for Counterfactual Explanations of
Arbitrary Predictive Models [6.939617874336667]
本稿では,最適対実的説明を生成するためのモデルに依存しないアルゴリズムを提案する。
本手法は,DRLエージェントが相互作用する環境に類似するため,任意のブラックボックスモデルに容易に適用できる。
さらに,DRLエージェントのポリシーから説明可能な決定ルールを抽出し,CF自体を透過的に生成するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-22T17:08:49Z) - CounterNet: End-to-End Training of Prediction Aware Counterfactual
Explanations [12.313007847721215]
CounterNetは、予測モデルトレーニングと対実的(CF)説明の生成を統合する、エンドツーエンドの学習フレームワークである。
ポストホック法とは異なり、CounterNetは予測モデルとともにCF説明生成を1回だけ最適化することができる。
複数の実世界のデータセットに対する実験により、CounterNetは高品質な予測を生成することが示された。
論文 参考訳(メタデータ) (2021-09-15T20:09:13Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。