論文の概要: Watermarking Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2405.18671v1
- Date: Wed, 29 May 2024 00:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:13:51.654033
- Title: Watermarking Counterfactual Explanations
- Title(参考訳): 透かしのカウンターファクトな説明
- Authors: Hangzhi Guo, Amulya Yadav,
- Abstract要約: 機械学習(ML)モデルの予測を説明するのに役立つため、CFの説明はエンドユーザに好まれることが多い。
悪意のある敵は、クエリ効率の良いモデル抽出攻撃を実行するためにCF説明を利用することができる。
本稿では,無許可のモデル抽出攻撃を検出するために利用可能な,モデルに依存しない透かしフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.675570596243933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Explainable Artificial Intelligence (XAI) focuses on techniques for providing explanations to end-users about the decision-making processes that underlie modern-day machine learning (ML) models. Within the vast universe of XAI techniques, counterfactual (CF) explanations are often preferred by end-users as they help explain the predictions of ML models by providing an easy-to-understand & actionable recourse (or contrastive) case to individual end-users who are adversely impacted by predicted outcomes. However, recent studies have shown significant security concerns with using CF explanations in real-world applications; in particular, malicious adversaries can exploit CF explanations to perform query-efficient model extraction attacks on proprietary ML models. In this paper, we propose a model-agnostic watermarking framework (for adding watermarks to CF explanations) that can be leveraged to detect unauthorized model extraction attacks (which rely on the watermarked CF explanations). Our novel framework solves a bi-level optimization problem to embed an indistinguishable watermark into the generated CF explanation such that any future model extraction attacks that rely on these watermarked CF explanations can be detected using a null hypothesis significance testing (NHST) scheme, while ensuring that these embedded watermarks do not compromise the quality of the generated CF explanations. We evaluate this framework's performance across a diverse set of real-world datasets, CF explanation methods, and model extraction techniques, and show that our watermarking detection system can be used to accurately identify extracted ML models that are trained using the watermarked CF explanations. Our work paves the way for the secure adoption of CF explanations in real-world applications.
- Abstract(参考訳): 説明可能な人工知能(XAI)の分野は、現代の機械学習(ML)モデルを支える意思決定プロセスについてエンドユーザに説明を提供する技術に焦点を当てている。
XAIテクニックの広大な宇宙では、予測結果に悪影響を及ぼす個々のエンドユーザーに対して、容易に理解しやすく、行動可能な(あるいは対照的な)ケースを提供することによって、MLモデルの予測を説明するために、反ファクトリアル(CF)の説明がエンドユーザによって好まれることが多い。
しかし、最近の研究では、実世界のアプリケーションでCFの説明を使用する際の重大なセキュリティ上の懸念が示されている。特に、悪意のある敵はCFの説明を利用して、プロプライエタリなMLモデルに対してクエリ効率の良いモデル抽出攻撃を行うことができる。
本稿では,不許可なモデル抽出攻撃(CF説明に依存する)の検出に利用することができるモデル非依存型透かしフレームワーク(CF説明に透かしを追加する)を提案する。
提案するフレームワークは,2段階の最適化問題を解くことで,生成したCF説明に識別不能な透かしを埋め込むことにより,これらのCF説明に依存する将来のモデル抽出攻撃を,Null hypothesis important testing (NHST) スキームを用いて検出し,これらの埋め込み透かしが生成されたCF説明の品質を損なわないことを保証する。
我々は,本フレームワークの性能を,実世界のさまざまなデータセット,CF説明手法,モデル抽出手法で評価し,透かしを用いたCF説明を用いてトレーニングした抽出MLモデルを正確に識別するために,透かし検出システムを使用することを実証した。
我々の研究は、現実世界のアプリケーションでCFの説明を安全に採用するための道を開いた。
関連論文リスト
- Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion Models [71.13610023354967]
著作権保護と不適切なコンテンツ生成は、拡散モデルの実装に課題をもたらす。
本研究では,性能ロスレスかつトレーニング不要な拡散モデル透かし手法を提案する。
論文 参考訳(メタデータ) (2024-04-07T13:30:10Z) - Knowledge Distillation-Based Model Extraction Attack using Private Counterfactual Explanations [1.6576983459630268]
本稿では,モデル抽出攻撃(MEA)の実行において,モデル説明,特にGAN(Generative Network)に基づく対実的説明(CF)をどのように活用できるかを検討することに注力する。
本稿では,CFを用いた対象モデルの代替モデルを抽出する効率を高めるため,知識蒸留(KD)に基づく新しいMEA手法を提案する。
以上の結果から,プライバシ層が組み込まれていることが説明器の性能,CFの品質に影響を及ぼし,MEA性能が低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-04T10:28:55Z) - Advancing Post Hoc Case Based Explanation with Feature Highlighting [0.8287206589886881]
テスト画像中の複数の明瞭な特徴部分を分離し、トレーニングデータに見られる説明事例に接続する2つの一般的なアルゴリズムを提案する。
提案手法は,実世界データにおける曖昧な分類に対して,ユーザの「正確さ」感を適切に校正することを示す。
論文 参考訳(メタデータ) (2023-11-06T16:34:48Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - ReLACE: Reinforcement Learning Agent for Counterfactual Explanations of
Arbitrary Predictive Models [6.939617874336667]
本稿では,最適対実的説明を生成するためのモデルに依存しないアルゴリズムを提案する。
本手法は,DRLエージェントが相互作用する環境に類似するため,任意のブラックボックスモデルに容易に適用できる。
さらに,DRLエージェントのポリシーから説明可能な決定ルールを抽出し,CF自体を透過的に生成するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-22T17:08:49Z) - CounterNet: End-to-End Training of Prediction Aware Counterfactual
Explanations [12.313007847721215]
CounterNetは、予測モデルトレーニングと対実的(CF)説明の生成を統合する、エンドツーエンドの学習フレームワークである。
ポストホック法とは異なり、CounterNetは予測モデルとともにCF説明生成を1回だけ最適化することができる。
複数の実世界のデータセットに対する実験により、CounterNetは高品質な予測を生成することが示された。
論文 参考訳(メタデータ) (2021-09-15T20:09:13Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。