論文の概要: Model extraction from counterfactual explanations
- arxiv url: http://arxiv.org/abs/2009.01884v1
- Date: Thu, 3 Sep 2020 19:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:27:11.070854
- Title: Model extraction from counterfactual explanations
- Title(参考訳): 反実的説明からのモデル抽出
- Authors: Ulrich A\"ivodji, Alexandre Bolot, S\'ebastien Gambs
- Abstract要約: 本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-hoc explanation techniques refer to a posteriori methods that can be
used to explain how black-box machine learning models produce their outcomes.
Among post-hoc explanation techniques, counterfactual explanations are becoming
one of the most popular methods to achieve this objective. In particular, in
addition to highlighting the most important features used by the black-box
model, they provide users with actionable explanations in the form of data
instances that would have received a different outcome. Nonetheless, by doing
so, they also leak non-trivial information about the model itself, which raises
privacy issues. In this work, we demonstrate how an adversary can leverage the
information provided by counterfactual explanations to build high-fidelity and
high-accuracy model extraction attacks. More precisely, our attack enables the
adversary to build a faithful copy of a target model by accessing its
counterfactual explanations. The empirical evaluation of the proposed attack on
black-box models trained on real-world datasets demonstrates that they can
achieve high-fidelity and high-accuracy extraction even under low query
budgets.
- Abstract(参考訳): ポストホックな説明技法は、ブラックボックス機械学習モデルがどのように結果を生み出すかを説明するのに使用できる後部手法を指す。
ポストホックな説明手法の中では、この目的を達成するための最も一般的な方法の1つに反事実的説明がある。
特に、ブラックボックスモデルで使用される最も重要な特徴を強調するだけでなく、異なる結果を得たデータインスタンスの形式で実行可能な説明をユーザに提供します。
それにもかかわらず、モデル自体に関する非自明な情報を漏らし、プライバシーの問題を引き起こしている。
本研究では,反実的説明による情報を利用して,高忠実かつ高精度なモデル抽出攻撃を構築する方法を示す。
より正確には、我々の攻撃により、敵は、その反事実的説明にアクセスして、ターゲットモデルの忠実なコピーを構築することができる。
実世界のデータセットでトレーニングされたブラックボックスモデルに対する提案手法の実証的評価は、低クエリ予算でも高い忠実性と高い精度の抽出を達成可能であることを示している。
関連論文リスト
- Discriminative Feature Attributions: Bridging Post Hoc Explainability
and Inherent Interpretability [29.459228981179674]
ポストホックの説明は、基礎となるタスクにとって重要でない、あるいは差別的でない機能に、誤って高い重要性がある。
一方、モデルアーキテクチャに説明を明示的にエンコードすることでこれらの問題を回避することができる。
本研究では,ディストラクタ消去に頑健なブラックボックスモデルを適応させる手法であるディストラクタ消去調整法(DiET)を提案する。
論文 参考訳(メタデータ) (2023-07-27T17:06:02Z) - BELLA: Black box model Explanations by Local Linear Approximations [10.05944106581306]
我々は、回帰ブラックボックスモデルの個々の予測を説明するために、決定論的モデルに依存しないポストホックアプローチであるBELLAを提案する。
BELLAは特徴空間で訓練された線形モデルという形で説明を提供する。
BELLAは事実と反事実の両方を説明することができる。
論文 参考訳(メタデータ) (2023-05-18T21:22:23Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Learning to Scaffold: Optimizing Model Explanations for Teaching [74.25464914078826]
我々は3つの自然言語処理とコンピュータビジョンタスクのモデルを訓練する。
筆者らは,本フレームワークで抽出した説明文を学習した学生が,従来の手法よりもはるかに効果的に教師をシミュレートできることを発見した。
論文 参考訳(メタデータ) (2022-04-22T16:43:39Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Explainers in the Wild: Making Surrogate Explainers Robust to
Distortions through Perception [77.34726150561087]
説明における歪みの影響を知覚距離を埋め込むことで評価する手法を提案する。
Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。
論文 参考訳(メタデータ) (2021-02-22T12:38:53Z) - Explainable Deep Modeling of Tabular Data using TableGraphNet [1.376408511310322]
付加的特徴属性の形で説明可能な予測を生成する新しいアーキテクチャを提案する。
説明可能なモデルはブラックボックスモデルと同じレベルの性能が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T20:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。