論文の概要: Better sampling in explanation methods can prevent dieselgate-like
deception
- arxiv url: http://arxiv.org/abs/2101.11702v1
- Date: Tue, 26 Jan 2021 13:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 08:52:18.439552
- Title: Better sampling in explanation methods can prevent dieselgate-like
deception
- Title(参考訳): ディーゼルゲート様偽装防止法におけるより良いサンプリング法
- Authors: Domen Vre\v{s} and Marko Robnik \v{S}ikonja
- Abstract要約: 予測モデルの解釈性は、それらのバイアスとエラーの原因を決定するために必要である。
IME、LIME、SHAPなどの一般的なテクニックでは、インスタンス機能の摂動を使用して個々の予測を説明します。
改良されたサンプリングによりLIMEとSHAPのロバスト性が向上し,以前に未試験のメソッドIMEがすでに最もロバストであることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models are used in many sensitive areas where besides
predictive accuracy their comprehensibility is also important. Interpretability
of prediction models is necessary to determine their biases and causes of
errors, and is a necessary prerequisite for users' confidence. For complex
state-of-the-art black-box models post-hoc model-independent explanation
techniques are an established solution. Popular and effective techniques, such
as IME, LIME, and SHAP, use perturbation of instance features to explain
individual predictions. Recently, Slack et al. (2020) put their robustness into
question by showing that their outcomes can be manipulated due to poor
perturbation sampling employed. This weakness would allow dieselgate type
cheating of owners of sensitive models who could deceive inspection and hide
potentially unethical or illegal biases existing in their predictive models.
This could undermine public trust in machine learning models and give rise to
legal restrictions on their use.
We show that better sampling in these explanation methods prevents malicious
manipulations. The proposed sampling uses data generators that learn the
training set distribution and generate new perturbation instances much more
similar to the training set. We show that the improved sampling increases the
robustness of the LIME and SHAP, while previously untested method IME is
already the most robust of all.
- Abstract(参考訳): 機械学習モデルは、予測精度に加えて、理解性も重要である多くのセンシティブな領域で使用されている。
予測モデルの解釈可能性は、そのバイアスやエラーの原因を決定するために必要であり、ユーザの自信の必要条件である。
複雑な最先端のブラックボックスモデルの場合、ポストホックモデルに依存しない説明技術は確立されたソリューションです。
IME、LIME、SHAPなどのポピュラーで効果的なテクニックは、インスタンス機能の摂動を使用して個々の予測を説明します。
最近Slackなどが登場している。
(2020年)は, 摂動サンプリングが不十分なため, 結果が操作可能であることを示し, 頑健さを疑問視した。
この弱点は、調査を欺き、予測モデルに存在する非倫理的または違法なバイアスを隠蔽できる、機密性の高いモデルの所有者をディーゼルゲート型不正にすることを可能にする。
これにより、機械学習モデルに対する一般の信頼が損なわれ、その使用に関する法的制限が生じる可能性がある。
これらの説明方法のサンプリングが悪質な操作を防いでいることを示す。
提案するサンプリングは、トレーニングセットの分布を学習し、トレーニングセットに非常によく似た新しい摂動インスタンスを生成するデータジェネレータを使用する。
改良されたサンプリングによりLIMEとSHAPのロバスト性が向上し,以前に未試験のメソッドIMEがすでに最もロバストであることが示されている。
関連論文リスト
- Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Increasing the Cost of Model Extraction with Calibrated Proof of Work [25.096196576476885]
モデル抽出攻撃では、敵はパブリックAPIを通じて公開された機械学習モデルを盗むことができる。
我々は,モデルの予測を読み取る前に,ユーザが作業の証明を完了するように提案する。
論文 参考訳(メタデータ) (2022-01-23T12:21:28Z) - Robust uncertainty estimates with out-of-distribution pseudo-inputs
training [0.0]
我々は、信頼性のあるデータを与えられていない不確実性予測器を明示的に訓練することを提案する。
データ無しでは訓練できないので、入力空間の情報的低密度領域において擬似入力を生成するメカニズムを提供する。
総合的な評価により、様々なタスクにおける最先端性能を維持しながら、不確実性の頑健かつ解釈可能な予測が得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T17:15:07Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Prediction Confidence from Neighbors [0.0]
機械学習(ML)モデルがOoD(out-of-distribution)サンプルから正しい予測を抽出することができないことは、重要なアプリケーションにMLを適用する上で大きな障害となる。
特徴空間距離は予測に自信を与える有意義な尺度であることを示す。
これにより、重要なアプリケーションにおけるモデルの早期かつ安全なデプロイが可能になり、常に変化する条件下でのモデルのデプロイには不可欠である。
論文 参考訳(メタデータ) (2020-03-31T09:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。