論文の概要: Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples
- arxiv url: http://arxiv.org/abs/2003.11323v1
- Date: Wed, 25 Mar 2020 11:08:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 02:39:22.503319
- Title: Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples
- Title(参考訳): 可算的対物:実例による深層学習分類器の検証
- Authors: Alejandro Barredo-Arrieta and Javier Del Ser
- Abstract要約: ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
- 参考スコア(独自算出の注目度): 84.8370546614042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The last decade has witnessed the proliferation of Deep Learning models in
many applications, achieving unrivaled levels of predictive performance.
Unfortunately, the black-box nature of Deep Learning models has posed
unanswered questions about what they learn from data. Certain application
scenarios have highlighted the importance of assessing the bounds under which
Deep Learning models operate, a problem addressed by using assorted approaches
aimed at audiences from different domains. However, as the focus of the
application is placed more on non-expert users, it results mandatory to provide
the means for him/her to trust the model, just like a human gets familiar with
a system or process: by understanding the hypothetical circumstances under
which it fails. This is indeed the angular stone for this research work: to
undertake an adversarial analysis of a Deep Learning model. The proposed
framework constructs counterfactual examples by ensuring their plausibility,
e.g. there is a reasonable probability that a human could generate them without
resorting to a computer program. Therefore, this work must be regarded as
valuable auditing exercise of the usable bounds a certain model is constrained
within, thereby allowing for a much greater understanding of the capabilities
and pitfalls of a model used in a real application. To this end, a Generative
Adversarial Network (GAN) and multi-objective heuristics are used to furnish a
plausible attack to the audited model, efficiently trading between the
confusion of this model, the intensity and plausibility of the generated
counterfactual. Its utility is showcased within a human face classification
task, unveiling the enormous potential of the proposed framework.
- Abstract(参考訳): 過去10年間、多くのアプリケーションでディープラーニングモデルが急増し、未熟なレベルの予測パフォーマンスを達成した。
残念なことに、Deep Learningモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を呈している。
特定のアプリケーションシナリオでは、異なるドメインのオーディエンスを対象として、さまざまなアプローチを使用して対処する問題である、ディープラーニングモデルが動作する境界を評価することの重要性を強調している。
しかしながら、アプリケーションの焦点が専門家でないユーザに向けられているため、人間がシステムやプロセスに精通しているように、その人がモデルを信頼する手段を提供することが義務付けられます。
これは、深層学習モデルの逆解析を行うという、この研究のための角石である。
提案フレームワークは,コンピュータプログラムを使わずに人間が生成できる可能性など,その可能性を保証することで,反事実的な例を構成する。
したがって、この作業は、あるモデル内で制約されている使用可能なバウンダリの貴重な監査演習と見なされなければならないため、実際のアプリケーションで使用されるモデルの能力と落とし穴をより深く理解することができる。
この目的のために、生成的敵ネットワーク(gan)と多目的ヒューリスティックス(multi-objective heuristics)を用いて、監査モデルの混乱と生成された反事実の強度と可能性とを効率的に取引する。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにする。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Frugal Reinforcement-based Active Learning [12.18340575383456]
本稿では,ラベル効率向上のための新しい能動的学習手法を提案する。
提案手法は反復的であり,多様性,表現性,不確実性の基準を混合した制約対象関数の最小化を目的としている。
また、強化学習に基づく新たな重み付け機構を導入し、各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。
論文 参考訳(メタデータ) (2022-12-09T14:17:45Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Towards Interpretable Deep Reinforcement Learning Models via Inverse
Reinforcement Learning [27.841725567976315]
本稿では,逆逆強化学習を利用した新しいフレームワークを提案する。
このフレームワークは、強化学習モデルによる決定のグローバルな説明を提供する。
モデルの意思決定過程を要約することで、モデルが従う直感的な傾向を捉える。
論文 参考訳(メタデータ) (2022-03-30T17:01:59Z) - When and How to Fool Explainable Models (and Humans) with Adversarial
Examples [1.439518478021091]
説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。
まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。
次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-05T11:20:55Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。