Fugu-MT 論文翻訳(概要): Plausible Counterfactuals: Auditing Deep Learning Classifiers with Realistic Adversarial Examples

論文の概要: Plausible Counterfactuals: Auditing Deep Learning Classifiers with Realistic Adversarial Examples

arxiv url: http://arxiv.org/abs/2003.11323v1
Date: Wed, 25 Mar 2020 11:08:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 02:39:22.503319
Title: Plausible Counterfactuals: Auditing Deep Learning Classifiers with Realistic Adversarial Examples
Title（参考訳）: 可算的対物:実例による深層学習分類器の検証
Authors: Alejandro Barredo-Arrieta and Javier Del Ser
Abstract要約: ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。 GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
参考スコア（独自算出の注目度）: 84.8370546614042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The last decade has witnessed the proliferation of Deep Learning models in many applications, achieving unrivaled levels of predictive performance. Unfortunately, the black-box nature of Deep Learning models has posed unanswered questions about what they learn from data. Certain application scenarios have highlighted the importance of assessing the bounds under which Deep Learning models operate, a problem addressed by using assorted approaches aimed at audiences from different domains. However, as the focus of the application is placed more on non-expert users, it results mandatory to provide the means for him/her to trust the model, just like a human gets familiar with a system or process: by understanding the hypothetical circumstances under which it fails. This is indeed the angular stone for this research work: to undertake an adversarial analysis of a Deep Learning model. The proposed framework constructs counterfactual examples by ensuring their plausibility, e.g. there is a reasonable probability that a human could generate them without resorting to a computer program. Therefore, this work must be regarded as valuable auditing exercise of the usable bounds a certain model is constrained within, thereby allowing for a much greater understanding of the capabilities and pitfalls of a model used in a real application. To this end, a Generative Adversarial Network (GAN) and multi-objective heuristics are used to furnish a plausible attack to the audited model, efficiently trading between the confusion of this model, the intensity and plausibility of the generated counterfactual. Its utility is showcased within a human face classification task, unveiling the enormous potential of the proposed framework.
Abstract（参考訳）: 過去10年間、多くのアプリケーションでディープラーニングモデルが急増し、未熟なレベルの予測パフォーマンスを達成した。残念なことに、Deep Learningモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を呈している。特定のアプリケーションシナリオでは、異なるドメインのオーディエンスを対象として、さまざまなアプローチを使用して対処する問題である、ディープラーニングモデルが動作する境界を評価することの重要性を強調している。しかしながら、アプリケーションの焦点が専門家でないユーザに向けられているため、人間がシステムやプロセスに精通しているように、その人がモデルを信頼する手段を提供することが義務付けられます。これは、深層学習モデルの逆解析を行うという、この研究のための角石である。提案フレームワークは,コンピュータプログラムを使わずに人間が生成できる可能性など,その可能性を保証することで,反事実的な例を構成する。したがって、この作業は、あるモデル内で制約されている使用可能なバウンダリの貴重な監査演習と見なされなければならないため、実際のアプリケーションで使用されるモデルの能力と落とし穴をより深く理解することができる。この目的のために、生成的敵ネットワーク(gan)と多目的ヒューリスティックス(multi-objective heuristics)を用いて、監査モデルの混乱と生成された反事実の強度と可能性とを効率的に取引する。その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにする。

関連論文リスト

xIDS-EnsembleGuard: An Explainable Ensemble Learning-based Intrusion Detection System [7.2738577621227085]
我々は、先進的な説明可能な侵入検知システム(xIDS)を設計することで、ネットワーク内の悪意ある攻撃を検出することの課題に対処することに注力する。既存の機械学習とディープラーニングアプローチには、予測の潜在的なバイアス、解釈可能性の欠如、トレーニングデータに過度に適合するリスクなど、目に見えない制限がある。本稿では,これらの課題を克服するためのアンサンブル学習手法"EnsembleGuard"を提案する。
論文参考訳（メタデータ） (2025-03-01T20:49:31Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文参考訳（メタデータ） (2023-01-30T12:38:31Z)
Frugal Reinforcement-based Active Learning [12.18340575383456]
本稿では,ラベル効率向上のための新しい能動的学習手法を提案する。提案手法は反復的であり,多様性,表現性,不確実性の基準を混合した制約対象関数の最小化を目的としている。また、強化学習に基づく新たな重み付け機構を導入し、各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。
論文参考訳（メタデータ） (2022-12-09T14:17:45Z)
Exploring the Trade-off between Plausibility, Change Intensity and Adversarial Power in Counterfactual Explanations using Multi-objective Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。本稿では, 対実例生成のための新しい枠組みを提案する。
論文参考訳（メタデータ） (2022-05-20T15:02:53Z)
Towards Interpretable Deep Reinforcement Learning Models via Inverse Reinforcement Learning [27.841725567976315]
本稿では,逆逆強化学習を利用した新しいフレームワークを提案する。このフレームワークは、強化学習モデルによる決定のグローバルな説明を提供する。モデルの意思決定過程を要約することで、モデルが従う直感的な傾向を捉える。
論文参考訳（メタデータ） (2022-03-30T17:01:59Z)
When and How to Fool Explainable Models (and Humans) with Adversarial Examples [1.439518478021091]
説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
論文参考訳（メタデータ） (2021-07-05T11:20:55Z)
Thief, Beware of What Get You There: Towards Understanding Model Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文参考訳（メタデータ） (2021-04-13T03:46:59Z)
Explainable Adversarial Attacks in Deep Neural Networks Using Activation Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文参考訳（メタデータ） (2021-03-18T13:04:21Z)
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文参考訳（メタデータ） (2021-03-18T12:57:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。