論文の概要: DISSECT: Disentangled Simultaneous Explanations via Concept Traversals
- arxiv url: http://arxiv.org/abs/2105.15164v1
- Date: Mon, 31 May 2021 17:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:42:51.327290
- Title: DISSECT: Disentangled Simultaneous Explanations via Concept Traversals
- Title(参考訳): DisSECT:コンセプトトラバーサルによる同時説明の切り離し
- Authors: Asma Ghandeharioun, Been Kim, Chun-Liang Li, Brendan Jou, Brian Eoff,
Rosalind W. Picard
- Abstract要約: DISSECTは、ディープラーニングモデル推論を説明するための新しいアプローチである。
DISSECTは、分類器の信号から生成モデルを訓練することにより、異なる概念の分類器固有の「名詞」を発見する方法を提供する。
DISSECTは,複数の概念を分離し,共同訓練による推論と結合したCTを生成する。
- 参考スコア(独自算出の注目度): 33.65478845353047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explaining deep learning model inferences is a promising venue for scientific
understanding, improving safety, uncovering hidden biases, evaluating fairness,
and beyond, as argued by many scholars. One of the principal benefits of
counterfactual explanations is allowing users to explore "what-if" scenarios
through what does not and cannot exist in the data, a quality that many other
forms of explanation such as heatmaps and influence functions are inherently
incapable of doing. However, most previous work on generative explainability
cannot disentangle important concepts effectively, produces unrealistic
examples, or fails to retain relevant information. We propose a novel approach,
DISSECT, that jointly trains a generator, a discriminator, and a concept
disentangler to overcome such challenges using little supervision. DISSECT
generates Concept Traversals (CTs), defined as a sequence of generated examples
with increasing degrees of concepts that influence a classifier's decision. By
training a generative model from a classifier's signal, DISSECT offers a way to
discover a classifier's inherent "notion" of distinct concepts automatically
rather than rely on user-predefined concepts. We show that DISSECT produces CTs
that (1) disentangle several concepts, (2) are influential to a classifier's
decision and are coupled to its reasoning due to joint training (3), are
realistic, (4) preserve relevant information, and (5) are stable across similar
inputs. We validate DISSECT on several challenging synthetic and realistic
datasets where previous methods fall short of satisfying desirable criteria for
interpretability and show that it performs consistently well and better than
existing methods. Finally, we present experiments showing applications of
DISSECT for detecting potential biases of a classifier and identifying spurious
artifacts that impact predictions.
- Abstract(参考訳): 深層学習モデルの推論は、科学的理解、安全性の向上、隠れたバイアスの解明、公平性の評価など、多くの学者が主張するように、有望な場所である。
反事実的説明の主な利点の1つは、ユーザーがデータに存在しないもの、存在しないもの、ヒートマップやインフルエンサー関数のような他の多くの形態の説明が本質的にできない品質を通じて、"what-if"シナリオを探求することを可能にすることである。
しかし、生成的説明可能性に関するほとんどの以前の研究は、重要な概念を効果的に切り離すことはできず、非現実的な例を生み出したり、関連する情報を保持できない。
本研究では, 発電機, 判別器, 概念分割器を共同で訓練し, 少ない監督でこれらの課題を克服する新しい手法であるdissectを提案する。
DISSECTは、分類器の決定に影響を及ぼす概念の度合いを増した生成例の列として定義される概念トラバーサル(CT)を生成する。
分類器の信号から生成モデルを訓練することで、dissectは、ユーザ定義の概念に頼るのではなく、分類器固有の異なる概念の"notion"を自動で発見する方法を提供する。
我々は,(1)複数の概念を分解し,(2)分類者の判断に影響を及ぼし,(3)共同学習による推論に結びついていること,(4)関連情報を保存していること,(5)類似の入力に対して安定であること,などをCTで示している。
我々は,従来の手法が解釈可能性の望ましい基準を満たしていないような,難易度の高い合成および現実的なデータセットに対して,DisdisSECTを検証する。
最後に,分類器の潜在的なバイアスの検出と予測に影響を与えるスプリアスアーティファクトの同定にdissectの適用性を示す実験を行った。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Explaining Explainability: Understanding Concept Activation Vectors [35.37586279472797]
最近の解釈可能性法では、概念に基づく説明を用いて、ディープラーニングモデルの内部表現を、人間が慣れ親しんだ言語に翻訳する。
これは、ニューラルネットワークの表現空間にどの概念が存在するかを理解する必要がある。
本研究では,概念活性化ベクトル(Concept Activation Vectors, CAV)の3つの特性について検討する。
本研究では,これらの特性の存在を検出するためのツールを導入し,それらが引き起こした説明にどのように影響するかを把握し,その影響を最小限に抑えるための推奨事項を提供する。
論文 参考訳(メタデータ) (2024-04-04T17:46:20Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Statistically Significant Concept-based Explanation of Image Classifiers
via Model Knockoffs [22.576922942465142]
概念に基づく説明は、非関連概念を予測タスクにとって重要であると誤解する偽陽性を引き起こす可能性がある。
深層学習モデルを用いて画像概念を学習し,Knockoffサンプルを用いて予測のための重要な概念を選択する手法を提案する。
論文 参考訳(メタデータ) (2023-05-27T05:40:05Z) - Dual Box Embeddings for the Description Logic EL++ [16.70961576041243]
知識グラフ(KG)と同様に、知識グラフはしばしば不完全であり、それらの維持と構築は困難であることが証明された。
KGsと同様に、有望なアプローチは、潜在ベクトル空間への埋め込みを学習し、基礎となるDLのセマンティクスに固執することである。
そこで本研究では,概念と役割をボックスとして表現した,DL EL++用のBox$2$ELという新しいオントロジー埋め込み手法を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:13:37Z) - Probing Classifiers are Unreliable for Concept Removal and Detection [18.25734277357466]
テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的あるいはセンシティブな概念を符号化する。
近年の研究では、そのような不要な概念をモデル表現から除去するためのポストホックおよび逆法が提案されている。
これらの手法は非生産的であり、最悪の場合、すべてのタスク関連機能を破壊する可能性がある。
論文 参考訳(メタデータ) (2022-07-08T23:15:26Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Provable concept learning for interpretable predictions using
variational inference [7.0349768355860895]
安全クリティカルなアプリケーションでは、解釈可能な説明が得られない場合、実践者はニューラルネットワークを信頼することを避けます。
我々は(C)概念(L)アーニングと(P)ディディクション(CLAP)を導出する確率論的モデリングフレームワークを提案する。
本手法は最適な分類精度を保ちながら同定できることを実証する。
論文 参考訳(メタデータ) (2022-04-01T14:51:38Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。
本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。