論文の概要: Synthesizing Pareto-Optimal Interpretations for Black-Box Models
- arxiv url: http://arxiv.org/abs/2108.07307v1
- Date: Mon, 16 Aug 2021 18:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 01:47:01.004895
- Title: Synthesizing Pareto-Optimal Interpretations for Black-Box Models
- Title(参考訳): ブラックボックスモデルに対するパレート最適解釈の合成
- Authors: Hazem Torfah, Shetal Shah, Supratik Chakraborty, S. Akshay, Sanjit A.
Seshia
- Abstract要約: 本稿では,解釈を合成するための多目的最適化手法を提案する。
本研究では, 定量的制約解の削減により, 基礎となる多目的最適化問題を解くことができることを示す。
我々の実験は、しばしば既存のアプローチで見逃される解釈に対して、豊かで多様な選択のセットが存在することを示している。
- 参考スコア(独自算出の注目度): 7.345977965095031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new multi-objective optimization approach for synthesizing
interpretations that "explain" the behavior of black-box machine learning
models. Constructing human-understandable interpretations for black-box models
often requires balancing conflicting objectives. A simple interpretation may be
easier to understand for humans while being less precise in its predictions
vis-a-vis a complex interpretation. Existing methods for synthesizing
interpretations use a single objective function and are often optimized for a
single class of interpretations. In contrast, we provide a more general and
multi-objective synthesis framework that allows users to choose (1) the class
of syntactic templates from which an interpretation should be synthesized, and
(2) quantitative measures on both the correctness and explainability of an
interpretation. For a given black-box, our approach yields a set of
Pareto-optimal interpretations with respect to the correctness and
explainability measures. We show that the underlying multi-objective
optimization problem can be solved via a reduction to quantitative constraint
solving, such as weighted maximum satisfiability. To demonstrate the benefits
of our approach, we have applied it to synthesize interpretations for black-box
neural-network classifiers. Our experiments show that there often exists a rich
and varied set of choices for interpretations that are missed by existing
approaches.
- Abstract(参考訳): ブラックボックス機械学習モデルの振る舞いを「説明」する解釈を合成するための新しい多目的最適化手法を提案する。
ブラックボックスモデルの人間理解可能な解釈を構築するには、しばしば相反する目的のバランスをとる必要がある。
単純な解釈は人間にとって理解しやすいが、複雑な解釈の予測では正確ではない。
既存の解釈合成法は単一の目的関数を使用し、しばしば単一の解釈クラスに最適化される。
対照的に、より汎用的で多目的な合成フレームワークを提供し、(1)解釈を合成すべき構文テンプレートのクラスをユーザが選択できるようにし、(2)解釈の正確性と説明可能性の両方について定量的に測定する。
与えられたブラックボックスに対して、我々の手法は正確性と説明可能性の尺度に関するパレート最適解釈の集合を導出する。
重み付けされた最大満足度などの量的制約解決への還元により、基礎となる多目的最適化問題を解くことができることを示す。
提案手法の利点を実証するため,ブラックボックス型ニューラルネットワーク分類器の解釈に応用した。
我々の実験は、しばしば既存のアプローチで見逃される解釈に対して、豊かで多様な選択のセットが存在することを示している。
関連論文リスト
- Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - InterpretCC: Intrinsic User-Centric Interpretability through Global Mixture of Experts [31.738009841932374]
ニューラルネットワークの解釈性は、3つの重要な要件間のトレードオフである。
本稿では,人間中心の解釈可能性を保証する,解釈可能なニューラルネットワークのファミリであるInterpretCCを提案する。
論文 参考訳(メタデータ) (2024-02-05T11:55:50Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Adversarial Attacks on the Interpretation of Neuron Activation
Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文 参考訳(メタデータ) (2023-06-12T19:54:33Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Model Learning with Personalized Interpretability Estimation (ML-PIE) [2.862606936691229]
ハイステークアプリケーションは、AI生成モデルを解釈可能にする必要がある。
解釈可能なモデルの合成のための現在のアルゴリズムは、目的や正規化項に依存する。
本稿では,ユーザ向けにカスタマイズされたモデルの合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T09:47:48Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z) - Efficient computation of contrastive explanations [8.132423340684568]
対照的な説明と反実的な説明の関係について検討する。
本稿では,多くの標準機械学習モデルの正値(有理)を効率的に計算する2相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-06T11:50:28Z) - Interpretable Representations in Explainable AI: From Theory to Practice [7.031336702345381]
解釈可能な表現は、ブラックボックス予測システムをターゲットにした多くの説明器のバックボーンである。
人間の理解可能な概念の存在と欠如をエンコードする解釈可能な表現の特性について検討する。
論文 参考訳(メタデータ) (2020-08-16T21:44:03Z) - Multi-Objective Counterfactual Explanations [0.7349727826230864]
本稿では, 対物探索を多目的最適化問題に変換する多目的対物法 (MOC) を提案する。
我々のアプローチは、提案する目的間のトレードオフの異なる多様な対策セットを返却するだけでなく、特徴空間における多様性も維持する。
論文 参考訳(メタデータ) (2020-04-23T13:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。