論文の概要: Reckoning with the Disagreement Problem: Explanation Consensus as a
Training Objective
- arxiv url: http://arxiv.org/abs/2303.13299v1
- Date: Thu, 23 Mar 2023 14:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:58:23.289526
- Title: Reckoning with the Disagreement Problem: Explanation Consensus as a
Training Objective
- Title(参考訳): 診断問題の再考:訓練対象としての説明的合意
- Authors: Avi Schwarzschild, Max Cembalest, Karthik Rao, Keegan Hines, John
Dickerson
- Abstract要約: ポストホック特徴属性(Post hoc feature attribution)は、入力中の各特徴にモデル出力への影響に対応するスコアを与える一連の方法である。
この種類の説明者の大きな制限は、どの特徴が他のものよりも重要であるかについて意見が一致しないことである。
本稿では,2つの説明者間の特徴属性の差を計測する,精度に対応する標準的な用語とともに,損失項を導入する。
3つのデータセットから、この損失項を用いてモデルをトレーニングし、未知のデータに関する説明コンセンサスを改善するとともに、損失項で使用されるもの以外の説明コンセンサスの改善したコンセンサスを確認する。
- 参考スコア(独自算出の注目度): 5.949779668853556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As neural networks increasingly make critical decisions in high-stakes
settings, monitoring and explaining their behavior in an understandable and
trustworthy manner is a necessity. One commonly used type of explainer is post
hoc feature attribution, a family of methods for giving each feature in an
input a score corresponding to its influence on a model's output. A major
limitation of this family of explainers in practice is that they can disagree
on which features are more important than others. Our contribution in this
paper is a method of training models with this disagreement problem in mind. We
do this by introducing a Post hoc Explainer Agreement Regularization (PEAR)
loss term alongside the standard term corresponding to accuracy, an additional
term that measures the difference in feature attribution between a pair of
explainers. We observe on three datasets that we can train a model with this
loss term to improve explanation consensus on unseen data, and see improved
consensus between explainers other than those used in the loss term. We examine
the trade-off between improved consensus and model performance. And finally, we
study the influence our method has on feature attribution explanations.
- Abstract(参考訳): ニューラルネットワークがハイテイクな設定で重要な決定を下すにつれて、その振る舞いを理解し、信頼できる方法で監視し、説明することが不可欠である。
一般的に使用されるタイプの説明器はpost hoc feature attributionであり、入力の各特徴にモデルの出力に対する影響に対応するスコアを与える方法のファミリーである。
このファミリーの実践上の大きな制限は、どの機能が他のどの機能よりも重要であるかについて意見が一致しないことである。
本稿では,この不一致問題を念頭に置いてモデルをトレーニングする方法を提案する。
我々は,説明者間の特徴帰属差を測定する追加用語である,正確性に対応する標準用語と並行して,pear (post hoc explainer agreement regularization) 損失項を導入することでこれを行う。
我々は,この損失項を用いてモデルを訓練し,未発見データに対する説明コンセンサスを改善した3つのデータセットを観察し,損失項で使用されるもの以外の説明者間のコンセンサスを改善した。
コンセンサスの改善とモデル性能のトレードオフを検討する。
最後に,本手法が特徴帰属説明に与える影響について検討する。
関連論文リスト
- Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - A Song of (Dis)agreement: Evaluating the Evaluation of Explainable
Artificial Intelligence in Natural Language Processing [7.527234046228323]
我々は、注意に基づく説明のための評価指標としてランク相関を用いるのをやめるべきであると主張している。
注意に基づく説明は,最近の特徴帰属法と強く相関しないことがわかった。
論文 参考訳(メタデータ) (2022-05-09T21:07:39Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - The Disagreement Problem in Explainable Machine Learning: A
Practitioner's Perspective [13.716889671923598]
本稿では、説明可能な機械学習における不一致問題を紹介し、研究する。
このような不一致が実際にどれだけ頻繁に起こるか、そして、実践者がこれらの不一致をどのように解決するかを分析する。
以上の結果から, 現状説明法は, それらが出力する説明法と矛盾することが多いことが示唆された。
論文 参考訳(メタデータ) (2022-02-03T14:19:23Z) - DIVINE: Diverse Influential Training Points for Data Visualization and
Model Refinement [32.045420977032926]
本稿では,モデル行動の有用な説明として,DIVerse InfluEntial (DIVINE) トレーニングポイントのセットを選択する手法を提案する。
本手法は,公平性向上のために除去できる不公平性誘導訓練点を同定することができる。
論文 参考訳(メタデータ) (2021-07-13T10:50:58Z) - DISSECT: Disentangled Simultaneous Explanations via Concept Traversals [33.65478845353047]
DISSECTは、ディープラーニングモデル推論を説明するための新しいアプローチである。
DISSECTは、分類器の信号から生成モデルを訓練することにより、異なる概念の分類器固有の「名詞」を発見する方法を提供する。
DISSECTは,複数の概念を分離し,共同訓練による推論と結合したCTを生成する。
論文 参考訳(メタデータ) (2021-05-31T17:11:56Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Fundamental Limits and Tradeoffs in Invariant Representation Learning [99.2368462915979]
多くの機械学習アプリケーションは、2つの競合する目標を達成する表現を学習する。
ミニマックスゲーム理論の定式化は、精度と不変性の基本的なトレードオフを表す。
分類と回帰の双方において,この一般的かつ重要な問題を情報論的に解析する。
論文 参考訳(メタデータ) (2020-12-19T15:24:04Z) - Towards Unifying Feature Attribution and Counterfactual Explanations:
Different Means to the Same End [17.226134854746267]
本稿では,一組の反実例から特徴帰属説明を生成する手法を提案する。
本報告では, 帰属に基づく説明の妥当性を, その必要性と充足性の観点から評価するために, 対実例をいかに活用するかを示す。
論文 参考訳(メタデータ) (2020-11-10T05:41:43Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文 参考訳(メタデータ) (2020-05-14T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。