論文の概要: Enforcing Interpretability and its Statistical Impacts: Trade-offs
between Accuracy and Interpretability
- arxiv url: http://arxiv.org/abs/2010.13764v2
- Date: Wed, 28 Oct 2020 17:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-02 18:11:45.656082
- Title: Enforcing Interpretability and its Statistical Impacts: Trade-offs
between Accuracy and Interpretability
- Title(参考訳): 解釈可能性の実施とその統計的影響:正確性と解釈可能性のトレードオフ
- Authors: Gintare Karolina Dziugaite, Shai Ben-David, Daniel M. Roy
- Abstract要約: 機械学習における解釈可能性の統計的コストに関する公式な研究は行われていない。
我々は、解釈可能な仮説の集合に対して経験的リスク最小化を行う行為として、解釈可能性を促進する行為をモデル化する。
我々は,解釈可能な分類器に対する制限が,過度な統計リスクの犠牲になる場合,正確性と解釈可能性の間のトレードオフを観察できるかどうかを事例分析により説明する。
- 参考スコア(独自算出の注目度): 30.501012698482423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To date, there has been no formal study of the statistical cost of
interpretability in machine learning. As such, the discourse around potential
trade-offs is often informal and misconceptions abound. In this work, we aim to
initiate a formal study of these trade-offs. A seemingly insurmountable
roadblock is the lack of any agreed upon definition of interpretability.
Instead, we propose a shift in perspective. Rather than attempt to define
interpretability, we propose to model the \emph{act} of \emph{enforcing}
interpretability. As a starting point, we focus on the setting of empirical
risk minimization for binary classification, and view interpretability as a
constraint placed on learning. That is, we assume we are given a subset of
hypothesis that are deemed to be interpretable, possibly depending on the data
distribution and other aspects of the context. We then model the act of
enforcing interpretability as that of performing empirical risk minimization
over the set of interpretable hypotheses. This model allows us to reason about
the statistical implications of enforcing interpretability, using known results
in statistical learning theory. Focusing on accuracy, we perform a case
analysis, explaining why one may or may not observe a trade-off between
accuracy and interpretability when the restriction to interpretable classifiers
does or does not come at the cost of some excess statistical risk. We close
with some worked examples and some open problems, which we hope will spur
further theoretical development around the tradeoffs involved in
interpretability.
- Abstract(参考訳): これまで、機械学習における解釈可能性の統計的コストに関する公式な研究は行われていない。
そのため、潜在的なトレードオフに関する議論はしばしば非公式であり、誤解は多い。
本研究は,これらのトレードオフの正式な研究を開始することを目的としている。
一見不可能な障害は、解釈可能性の定義に合意されていないことである。
代わりに、視点の変化を提案します。
解釈可能性を定義するのではなく、emph{enforcing} 解釈可能性の \emph{act} をモデル化することを提案する。
出発点として、二項分類における経験的リスク最小化の設定に焦点をあて、解釈可能性を学習上の制約と見なす。
つまり、データ分布や文脈の他の側面によって解釈可能であると考えられる仮説のサブセットが与えられたと仮定する。
次に,解釈可能性の行使を,解釈可能な仮説の集合に対して経験的リスク最小化を行う行為としてモデル化する。
このモデルにより、統計的学習理論における既知の結果を用いて、解釈可能性の強制の統計的意味を推論することができる。
正確性に焦点をあててケース分析を行い,解釈可能な分類器に対する制限が過度な統計リスクを伴わない場合の正確性と解釈可能性のトレードオフを観測しうる理由を説明する。
いくつかの実例といくつかの未解決問題で締めくくっており、解釈可能性に関わるトレードオフに関するさらなる理論的発展を促すことを望んでいる。
関連論文リスト
- Actionable Interpretability Must Be Defined in Terms of Symmetries [37.964025348175504]
本稿では、人工知能(AI)における解釈可能性の研究は、既存の定義では、どのように解釈可能性が公式にテストされるか、あるいは設計されるのかを記述できないため、基本的には不適切である、と論じる。
我々は、解釈可能性の実行可能な定義は、モデル設計を通知し、テスト可能な条件に導く*対称性*という用語で定式化されなければならないと仮定する。
論文 参考訳(メタデータ) (2026-01-19T10:10:17Z) - The Dead Salmons of AI Interpretability [9.722180905657268]
AIの解釈可能性では、同様の'デッド・サーモン'アーティファクトの報告が増えている。
我々は現実的な統計的因果リフレーミングを主張する。
論文 参考訳(メタデータ) (2025-12-21T16:07:44Z) - Enhancing Pre-trained Representation Classifiability can Boost its Interpretability [112.296393156262]
表現内の解釈可能な意味の比率との相関を利用して、表現解釈可能性の定量化を行う。
Inherent Interpretability Score(IIS)を提案し、情報損失を評価し、解釈可能なセマンティクスの比率を測定し、表現解釈可能性の定量化を行う。
論文 参考訳(メタデータ) (2025-10-28T06:21:06Z) - From Black-box to Causal-box: Towards Building More Interpretable Models [57.23201263629627]
本稿では, 因果解釈可能性の概念を導入し, 特定のモデルのクラスから対実的クエリを評価できるときの形式化について述べる。
我々は、与えられたモデルアーキテクチャが与えられた偽物クエリをサポートするかどうかを決定する完全なグラフィカルな基準を導出する。
論文 参考訳(メタデータ) (2025-10-24T20:03:18Z) - Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Hard to Explain: On the Computational Hardness of In-Distribution Model Interpretation [0.9558392439655016]
機械学習(ML)モデルを解釈する能力はますます不可欠になりつつある。
近年の研究では、様々なモデルの意思決定を説明する計算複雑性を研究することにより、解釈可能性について正式に評価することが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-07T17:20:52Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Doubly Robust Counterfactual Classification [1.8907108368038217]
本研究では,仮説的(事実とは対照的に)なシナリオ下での意思決定のための新しいツールとして,カウンターファクトの分類について検討する。
本稿では, 一般対物分類器のための2次ロバストな非パラメトリック推定器を提案する。
論文 参考訳(メタデータ) (2023-01-15T22:04:46Z) - Uncertain Evidence in Probabilistic Models and Stochastic Simulators [80.40110074847527]
我々は、不確実性を伴う観測を伴う確率論的モデルにおいて、ベイズ的推論を行うという問題について考察する。
我々は、不確実な証拠をどう解釈するかを探求し、潜伏変数の推論に関連する適切な解釈の重要性を拡大する。
我々は、不確実な証拠を説明するための具体的なガイドラインを考案し、特に一貫性に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2022-10-21T20:32:59Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Counterfactual Invariance to Spurious Correlations: Why and How to Pass
Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。
機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。
因果推論ツールを用いたストレステストについて検討した。
論文 参考訳(メタデータ) (2021-05-31T14:39:38Z) - Measuring Model Fairness under Noisy Covariates: A Theoretical
Perspective [26.704446184314506]
本研究では,雑音情報に基づく機械学習モデルの公平性の測定問題について検討する。
本稿では, 精度の高い公平性評価が可能な弱い条件を特徴付けることを目的とした理論的解析を行う。
論文 参考訳(メタデータ) (2021-05-20T18:36:28Z) - Are Interpretations Fairly Evaluated? A Definition Driven Pipeline for
Post-Hoc Interpretability [54.85658598523915]
我々は,解釈の忠実性を評価する前に,解釈を明確に定義することを提案する。
解釈手法は,ある評価基準の下で異なる性能を示すが,その差は解釈の品質や忠実さから生じるものではない。
論文 参考訳(メタデータ) (2020-09-16T06:38:03Z) - Getting a CLUE: A Method for Explaining Uncertainty Estimates [30.367995696223726]
微分可能確率モデルからの不確実性推定を解釈する新しい手法を提案する。
提案手法は,データ多様体上に保持しながら,入力の変更方法を示す。
論文 参考訳(メタデータ) (2020-06-11T21:53:15Z) - The Curse of Performance Instability in Analysis Datasets: Consequences,
Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。
このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。
不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文 参考訳(メタデータ) (2020-04-28T15:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。