論文の概要: Models That Are Interpretable But Not Transparent
- arxiv url: http://arxiv.org/abs/2502.19502v1
- Date: Wed, 26 Feb 2025 19:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:50.930971
- Title: Models That Are Interpretable But Not Transparent
- Title(参考訳): 解釈可能だが透明でないモデル
- Authors: Chudi Zhong, Panyu Chen, Cynthia Rudin,
- Abstract要約: FaithfulDefenseは、完全に忠実だが決定境界についてできる限り明らかにしていない論理モデルの説明を作成する。
この研究はFaithfulDefenseというアプローチを提供し、完全に忠実だが決定境界についてできる限り明らかにしていない論理モデルのモデル説明を作成する。
- 参考スコア(独自算出の注目度): 19.6420087904074
- License:
- Abstract: Faithful explanations are essential for machine learning models in high-stakes applications. Inherently interpretable models are well-suited for these applications because they naturally provide faithful explanations by revealing their decision logic. However, model designers often need to keep these models proprietary to maintain their value. This creates a tension: we need models that are interpretable--allowing human decision-makers to understand and justify predictions, but not transparent, so that the model's decision boundary is not easily replicated by attackers. Shielding the model's decision boundary is particularly challenging alongside the requirement of completely faithful explanations, since such explanations reveal the true logic of the model for an entire subspace around each query point. This work provides an approach, FaithfulDefense, that creates model explanations for logical models that are completely faithful, yet reveal as little as possible about the decision boundary. FaithfulDefense is based on a maximum set cover formulation, and we provide multiple formulations for it, taking advantage of submodularity.
- Abstract(参考訳): 忠実な説明は、高度なアプリケーションにおける機械学習モデルに不可欠である。
真に解釈可能なモデルは、決定論理を明らかにすることによって、自然に忠実な説明を提供するので、これらの応用に適している。
しかし、モデルデザイナはその価値を維持するためにこれらのモデルをプロプライエタリにしておく必要があることが多い。
予測を理解し、正当化するためには、人間の意思決定者を許容するモデルが必要ですが、透明ではないため、モデルの決定境界が攻撃者によって容易に複製されません。
このような説明は、各クエリポイントの周りの部分空間全体に対するモデルの真の論理を明らかにしているため、モデルの決定境界を守ることは、完全に忠実な説明の要求と共に特に困難である。
この研究はFaithfulDefenseというアプローチを提供し、完全に忠実だが決定境界についてできる限り明らかにしていない論理モデルのモデル説明を作成する。
FaithfulDefense は最大集合被覆定式化に基づいており、部分モジュラリティを生かして複数の定式化を提供する。
関連論文リスト
- Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Discriminative Feature Attributions: Bridging Post Hoc Explainability
and Inherent Interpretability [29.459228981179674]
ポストホックの説明は、基礎となるタスクにとって重要でない、あるいは差別的でない機能に、誤って高い重要性がある。
一方、モデルアーキテクチャに説明を明示的にエンコードすることでこれらの問題を回避することができる。
本研究では,ディストラクタ消去に頑健なブラックボックスモデルを適応させる手法であるディストラクタ消去調整法(DiET)を提案する。
論文 参考訳(メタデータ) (2023-07-27T17:06:02Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Partial Order in Chaos: Consensus on Feature Attributions in the
Rashomon Set [50.67431815647126]
ポストホックなグローバル/ローカルな特徴属性法は、機械学習モデルを理解するために徐々に採用されている。
この手法により局所的・言語的特徴の半順序が生じることを示す。
これらの部分的な順序に現れる特徴間の関係は、既存のアプローチによって提供されたランクにも当てはまることを示す。
論文 参考訳(メタデータ) (2021-10-26T02:53:14Z) - Recurrence-Aware Long-Term Cognitive Network for Explainable Pattern
Classification [0.0]
構造化データの解釈可能なパターン分類のためのLCCNモデルを提案する。
本手法は, 決定過程における各特徴の関連性を定量化し, 説明を提供する独自のメカニズムを提供する。
解釈可能なモデルでは,最先端の白黒ボックスと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2021-07-07T18:14:50Z) - A Holistic Approach to Interpretability in Financial Lending: Models,
Visualizations, and Summary-Explanations [25.05825112699133]
そのような機密性のない未来の世界では、正当な融資決定にどのような意思決定支援ツールを使いたいのか?
本稿では,グローバルな解釈可能な機械学習モデル,インタラクティブな可視化,および任意の決定に対するいくつかの要約と説明を含む,そのような決定のためのフレームワークを提案する。
私たちのフレームワークは、Explainable Machine Learning ChallengeでFICO認識賞を受賞しました。
論文 参考訳(メタデータ) (2021-06-04T17:05:25Z) - An exact counterfactual-example-based approach to tree-ensemble models
interpretability [0.0]
高性能モデルは、決定を完全に理解するために必要な透明性を示さない。
多次元間隔の集まりの形で、決定領域の正確な幾何学的特徴付けを導出できる。
回帰問題に対する推論への適応も考えられている。
論文 参考訳(メタデータ) (2021-05-31T09:32:46Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal
Sufficient Subsets [61.66584140190247]
機能に基づく説明は、自明なモデルでも問題を引き起こすことを示す。
そこで本研究では,2つの一般的な説明書クラスであるシェープリー説明書と十分最小限の部分集合説明書が,基本的に異なる基底的説明書のタイプをターゲットにしていることを示す。
論文 参考訳(メタデータ) (2020-09-23T09:45:23Z) - Accurate and Intuitive Contextual Explanations using Linear Model Trees [0.0]
ローカルなポストホックモデル説明が広く採用されている。
技術手法の現状は、初歩的な手法を用いて説明すべき点の周囲に合成データを生成する。
我々は、合成データ生成にジェネレーティブ・アドバイサル・ネットワークを使用し、線形モデルツリーの形で断片的な線形モデルを訓練する。
論文 参考訳(メタデータ) (2020-09-11T10:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。