論文の概要: Explainability of Machine Learning Models under Missing Data
- arxiv url: http://arxiv.org/abs/2407.00411v3
- Date: Wed, 22 Jan 2025 10:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:34.343769
- Title: Explainability of Machine Learning Models under Missing Data
- Title(参考訳): 欠落データに基づく機械学習モデルの説明可能性
- Authors: Tuan L. Vo, Thu Nguyen, Luis M. Lopez-Ramos, Hugo L. Hammer, Michael A. Riegler, Pal Halvorsen,
- Abstract要約: データ不足は、モデルのパフォーマンスと説明容易性を著しく損なうおそれのある問題である。
本稿では、欠落データ分野の発展を要約し、SHAPに対する様々な計算方法の効果について考察する。
- 参考スコア(独自算出の注目度): 3.0485328005356136
- License:
- Abstract: Missing data is a prevalent issue that can significantly impair model performance and explainability. This paper briefly summarizes the development of the field of missing data with respect to Explainable Artificial Intelligence and experimentally investigates the effects of various imputation methods on SHAP (SHapley Additive exPlanations), a popular technique for explaining the output of complex machine learning models. Next, we compare different imputation strategies and assess their impact on feature importance and interaction as determined by Shapley values. Moreover, we also theoretically analyze the effects of missing values on Shapley values. Importantly, our findings reveal that the choice of imputation method can introduce biases that could lead to changes in the Shapley values, thereby affecting the explainability of the model. Moreover, we also show that a lower test prediction MSE (Mean Square Error) does not necessarily imply a lower MSE in Shapley values and vice versa. Also, while XGBoost (eXtreme Gradient Boosting) is a method that could handle missing data directly, using XGBoost directly on missing data can seriously affect explainability compared to imputing the data before training XGBoost. This study provides a comprehensive evaluation of imputation methods in the context of model explanations, offering practical guidance for selecting appropriate techniques based on dataset characteristics and analysis objectives. The results underscore the importance of considering imputation effects to ensure robust and reliable insights from machine learning models.
- Abstract(参考訳): データ不足は、モデルのパフォーマンスと説明容易性を著しく損なうおそれのある問題である。
本稿では,複雑な機械学習モデルの出力を説明するための一般的な手法であるSHAP(SHapley Additive exPlanations)に対する様々な計算方法の効果を,説明可能な人工知能(Explainable Artificial Intelligence)に関する欠落データ分野の展開を要約し,実験的に検討する。
次に、異なる計算戦略を比較し、シャプリー値によって決定される特徴の重要性と相互作用への影響を評価する。
さらに,Shapley値の欠落がShapley値に与える影響についても理論的に分析した。
重要なこととして,提案手法の選択は,シェープリー値の変化につながるバイアスを生じさせ,モデルの説明可能性に影響を及ぼすことが示唆された。
さらに,より低いテスト予測MSE (Mean Square Error) がシャプリー値の低いMSEを必ずしも含まないことも示している。
また、XGBoost(eXtreme Gradient Boosting)は、行方不明データを直接処理できるメソッドであるが、XGBoostを直接使用することで、XGBoostをトレーニングする前にデータを出力するよりも説明可能性に深刻な影響を与える可能性がある。
本研究は,モデル説明の文脈における命令法を包括的に評価し,データセットの特徴と分析目的に基づいて適切な手法を選択するための実践的ガイダンスを提供する。
この結果は、機械学習モデルからの堅牢で信頼性の高い洞察を確保するために、計算的効果を検討することの重要性を強調している。
関連論文リスト
- F-Fidelity: A Robust Framework for Faithfulness Evaluation of Explainable AI [15.314388210699443]
微調整フィデリティF-フィデリティはXAIの堅牢な評価フレームワークである。
その結果, F-Fidelity は, 説明者の信頼度を回復する上で, 事前評価基準を著しく改善することを示した。
また,F-Fidelityの指標を忠実に説明すれば,入力成分の空間性を計算することができることを示す。
論文 参考訳(メタデータ) (2024-10-03T20:23:06Z) - Common Steps in Machine Learning Might Hinder The Explainability Aims in Medicine [0.0]
本稿では、機械学習におけるデータ前処理のステップとそのモデルの説明可能性および解釈可能性への影響について論じる。
これらのステップはモデルの精度を向上させるが、特に医学において慎重に考慮されていない場合、モデルの説明可能性を妨げる可能性がある。
論文 参考訳(メタデータ) (2024-08-30T12:09:14Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Shapley Marginal Surplus for Strong Models [0.9831489366502301]
我々は、Shapley値がモデル予測の正確な説明であるが、機械学習モデル自体が真のデータ生成プロセス(DGP)の貧弱な説明であることを示している。
そこで,本研究では,特徴量から推定されるモデル空間を抽出する,新しい変数重要度アルゴリズム,Shapley Marginal Surplus for Strong Modelsを導入する。
論文 参考訳(メタデータ) (2024-08-16T17:06:07Z) - The Effect of Balancing Methods on Model Behavior in Imbalanced
Classification Problems [4.370097023410272]
不均衡なデータは、マイノリティクラスからの学習不足によってモデルのパフォーマンスが影響を受けるため、分類において課題となる。
この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。
これらの変化を捉えるために、説明可能な人工知能ツールは、バランスをとる前後にデータセットでトレーニングされたモデルを比較するために使用される。
論文 参考訳(メタデータ) (2023-06-30T22:25:01Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Adversarial Infidelity Learning for Model Interpretation [43.37354056251584]
本稿では,モデル解釈のためのモデル非依存能率直接(MEED)FSフレームワークを提案する。
我々のフレームワークは、正当性、ショートカット、モデルの識別可能性、情報伝達に関する懸念を緩和する。
我々のAILメカニズムは、選択した特徴と目標の間の条件分布を学習するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-09T16:27:17Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。