論文の概要: SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
- arxiv url: http://arxiv.org/abs/2510.08737v1
- Date: Thu, 09 Oct 2025 18:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.504639
- Title: SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
- Title(参考訳): サンプル分類のためのSHAPによる監視クラスタリングと一般的な降水経路
- Authors: Justin Lin, Julia Fukuyama,
- Abstract要約: 膨大な量のデータを処理し、信じられないほど複雑な入出力関係を学習する能力によって、大規模なブラックボックスモデルが標準になりつつある。
これらの手法の欠如は、予測過程を説明できないことであり、それらが信頼できないものとなり、高い状況で利用できない。
Shapley Additive ExPlanations (SHAP)分析は、オリジナルの特徴の観点からモデル予測を説明する能力で人気が高まっている説明可能なAIメソッドである。
- 参考スコア(独自算出の注目度): 1.3965477771846408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.
- Abstract(参考訳): 膨大な量のデータを処理し、信じられないほど複雑なインプット・アウトプット関係を学習する能力によって、この成長するデータと技術の時代には、大規模なブラックボックスモデルが標準になりつつある。
しかし、これらの手法の欠如は、予測過程を説明できないことであり、それらが信頼できないものとなり、高い状況で利用されてしまう。
SHAP(SHapley Additive exPlanations)分析は、オリジナルの特徴からモデル予測を説明する能力で人気が高まっている、説明可能なAIメソッドである。
データセットの各サンプルと特徴について、その特徴の寄与をそのサンプルの予測に定量化するSHAP値を関連付ける。
これらのSHAP値のクラスタ化は、同じ予測を受けただけでなく、同様の理由で同じ予測を受けたサンプルをグループ化することで、データに対する洞察を与えることができる。
このようにして、異なるサンプルが同じ予測に達する様々な経路をマッピングする。
本手法を実証するために,アルツハイマー病神経イメージングイニシアチブ(ADNI)データベースのデータを用いたアルツハイマー病のケーススタディに加え,シミュレーション実験を行った。
また,マルチクラス化のための新しいウォーターフォールプロットの一般化を提案する。
関連論文リスト
- Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data [5.591260685112265]
SCOREは、患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークである。
大規模データの計算課題に対処するため、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。
分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:20:17Z) - Pre-validation Revisited [79.92204034170092]
シミュレーションと応用による予測,推測,誤差推定における事前検証の特性と利点を示す。
そこで本研究では, あるモデル下での事前検証予測のためのテスト統計量の解析的分布だけでなく, 推論を行うための一般的なブートストラップ手順も提案する。
論文 参考訳(メタデータ) (2025-05-21T00:20:14Z) - Challenges learning from imbalanced data using tree-based models: Prevalence estimates systematically depend on hyperparameters and can be upwardly biased [0.0]
不均衡二項分類問題は、多くの研究分野において発生する。
モデルのトレーニングのための(より)バランスのとれたデータセットを作成するために、多数派のクラスをサブサンプルするのが一般的です。
このバイアスを説明する一つの方法は、多数派クラスのサンプリング率に基づいて、結果の予測結果を新しい値に解析的にマッピングすることである。
この方法で無作為林を校正することは、上向きに偏りのある有病率推定を含む、意図しない負の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-12-17T19:38:29Z) - Considerations for Distribution Shift Robustness of Diagnostic Models in Healthcare [10.393967785465536]
健康のための応用MLの分野では、患者に関する情報を考慮せずに$X$から$Y$を予測することが一般的である。
本研究では,医療環境に共通するデータ生成機構を強調し,因果関係の文献による最近の理論的結果を用いて,堅牢な予測モデルを構築する方法について論じる。
論文 参考訳(メタデータ) (2024-10-25T14:13:09Z) - ReAugment: Model Zoo-Guided RL for Few-Shot Time Series Augmentation and Forecasting [74.00765474305288]
本稿では,時系列データ拡張のための強化学習(RL)の試験的検討を行う。
我々の手法であるReAugmentは、トレーニングセットのどの部分が拡張されるべきか、どのように拡張を行うべきか、RLがプロセスにどのような利点をもたらすのか、という3つの重要な問題に取り組む。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。