論文の概要: Local MDI+: Local Feature Importances for Tree-Based Models
- arxiv url: http://arxiv.org/abs/2506.08928v1
- Date: Tue, 10 Jun 2025 15:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.771745
- Title: Local MDI+: Local Feature Importances for Tree-Based Models
- Title(参考訳): Local MDI+:ツリーベースモデルにおける局所的特徴の重要性
- Authors: Zhongyuan Liang, Zachary T. Rewolinski, Abhineet Agarwal, Tiffany M. Tang, Bin Yu,
- Abstract要約: Local MDI+ (LMDI+) は、MDI+フレームワークのサンプル固有の設定への拡張である。
複数のランダムな森林にまたがる類似のインスタンスレベルの特徴重要度ランキングを生成する。
また、より密接なカウンターファクトの識別を含む、局所的な解釈可能性のユースケースを可能にする。
- 参考スコア(独自算出の注目度): 8.532396185972392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tree-based ensembles such as random forests remain the go-to for tabular data over deep learning models due to their prediction performance and computational efficiency. These advantages have led to their widespread deployment in high-stakes domains, where interpretability is essential for ensuring trustworthy predictions. This has motivated the development of popular local (i.e. sample-specific) feature importance (LFI) methods such as LIME and TreeSHAP. However, these approaches rely on approximations that ignore the model's internal structure and instead depend on potentially unstable perturbations. These issues are addressed in the global setting by MDI+, a feature importance method which exploits an equivalence between decision trees and linear models on a transformed node basis. However, the global MDI+ scores are not able to explain predictions when faced with heterogeneous individual characteristics. To address this gap, we propose Local MDI+ (LMDI+), a novel extension of the MDI+ framework to the sample specific setting. LMDI+ outperforms existing baselines LIME and TreeSHAP in identifying instance-specific signal features, averaging a 10% improvement in downstream task performance across twelve real-world benchmark datasets. It further demonstrates greater stability by consistently producing similar instance-level feature importance rankings across multiple random forest fits. Finally, LMDI+ enables local interpretability use cases, including the identification of closer counterfactuals and the discovery of homogeneous subgroups.
- Abstract(参考訳): ランダムフォレストのような木に基づくアンサンブルは、予測性能と計算効率のため、ディープラーニングモデルよりもタブ形式のデータを扱うための手段である。
これらのアドバンテージは、信頼性の高い予測を保証するために、解釈可能性が不可欠である、ハイテイクなドメインへの広範な展開につながっている。
これは、LIMEやTreeSHAPなどのLFI(Lopular Feature importance)メソッドの開発を動機付けている。
しかし、これらのアプローチはモデルの内部構造を無視し、不安定な摂動に依存する近似に依存する。
これらの問題は、決定木と線形モデルとの等価性を変換ノードベースで活用する特徴重要度手法であるMDI+によって、グローバルな設定で解決される。
しかし、グローバルなMDI+スコアは、不均一な個人特性に直面した場合の予測を説明できない。
そこで本研究では,MDI+フレームワークをサンプル設定に拡張したローカルMDI+(LMDI+)を提案する。
LMDI+は、インスタンス固有の信号の特徴を特定する上で、既存のベースラインのLIMEとTreeSHAPよりも優れており、12の実際のベンチマークデータセットで、ダウンストリームタスクのパフォーマンスが平均10%向上している。
さらに、複数のランダムな森林にまたがる類似のインスタンスレベルの特徴重要度ランキングを一貫して作成することで、より安定性を示す。
最後に、LMDI+は、密接な反事実の同定や同種部分群の発見など、局所的解釈可能性のユースケースを可能にする。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - SSPNet: Scale and Spatial Priors Guided Generalizable and Interpretable
Pedestrian Attribute Recognition [23.55622798950833]
Pedestrian Attribute Recognition(PAR)モデルに対して,SSPNet(Scale and Spatial Priors Guided Network)を提案する。
SSPNetは、異なる属性グループに対して適切なスケールの事前情報を提供することを学び、モデルが異なるレベルの機能マップに集中できるようにする。
Weakly-supervised Pedestrian Attribute Localization (WPAL) に対して, 属性応答マスクのGrad-CAMの改良に基づく新しいIoU属性ローカライゼーション指標を提案する。
論文 参考訳(メタデータ) (2023-12-11T00:41:40Z) - Integrating Random Forests and Generalized Linear Models for Improved Accuracy and Interpretability [9.128252505139471]
我々はRF+と呼ばれるフレームワークを用いて、RFの強みと一般化線形モデルの強さを組み合わせる。
RF+はRFよりも予測精度を向上し、MDI+は信号の特徴を特定する上での一般的な特徴重要度よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-04T21:36:46Z) - Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor
Point Clouds [69.64240235315864]
本稿では,本課題に対して,合成-実領域一般化設定を提案する。
合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。
CINMixとMulti-prototypeの両方が分配ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2022-12-09T05:07:43Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Federated and Generalized Person Re-identification through Domain and
Feature Hallucinating [88.77196261300699]
人物再識別(re-ID)におけるフェデレーションドメイン一般化(FedDG)の問題について検討する。
一般化された局所的・グローバルなモデルを学ぶための多様な特徴を創出する手法として,DFH (Domain and Feature Hallucinating) を提案する。
提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-05T09:15:13Z) - From global to local MDI variable importances for random forests and
when they are Shapley values [9.99125500568217]
まず,世界平均不純物量(MDI)の変動重要度スコアが,いくつかの条件下でのシェープリー値と一致することを示す。
我々は、グローバルなMDI尺度と非常に自然な関係を持ち、局所的特徴関連性の新たな概念と結びつく、変数関連性の局所的MDI重要度尺度を導出する。
論文 参考訳(メタデータ) (2021-11-03T13:38:41Z) - Data-driven advice for interpreting local and global model predictions
in bioinformatics problems [17.685881417954782]
条件付き特徴コントリビューション(CFC)は、予測のテキストローカルでケースバイケースの説明を提供する。
両手法で計算した説明を, 公開されている164の分類問題に対して比較した。
ランダム林では,地域とグローバルのSHAP値とCFCスコアの相関関係が極めて高い。
論文 参考訳(メタデータ) (2021-08-13T12:41:39Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。