論文の概要: Data-driven advice for interpreting local and global model predictions
in bioinformatics problems
- arxiv url: http://arxiv.org/abs/2108.06201v1
- Date: Fri, 13 Aug 2021 12:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 16:50:19.005936
- Title: Data-driven advice for interpreting local and global model predictions
in bioinformatics problems
- Title(参考訳): バイオインフォマティクス問題における局所モデルおよび大域モデル予測の解釈のためのデータ駆動型アドバイス
- Authors: Markus Loecher and Qi Wu
- Abstract要約: 条件付き特徴コントリビューション(CFC)は、予測のテキストローカルでケースバイケースの説明を提供する。
両手法で計算した説明を, 公開されている164の分類問題に対して比較した。
ランダム林では,地域とグローバルのSHAP値とCFCスコアの相関関係が極めて高い。
- 参考スコア(独自算出の注目度): 17.685881417954782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tree-based algorithms such as random forests and gradient boosted trees
continue to be among the most popular and powerful machine learning models used
across multiple disciplines. The conventional wisdom of estimating the impact
of a feature in tree based models is to measure the \textit{node-wise reduction
of a loss function}, which (i) yields only global importance measures and (ii)
is known to suffer from severe biases. Conditional feature contributions (CFCs)
provide \textit{local}, case-by-case explanations of a prediction by following
the decision path and attributing changes in the expected output of the model
to each feature along the path. However, Lundberg et al. pointed out a
potential bias of CFCs which depends on the distance from the root of a tree.
The by now immensely popular alternative, SHapley Additive exPlanation (SHAP)
values appear to mitigate this bias but are computationally much more
expensive. Here we contribute a thorough comparison of the explanations
computed by both methods on a set of 164 publicly available classification
problems in order to provide data-driven algorithm recommendations to current
researchers. For random forests, we find extremely high similarities and
correlations of both local and global SHAP values and CFC scores, leading to
very similar rankings and interpretations. Analogous conclusions hold for the
fidelity of using global feature importance scores as a proxy for the
predictive power associated with each feature.
- Abstract(参考訳): ランダムフォレストや勾配木などの木に基づくアルゴリズムは、複数の分野にまたがる最も人気があり強力な機械学習モデルのひとつであり続けている。
ツリーベースモデルにおける特徴の影響を推定する従来の知恵は、(i)グローバルな重要性の尺度しか得られず、(ii)深刻なバイアスに苦しむことで知られる \textit{node-wise reduction of a loss function} を測定することである。
条件付き特徴コントリビューション(CFC)は、決定パスに従うことによって予測をケースバイケースで説明し、経路に沿った各機能にモデルが期待する出力の変化をもたらす。
しかし、lundbergらもそうである。
木の根からの距離に依存するCFCの潜在的なバイアスを指摘した。
SHAP値(SHapley Additive exPlanation)は、このバイアスを軽減するために用いられるが、計算コストははるかに高い。
本稿では,2つの手法で計算された説明を164の公開分類問題に対して徹底的に比較し,現在の研究者にデータ駆動型アルゴリズムの推薦を提供する。
ランダムな森林では、局所的およびグローバルなSHAP値とCFCスコアの相関が非常に高く、非常に類似したランキングと解釈をもたらす。
類似の結論は、グローバルな特徴重要度スコアを各特徴に関連する予測力のプロキシとして用いることの忠実さである。
関連論文リスト
- Graph Out-of-Distribution Generalization via Causal Intervention [69.70137479660113]
本稿では,ノードレベルの分散シフトの下で頑健なグラフニューラルネットワーク(GNN)をトレーニングするための,概念的に単純だが原則化されたアプローチを提案する。
本手法は,環境推定器と熟練GNN予測器を協調する因果推論に基づく新たな学習目標を提案する。
本モデルでは,様々な分散シフトによる一般化を効果的に向上し,グラフOOD一般化ベンチマーク上での最先端の精度を最大27.4%向上させることができる。
論文 参考訳(メタデータ) (2024-02-18T07:49:22Z) - Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - Prediction Algorithms Achieving Bayesian Decision Theoretical Optimality
Based on Decision Trees as Data Observation Processes [1.2774526936067927]
本稿では,データの背後にあるデータ観測過程を表現するために木を用いる。
我々は、過度な適合に対して頑健な統計的に最適な予測を導出する。
これをマルコフ連鎖モンテカルロ法により解き、ステップサイズは木の後方分布に応じて適応的に調整される。
論文 参考訳(メタデータ) (2023-06-12T12:14:57Z) - SETAR-Tree: A Novel and Accurate Tree Algorithm for Global Time Series
Forecasting [7.206754802573034]
本稿では,TARモデルと回帰木との密接な関係について検討する。
本研究では,葉のグローバルプール回帰(PR)モデルをトレーニングする,予測固有木アルゴリズムを提案する。
本評価では, 提案した樹木モデルと森林モデルを用いて, 最先端の樹木モデルよりも精度の高い木モデルを提案する。
論文 参考訳(メタデータ) (2022-11-16T04:30:42Z) - Hierarchical Shrinkage: improving the accuracy and interpretability of
tree-based methods [10.289846887751079]
木構造を改変しないポストホックアルゴリズムである階層収縮(Hierarchical Shrinkage, HS)を導入する。
HSは、他の正規化技術と併用しても、決定木の予測性能を大幅に向上させる。
すべてのコードとモデルはGithubにある本格的なパッケージでリリースされている。
論文 参考訳(メタデータ) (2022-02-02T02:43:23Z) - Active-LATHE: An Active Learning Algorithm for Boosting the Error
Exponent for Learning Homogeneous Ising Trees [75.93186954061943]
我々は、$rho$が少なくとも0.8$である場合に、エラー指数を少なくとも40%向上させるアルゴリズムを設計し、分析する。
我々の分析は、グラフの一部により多くのデータを割り当てるために、微小だが検出可能なサンプルの統計的変動を巧みに活用することに基づいている。
論文 参考訳(メタデータ) (2021-10-27T10:45:21Z) - A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds [9.546094657606178]
本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
論文 参考訳(メタデータ) (2021-10-18T21:22:40Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Precision-Recall Curve (PRC) Classification Trees [5.503321733964237]
そこで本稿では,AUPRC (Precision-recall curve) に基づく木に基づく新しいアルゴリズムを提案する。
我々のアルゴリズムは「精度・リコール曲線分類木(Precision-Recall Curve classification tree)」と名付けられ、単に「PRC分類木(PRC classification tree)」と呼ばれる。
論文 参考訳(メタデータ) (2020-11-15T22:31:06Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Polynomial-Time Exact MAP Inference on Discrete Models with Global
Dependencies [83.05591911173332]
ジャンクションツリーアルゴリズムは、実行時の保証と正確なMAP推論のための最も一般的な解である。
本稿では,ノードのクローン化による新たなグラフ変換手法を提案する。
論文 参考訳(メタデータ) (2019-12-27T13:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。