論文の概要: Statistically Valid Variable Importance Assessment through Conditional
Permutations
- arxiv url: http://arxiv.org/abs/2309.07593v1
- Date: Thu, 14 Sep 2023 10:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:27:26.170523
- Title: Statistically Valid Variable Importance Assessment through Conditional
Permutations
- Title(参考訳): 条件順列による統計的に有効な変数重要度評価
- Authors: Ahmad Chamma (1 and 2 and 3), Denis A. Engemann (4) and Bertrand
Thirion (1 and 2 and 3) ((1) Inria, (2) Universite Paris Saclay, (3) CEA, (4)
Roche Pharma Research and Early Development, Neuroscience and Rare Diseases,
Roche Innovation Center Basel, F. Hoffmann-La Roche Ltd., Basel, Switzerland)
- Abstract要約: Conditional Permutation Importanceは、変数の重要度評価に対する新しいアプローチである。
我々は、$textitCPI$が、正確な型Iエラー制御を提供することで、標準置換の重要性の限界を克服していることを示す。
この結果から,$textitCPI$は置換型メソッドのドロップイン置換として簡単に利用できることが示唆された。
- 参考スコア(独自算出の注目度): 19.095605415846187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variable importance assessment has become a crucial step in machine-learning
applications when using complex learners, such as deep neural networks, on
large-scale data. Removal-based importance assessment is currently the
reference approach, particularly when statistical guarantees are sought to
justify variable inclusion. It is often implemented with variable permutation
schemes. On the flip side, these approaches risk misidentifying unimportant
variables as important in the presence of correlations among covariates. Here
we develop a systematic approach for studying Conditional Permutation
Importance (CPI) that is model agnostic and computationally lean, as well as
reusable benchmarks of state-of-the-art variable importance estimators. We show
theoretically and empirically that $\textit{CPI}$ overcomes the limitations of
standard permutation importance by providing accurate type-I error control.
When used with a deep neural network, $\textit{CPI}$ consistently showed top
accuracy across benchmarks. An empirical benchmark on real-world data analysis
in a large-scale medical dataset showed that $\textit{CPI}$ provides a more
parsimonious selection of statistically significant variables. Our results
suggest that $\textit{CPI}$ can be readily used as drop-in replacement for
permutation-based methods.
- Abstract(参考訳): 大規模データにディープニューラルネットワークなどの複雑な学習者を使用する場合、変数重要度評価は機械学習アプリケーションにおいて重要なステップとなっている。
除去に基づく重要度評価は現在、特に変数包含を正当化するために統計的保証を求める場合の参照アプローチである。
変数の置換スキームで実装されることが多い。
逆に、これらのアプローチは共変量間の相関の存在において重要でない変数を誤同定するリスクがある。
本稿では,CPI(Conditional Permutation Importance)のモデル非依存および計算的リーン化のための体系的アプローチと,最先端の変数重要度推定器の再利用可能なベンチマークを開発する。
理論的および実証的に、$\textit{cpi}$ は正確な type-i エラー制御を提供することで標準置換の重要性の限界を克服することを示した。
ディープニューラルネットワークを使用すると、$\textit{CPI}$はベンチマーク全体で最高精度を示している。
大規模医療データセットにおける実世界のデータ分析に関する経験的ベンチマークでは、$\textit{cpi}$が統計学的に重要な変数のより控えめな選択を提供することが示された。
この結果から,$\textit{CPI}$は置換型メソッドのドロップイン置換として簡単に利用できることが示唆された。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Improving importance estimation in covariate shift for providing
accurate prediction error [0.0]
Kullback-Leibler Importance Estimation(KLIEP)は、有望な方法で重要度を推定できる。
本稿では,重要度計算における対象情報を考慮した場合の性能改善の可能性について検討する。
論文 参考訳(メタデータ) (2024-02-02T14:39:39Z) - Variable Importance in High-Dimensional Settings Requires Grouping [19.095605415846187]
Conditional Permutation Importance (CPI)は、そのような場合のPIの制限をバイパスする。
クラスタリングまたはいくつかの事前知識を介して統計的に変数をグループ化すると、ある程度のパワーバックが得られる。
重み付けにより拡張された手法は,高相関なグループであっても,型Iエラーを制御可能であることを示す。
論文 参考訳(メタデータ) (2023-12-18T00:21:47Z) - DiscoVars: A New Data Analysis Perspective -- Application in Variable
Selection for Clustering [0.0]
基礎となる学習課題によらず,変数の重要度を決定するために,新しいデータ分析視点を提案する。
本稿では,データから重要な変数を選択するための新しい手法を提案する。
ユーザフレンドリーなインターフェース開発環境であるShinyアプリとして,当社のツールを紹介します。
論文 参考訳(メタデータ) (2023-04-08T10:57:19Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z) - Nonlinear Distribution Regression for Remote Sensing Applications [6.664736150040092]
多くのリモートセンシングアプリケーションでは、観察から関心のある変数やパラメータを推定したい。
ニューラルネットワーク、ランダムフォレスト、ガウス過程などの標準アルゴリズムは、これら2つに関連して容易に利用可能である。
本稿では, グループ化されたデータの統計を仮定することなく, 従来の問題を解く非線形(カーネルベース)な分散回帰法を提案する。
論文 参考訳(メタデータ) (2020-12-07T22:04:43Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。