論文の概要: Variable Importance in High-Dimensional Settings Requires Grouping
- arxiv url: http://arxiv.org/abs/2312.10858v1
- Date: Mon, 18 Dec 2023 00:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:09:48.577888
- Title: Variable Importance in High-Dimensional Settings Requires Grouping
- Title(参考訳): グループ化を必要とする高次元設定における可変的重要性
- Authors: Ahmad Chamma (1 and 2 and 3), Bertrand Thirion (1 and 2 and 3), Denis
A. Engemann (4) ((1) Inria, (2) Universite Paris Saclay, (3) CEA, (4) Roche
Pharma Research and Early Development, Neuroscience and Rare Diseases, Roche
Innovation Center Basel, F. Hoffmann-La Roche Ltd., Basel, Switzerland)
- Abstract要約: Conditional Permutation Importance (CPI)は、そのような場合のPIの制限をバイパスする。
クラスタリングまたはいくつかの事前知識を介して統計的に変数をグループ化すると、ある程度のパワーバックが得られる。
重み付けにより拡張された手法は,高相関なグループであっても,型Iエラーを制御可能であることを示す。
- 参考スコア(独自算出の注目度): 19.095605415846187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explaining the decision process of machine learning algorithms is nowadays
crucial for both model's performance enhancement and human comprehension. This
can be achieved by assessing the variable importance of single variables, even
for high-capacity non-linear methods, e.g. Deep Neural Networks (DNNs). While
only removal-based approaches, such as Permutation Importance (PI), can bring
statistical validity, they return misleading results when variables are
correlated. Conditional Permutation Importance (CPI) bypasses PI's limitations
in such cases. However, in high-dimensional settings, where high correlations
between the variables cancel their conditional importance, the use of CPI as
well as other methods leads to unreliable results, besides prohibitive
computation costs. Grouping variables statistically via clustering or some
prior knowledge gains some power back and leads to better interpretations. In
this work, we introduce BCPI (Block-Based Conditional Permutation Importance),
a new generic framework for variable importance computation with statistical
guarantees handling both single and group cases. Furthermore, as handling
groups with high cardinality (such as a set of observations of a given
modality) are both time-consuming and resource-intensive, we also introduce a
new stacking approach extending the DNN architecture with sub-linear layers
adapted to the group structure. We show that the ensuing approach extended with
stacking controls the type-I error even with highly-correlated groups and shows
top accuracy across benchmarks. Furthermore, we perform a real-world data
analysis in a large-scale medical dataset where we aim to show the consistency
between our results and the literature for a biomarker prediction.
- Abstract(参考訳): 機械学習アルゴリズムの決定過程を説明することは、今日ではモデルの性能向上と人間の理解の両方に不可欠である。
これは、DNN(Deep Neural Networks)のような高容量の非線形手法であっても、単一変数の変数の重要性を評価することで実現できる。
Permutation Importance (PI) のような除去に基づくアプローチだけが統計的妥当性をもたらすが、変数が相関している場合に誤った結果を返す。
Conditional Permutation Importance (CPI)は、そのような場合のPIの制限をバイパスする。
しかし、変数間の高い相関関係が条件的重要性を損なうような高次元環境では、CPIや他の手法の使用は、計算の禁止コスト以外の信頼性の低い結果をもたらす。
クラスタリングや事前知識を通じて統計的に変数をグループ化すると、ある程度のパワーが戻り、より良い解釈につながる。
本稿では,BCPI(Block-Based Conditional Permutation Importance)を紹介した。
さらに、高濃度群(例えば、与えられたモダリティの観測セット)の処理には時間的・資源的負荷がかかるため、グループ構造に適応したサブ線形層を持つDNNアーキテクチャを拡張した新たな積み重ねアプローチも導入する。
重み付けによって拡張された手法は,高相関なグループであっても型Iエラーを制御し,ベンチマークで最高の精度を示す。
さらに, 大規模医療データセットにおいて実世界データ解析を行い, バイオマーカー予測のための文献と結果の一貫性を示すことを目的とした。
関連論文リスト
- Generative Principal Component Regression via Variational Inference [2.4415762506639944]
適切な操作を設計するための1つのアプローチは、予測モデルの重要な特徴をターゲットとすることである。
我々は,そのような情報を潜在空間で表現する,教師付き変分オートエンコーダ(SVAE)に基づく新しい目的を開発する。
シミュレーションでは,gPCRは通常のPCRやSVAEと比較して,操作時のターゲット選択を劇的に改善することを示した。
論文 参考訳(メタデータ) (2024-09-03T22:38:55Z) - Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
我々は、シミュレートされたデータの教師あり学習を通じて因果関係を特定するために訓練されたニューラルネットワークを用いる。
大規模遺伝子制御ネットワークにおける因果関係の同定における本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - CAVIAR: Categorical-Variable Embeddings for Accurate and Robust Inference [0.2209921757303168]
社会科学の研究は、しばしば分類変数と結果の関係に頼っている。
本稿では,高次元空間における値を仮定するカテゴリ変数を埋め込む新しい手法であるCAVIARを紹介する。
論文 参考訳(メタデータ) (2024-04-07T14:47:07Z) - Statistically Valid Variable Importance Assessment through Conditional
Permutations [19.095605415846187]
Conditional Permutation Importanceは、変数の重要度評価に対する新しいアプローチである。
我々は、$textitCPI$が、正確な型Iエラー制御を提供することで、標準置換の重要性の限界を克服していることを示す。
この結果から,$textitCPI$は置換型メソッドのドロップイン置換として簡単に利用できることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T10:53:36Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Triplot: model agnostic measures and visualisations for variable
importance in predictive models that take into account the hierarchical
correlation structure [3.0036519884678894]
変数間の相関に関する情報を利用してモデル解析を支援する新しい手法を提案する。
ユーザが提案した変数群(アスペクト)と、自動的に決定される変数群(アスペクト)を解析する方法を紹介します。
また,可変グルーピングの階層構造を利用して高情報密度モデル可視化を行うtriplotという新しいタイプのモデル可視化手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T21:29:03Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Repulsive Mixture Models of Exponential Family PCA for Clustering [127.90219303669006]
指数関数型家族主成分分析(EPCA)の混合拡張は、従来のEPCAよりもデータ分布に関する構造情報を符号化するように設計された。
従来のEPCAの混合は、モデルの冗長性、すなわち混合成分間の重なりが問題であり、データクラスタリングの曖昧さを引き起こす可能性がある。
本稿では, 混合成分間での反発性増感前処理を導入し, ベイズ式に分散EPCA混合(DEPCAM)モデルを開発した。
論文 参考訳(メタデータ) (2020-04-07T04:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。