論文の概要: Conditional Feature Importance for Mixed Data
- arxiv url: http://arxiv.org/abs/2210.03047v3
- Date: Tue, 2 May 2023 08:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 17:56:13.505950
- Title: Conditional Feature Importance for Mixed Data
- Title(参考訳): 混合データにおける条件付き特徴の重要性
- Authors: Kristin Blesch, David S. Watson, Marvin N. Wright
- Abstract要約: ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
- 参考スコア(独自算出の注目度): 1.6114012813668934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the popularity of feature importance (FI) measures in interpretable
machine learning, the statistical adequacy of these methods is rarely
discussed. From a statistical perspective, a major distinction is between
analyzing a variable's importance before and after adjusting for covariates -
i.e., between $\textit{marginal}$ and $\textit{conditional}$ measures. Our work
draws attention to this rarely acknowledged, yet crucial distinction and
showcases its implications. Further, we reveal that for testing conditional FI,
only few methods are available and practitioners have hitherto been severely
restricted in method application due to mismatching data requirements. Most
real-world data exhibits complex feature dependencies and incorporates both
continuous and categorical data (mixed data). Both properties are oftentimes
neglected by conditional FI measures. To fill this gap, we propose to combine
the conditional predictive impact (CPI) framework with sequential knockoff
sampling. The CPI enables conditional FI measurement that controls for any
feature dependencies by sampling valid knockoffs - hence, generating synthetic
data with similar statistical properties - for the data to be analyzed.
Sequential knockoffs were deliberately designed to handle mixed data and thus
allow us to extend the CPI approach to such datasets. We demonstrate through
numerous simulations and a real-world example that our proposed workflow
controls type I error, achieves high power and is in line with results given by
other conditional FI measures, whereas marginal FI metrics result in misleading
interpretations. Our findings highlight the necessity of developing
statistically adequate, specialized methods for mixed data.
- Abstract(参考訳): 解釈可能な機械学習における特徴重要度(FI)尺度の人気にもかかわらず、これらの手法の統計的妥当性はめったに議論されていない。
統計学的観点からは、変数の共変量に対する調整前後の重要性を分析することが大きな違いである。
$\textit{marginal}$と$\textit{conditional}$ measuresの間にある。
私たちの作品は、ほとんど認められていないが重要な区別に注意を向け、その意味を示している。
さらに,条件付きFIの試験では,データ要件のミスマッチにより,実践者が厳格に制限されている手法はごくわずかであることがわかった。
ほとんどの実世界のデータは複雑な機能依存を示し、連続データと分類データの両方(混合データ)を組み込んでいる。
両方の性質はしばしば条件付きfi対策によって無視される。
このギャップを埋めるために、条件付き予測インパクト(CPI)フレームワークとシーケンシャルノックオフサンプリングを組み合わせることを提案する。
CPIは、有効なノックオフ(従って、同様の統計特性を持つ合成データを生成する)をサンプリングすることで、任意の機能依存関係を制御する条件付きFI測定を可能にする。
逐次ノックオフは、混合データを扱うために意図的に設計されており、CPIアプローチをそのようなデータセットに拡張することができます。
我々は,多数のシミュレーションと実例を通して,提案したワークフローがI型エラーを制御し,高出力を実現し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して統計的に適切な特殊手法を開発する必要性を浮き彫りにした。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Benchmark Transparency: Measuring the Impact of Data on Evaluation [6.307485015636125]
6つの異なる次元にまたがるデータポイント分布を自動計測するフレームワークを提案する。
データ分布が絶対値(Acc/F1)と相対値(Rank)モデルの性能にどの程度影響するかを測定するために,不均質な階層化サンプリングを用いる。
その結果,データの影響は統計的に有意であり,測定値の変更の影響よりも大きいことが判明した。
論文 参考訳(メタデータ) (2024-03-31T17:33:43Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Perturbation-based Effect Measures for Compositional Data [3.9543275888781224]
構成的特徴に対する既存の効果測定は、現代の多くの応用には不十分である。
両問題に対処する仮説データ摂動に基づくフレームワークを提案する。
摂動依存再パラメータ化を導出することにより, 摂動効果の平均を効率的に推定できることを示す。
論文 参考訳(メタデータ) (2023-11-30T12:27:15Z) - Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T21:00:19Z) - Simultaneous Improvement of ML Model Fairness and Performance by
Identifying Bias in Data [1.76179873429447]
トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理手法を提案する。
特に、類似した特徴を持つインスタンスが存在するが、保護属性の変動に起因するラベルが異なる問題設定では、固有のバイアスがデータセット内で引き起こされる、と主張する。
論文 参考訳(メタデータ) (2022-10-24T13:04:07Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Disentanglement and Generalization Under Correlation Shifts [22.499106910581958]
実世界のデータでは、変動要因間の相関が一般的である。
機械学習アルゴリズムは、ノイズの多いデータに対する予測性能を高めることができるため、そのような相関を利用する利点がある。
潜在部分空間の様々な要因を捉える表現を学習することを目的としている。
論文 参考訳(メタデータ) (2021-12-29T18:55:17Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。