論文の概要: Relating the Partial Dependence Plot and Permutation Feature Importance
to the Data Generating Process
- arxiv url: http://arxiv.org/abs/2109.01433v1
- Date: Fri, 3 Sep 2021 10:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 18:30:11.240928
- Title: Relating the Partial Dependence Plot and Permutation Feature Importance
to the Data Generating Process
- Title(参考訳): データ生成プロセスにおける部分依存プロットと置換特徴の重要性
- Authors: Christoph Molnar, Timo Freiesleben, Gunnar K\"onig, Giuseppe
Casalicchio, Marvin N. Wright, Bernd Bischl
- Abstract要約: 部分依存プロットと置換特徴重要度(PFI)は解釈法としてよく用いられる。
我々はPDとPFIを,データ生成過程に根ざした基底真理推定の統計的推定器として定式化する。
PDとPFIは, 統計バイアス, モデル分散, モンテカルロ近似誤差により, この基礎的真理から逸脱することを示す。
- 参考スコア(独自算出の注目度): 1.3782922287772585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientists and practitioners increasingly rely on machine learning to model
data and draw conclusions. Compared to statistical modeling approaches, machine
learning makes fewer explicit assumptions about data structures, such as
linearity. However, their model parameters usually cannot be easily related to
the data generating process. To learn about the modeled relationships, partial
dependence (PD) plots and permutation feature importance (PFI) are often used
as interpretation methods. However, PD and PFI lack a theory that relates them
to the data generating process. We formalize PD and PFI as statistical
estimators of ground truth estimands rooted in the data generating process. We
show that PD and PFI estimates deviate from this ground truth due to
statistical biases, model variance and Monte Carlo approximation errors. To
account for model variance in PD and PFI estimation, we propose the learner-PD
and the learner-PFI based on model refits, and propose corrected variance and
confidence interval estimators.
- Abstract(参考訳): 科学者や実践者は、データをモデル化し結論を導き出すために、ますます機械学習に頼っている。
統計モデリングのアプローチと比較して、機械学習はリニアリティのようなデータ構造に関する明確な仮定を少なくする。
しかし、それらのモデルパラメータは通常、データ生成プロセスと簡単には関連しない。
モデル化された関係について学ぶために、部分依存(PD)プロットと置換特徴重要度(PFI)が解釈法としてしばしば用いられる。
しかし、PDとPFIはそれらをデータ生成プロセスと関連づける理論を欠いている。
我々はPDとPFIをデータ生成過程に根ざした基底真理推定の統計的推定として定式化する。
PDとPFIは,統計バイアス,モデル分散,モンテカルロ近似誤差により,この基礎的真理から逸脱することを示す。
PDとPFIの推定におけるモデル分散を考慮し、モデル修正に基づく学習者-PDと学習者-PFIを提案し、修正された分散と信頼区間推定器を提案する。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [60.98692028151328]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,この学習規則が将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
我々は拡散モデルに一般結果を特化し、自己消費ループ内での最適な早期停止の有効性などの微妙な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Diffusion models for probabilistic programming [56.47577824219207]
拡散モデル変分推論(DMVI)は確率型プログラミング言語(PPL)における自動近似推論手法である
DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。
論文 参考訳(メタデータ) (2023-11-01T12:17:05Z) - Learning Robust Statistics for Simulation-based Inference under Model
Misspecification [23.331522354991527]
本稿では,シミュレーションに基づく推論手法の異なるクラスにまたがって機能するモデル不特定性を扱うための,最初の一般的なアプローチを提案する。
提案手法は,モデルが適切に特定された場合の精度を保ちながら,不特定シナリオにおいて頑健な推論をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-25T09:06:26Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Variational Gibbs Inference for Statistical Model Estimation from
Incomplete Data [7.4250022679087495]
不完全データから統計モデルのパラメータを推定する新しい汎用手法である変分ギブス推論(VGI)を導入する。
不完全データからの変分オートエンコーダや正規化フローなどの重要な機械学習モデルを推定し、VGIを一連の合成および実世界の推定タスクで検証する。
論文 参考訳(メタデータ) (2021-11-25T17:22:22Z) - Memorizing without overfitting: Bias, variance, and interpolation in
over-parameterized models [0.0]
バイアス分散トレードオフは教師あり学習における中心的な概念である。
現代のDeep Learningメソッドは、最先端のパフォーマンスを達成するために、このドグマを浮かび上がらせる。
論文 参考訳(メタデータ) (2020-10-26T22:31:04Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Stable Prediction with Model Misspecification and Agnostic Distribution
Shift [41.26323389341987]
機械学習アルゴリズムでは、2つの主要な仮定が性能を保証するために必要である。
1つは、トレーニングデータと同じ分布からテストデータが引き出され、もう1つは、モデルが正しく指定されていることである。
モデルのミススペクテーションの下では、トレーニングデータとテストデータの間の分布シフトは、パラメータ推定の不正確さと未知のテストデータ間の予測の不安定性をもたらす。
可変デコリレーション正規化器と重み付き回帰モデルとを協調的に最適化する新しいDecororrelated Weighting Regression (DWR)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-31T08:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。