論文の概要: Relating the Partial Dependence Plot and Permutation Feature Importance
to the Data Generating Process
- arxiv url: http://arxiv.org/abs/2109.01433v1
- Date: Fri, 3 Sep 2021 10:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 18:30:11.240928
- Title: Relating the Partial Dependence Plot and Permutation Feature Importance
to the Data Generating Process
- Title(参考訳): データ生成プロセスにおける部分依存プロットと置換特徴の重要性
- Authors: Christoph Molnar, Timo Freiesleben, Gunnar K\"onig, Giuseppe
Casalicchio, Marvin N. Wright, Bernd Bischl
- Abstract要約: 部分依存プロットと置換特徴重要度(PFI)は解釈法としてよく用いられる。
我々はPDとPFIを,データ生成過程に根ざした基底真理推定の統計的推定器として定式化する。
PDとPFIは, 統計バイアス, モデル分散, モンテカルロ近似誤差により, この基礎的真理から逸脱することを示す。
- 参考スコア(独自算出の注目度): 1.3782922287772585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientists and practitioners increasingly rely on machine learning to model
data and draw conclusions. Compared to statistical modeling approaches, machine
learning makes fewer explicit assumptions about data structures, such as
linearity. However, their model parameters usually cannot be easily related to
the data generating process. To learn about the modeled relationships, partial
dependence (PD) plots and permutation feature importance (PFI) are often used
as interpretation methods. However, PD and PFI lack a theory that relates them
to the data generating process. We formalize PD and PFI as statistical
estimators of ground truth estimands rooted in the data generating process. We
show that PD and PFI estimates deviate from this ground truth due to
statistical biases, model variance and Monte Carlo approximation errors. To
account for model variance in PD and PFI estimation, we propose the learner-PD
and the learner-PFI based on model refits, and propose corrected variance and
confidence interval estimators.
- Abstract(参考訳): 科学者や実践者は、データをモデル化し結論を導き出すために、ますます機械学習に頼っている。
統計モデリングのアプローチと比較して、機械学習はリニアリティのようなデータ構造に関する明確な仮定を少なくする。
しかし、それらのモデルパラメータは通常、データ生成プロセスと簡単には関連しない。
モデル化された関係について学ぶために、部分依存(PD)プロットと置換特徴重要度(PFI)が解釈法としてしばしば用いられる。
しかし、PDとPFIはそれらをデータ生成プロセスと関連づける理論を欠いている。
我々はPDとPFIをデータ生成過程に根ざした基底真理推定の統計的推定として定式化する。
PDとPFIは,統計バイアス,モデル分散,モンテカルロ近似誤差により,この基礎的真理から逸脱することを示す。
PDとPFIの推定におけるモデル分散を考慮し、モデル修正に基づく学習者-PDと学習者-PFIを提案し、修正された分散と信頼区間推定器を提案する。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications [0.0]
本研究では,合成データを用いたモデル適応と一般化について検討する。
我々は、データ類似性を評価するために、Kullback-Leiblerの発散、Jensen-Shannon距離、Mahalanobis距離などの量的尺度を用いる。
本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,あるいは高誤差の「補間体制」が分布変化とモデル不確実性を評価するための補完的手法を提供することを示唆している。
論文 参考訳(メタデータ) (2024-05-03T10:05:31Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Diffusion models for probabilistic programming [56.47577824219207]
拡散モデル変分推論(DMVI)は確率型プログラミング言語(PPL)における自動近似推論手法である
DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。
論文 参考訳(メタデータ) (2023-11-01T12:17:05Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Variational Gibbs Inference for Statistical Model Estimation from
Incomplete Data [7.4250022679087495]
不完全データから統計モデルのパラメータを推定する新しい汎用手法である変分ギブス推論(VGI)を導入する。
不完全データからの変分オートエンコーダや正規化フローなどの重要な機械学習モデルを推定し、VGIを一連の合成および実世界の推定タスクで検証する。
論文 参考訳(メタデータ) (2021-11-25T17:22:22Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。