論文の概要: Bayesian subset selection and variable importance for interpretable
prediction and classification
- arxiv url: http://arxiv.org/abs/2104.10150v1
- Date: Tue, 20 Apr 2021 17:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 15:09:58.571352
- Title: Bayesian subset selection and variable importance for interpretable
prediction and classification
- Title(参考訳): 解釈可能な予測と分類のためのベイズ部分集合の選択と変数の重要性
- Authors: Daniel R. Kowal
- Abstract要約: サブセットの選択は、解釈可能な学習、科学的発見、データ圧縮のための貴重なツールです。
線形決定分析を用いて予測競合部分集合を抽出する。
重要な量は、$mathcalM$からの予測分布を利用して、ほぼ最適の予測を提供するサブセットを識別するサブセットの許容可能なファミリです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subset selection is a valuable tool for interpretable learning, scientific
discovery, and data compression. However, classical subset selection is often
eschewed due to selection instability, computational bottlenecks, and lack of
post-selection inference. We address these challenges from a Bayesian
perspective. Given any Bayesian predictive model $\mathcal{M}$, we elicit
predictively-competitive subsets using linear decision analysis. The approach
is customizable for (local) prediction or classification and provides
interpretable summaries of $\mathcal{M}$. A key quantity is the acceptable
family of subsets, which leverages the predictive distribution from
$\mathcal{M}$ to identify subsets that offer nearly-optimal prediction. The
acceptable family spawns new (co-) variable importance metrics based on whether
variables (co-) appear in all, some, or no acceptable subsets. Crucially, the
linear coefficients for any subset inherit regularization and predictive
uncertainty quantification via $\mathcal{M}$. The proposed approach exhibits
excellent prediction, interval estimation, and variable selection for simulated
data, including $p=400 > n$. These tools are applied to a large education
dataset with highly correlated covariates, where the acceptable family is
especially useful. Our analysis provides unique insights into the combination
of environmental, socioeconomic, and demographic factors that predict
educational outcomes, and features highly competitive prediction with
remarkable stability.
- Abstract(参考訳): サブセット選択は、解釈可能な学習、科学的発見、データ圧縮のための貴重なツールである。
しかし、古典的な部分集合の選択は、選択の不安定性、計算ボトルネック、選択後の推論の欠如により、しばしば省略される。
我々はこれらの課題をベイズの観点から解決する。
任意のベイズ予測モデル $\mathcal{M}$ を考えると、線形決定解析を用いて予測競合部分集合を求める。
このアプローチは(ローカルな)予測や分類用にカスタマイズでき、$\mathcal{m}$の解釈可能な要約を提供する。
これは$\mathcal{m}$からの予測分布を利用して、ほぼ最適に近い予測を提供するサブセットを識別する。
許容可能なファミリーは、変数(co-)がすべて、一部、あるいは許容できるサブセットに現れるかどうかに基づいて、新しい(co-)変数重要なメトリクスを生成する。
重要なことに、任意の部分集合に対する線型係数は、$\mathcal{M}$ による正則化と予測不確かさの定量化を継承する。
提案手法は,$p=400 > n$を含むシミュレーションデータに対して優れた予測,区間推定,変数選択を行う。
これらのツールは、非常に相関性の高い共変量を持つ大規模な教育データセットに適用される。
本分析は, 教育成果を予測する環境要因, 社会経済要因, 人口統計因子の組み合わせについて, 独自の知見を与え, 高度に競争力のある予測を特徴とする。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - On Computationally Efficient Multi-Class Calibration [9.032290717007065]
プロジェクトのキャリブレーションは、下流の意思決定者全員に強い保証を与えます。
これは、ラベルに割り当てられた確率を$T$にまとめることで予測される確率が、完全に校正されたバイナリ予測器に近いことを保証している。
論文 参考訳(メタデータ) (2024-02-12T17:25:23Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Conformalization of Sparse Generalized Linear Models [2.1485350418225244]
等角予測法は、任意の有限サンプルサイズに対して有効である$y_n+1$の信頼セットを推定する。
魅力的ではあるが、そのような集合の計算は多くの回帰問題において計算不可能である。
経路追従アルゴリズムが共形予測集合を正確に近似する方法を示す。
論文 参考訳(メタデータ) (2023-07-11T08:36:12Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Subset selection for linear mixed models [0.0]
線形混合モデル(LMM)は、構造的依存を伴う回帰解析に有効である。
LMMを用いた部分集合選択のためのベイズ決定解析を導入する。
これらのツールは、シミュレーションデータと縦方向の身体活動データセットに適用される。
論文 参考訳(メタデータ) (2021-07-27T15:47:44Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - On Misspecification in Prediction Problems and Robustness via Improper
Learning [23.64462813525688]
広い種類の損失関数とパラメトリック分布の族に対して、"プロパ"予測子をプレイしたことの後悔は、少なくとも$sqrtgamma n$として境界スケーリングを下げていることが示される。
パラメトリックファミリーの凸体で分布を再生する可能性のあるすべての学習者の家族にしても、これは改善できない例を示します。
論文 参考訳(メタデータ) (2021-01-13T17:54:08Z) - Set Prediction without Imposing Structure as Conditional Density
Estimation [40.86881969839325]
本研究では,学習を条件密度推定として見ることにより,設定損失による学習の代替を提案する。
本フレームワークは, 深部エネルギーモデルに適合し, 勾配誘導サンプリングによる難易度を近似する。
我々のアプローチは、標準ベンチマークの以前のセット予測モデルと競合する。
論文 参考訳(メタデータ) (2020-10-08T16:49:16Z) - Conditional Uncorrelation and Efficient Non-approximate Subset Selection
in Sparse Regression [72.84177488527398]
相関性の観点からスパース回帰を考察し,条件付き非相関式を提案する。
提案手法により、計算複雑性は、スパース回帰における各候補部分集合に対して$O(frac16k3+mk2+mkd)$から$O(frac16k3+frac12mk2)$に削減される。
論文 参考訳(メタデータ) (2020-09-08T20:32:26Z) - Provable tradeoffs in adversarially robust classification [96.48180210364893]
我々は、ロバストなイソペリメトリに関する確率論の最近のブレークスルーを含む、新しいツールを開発し、活用する。
この結果から,データの不均衡時に増加する標準精度とロバスト精度の基本的なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2020-06-09T09:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。