論文の概要: Model free variable importance for high dimensional data
- arxiv url: http://arxiv.org/abs/2211.08414v2
- Date: Thu, 20 Apr 2023 03:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 17:10:05.277042
- Title: Model free variable importance for high dimensional data
- Title(参考訳): 高次元データに対するモデルフリー変数の重要性
- Authors: Naofumi Hama, Masayoshi Mase and Art B. Owen
- Abstract要約: 本稿では,予測関数へのアクセスを必要としないモデルフリーな手法を提案する。
コホートシェープ(CS)法はモデルフリーであるが、入力空間の次元において指数的なコストがかかる。
Frye et al. (2020) の教師付きオンマニフォールドシェープ法もモデルフリーであるが、2つ目のブラックボックスモデルとして必要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A model-agnostic variable importance method can be used with arbitrary
prediction functions. Here we present some model-free methods that do not
require access to the prediction function. This is useful when that function is
proprietary and not available, or just extremely expensive. It is also useful
when studying residuals from a model. The cohort Shapley (CS) method is
model-free but has exponential cost in the dimension of the input space. A
supervised on-manifold Shapley method from Frye et al. (2020) is also model
free but requires as input a second black box model that has to be trained for
the Shapley value problem. We introduce an integrated gradient (IG) version of
cohort Shapley, called IGCS, with cost $\mathcal{O}(nd)$. We show that over the
vast majority of the relevant unit cube that the IGCS value function is close
to a multilinear function for which IGCS matches CS. Another benefit of IGCS is
that is allows IG methods to be used with binary predictors. We use some area
between curves (ABC) measures to quantify the performance of IGCS. On a problem
from high energy physics we verify that IGCS has nearly the same ABCs as CS
does. We also use it on a problem from computational chemistry in 1024
variables. We see there that IGCS attains much higher ABCs than we get from
Monte Carlo sampling. The code is publicly available at
https://github.com/cohortshapley/cohortintgrad
- Abstract(参考訳): モデルに依存しない変数重要度法は任意の予測関数で利用できる。
本稿では,予測関数へのアクセスを必要としないモデルフリー手法を提案する。
これは、その機能がプロプライエタリで利用できない、あるいは非常に高価である場合に便利です。
モデルからの残差を研究する際にも有用である。
cohort shapley (cs) 法はモデルフリーであるが、入力空間の次元において指数関数的コストを持つ。
frye et al. (2020) による教師付きon-manifold shapley法もまた、モデルフリーであるが、shapley値問題のために訓練しなければならない2つ目のブラックボックスモデルを入力する必要がある。
IGCSと呼ばれるコホートシャプリーの積分勾配(IG)版を導入し,コストを$\mathcal{O}(nd)$とする。
関連する単位立方体の大部分において、IGCS値関数は、IGCSがCSと一致する多重線型関数に近いことが示される。
IGCSのもう1つの利点は、IGメソッドをバイナリ予測器で使用できるようにすることである。
我々は、IGCSの性能を定量化するために、曲線(ABC)の幾らかの領域を用いる。
高エネルギー物理学の問題は、IGCSがCSとほぼ同じABCを持っていることである。
また、1024変数の計算化学の問題にも用いている。
IGCSはモンテカルロのサンプリングよりはるかに高いABCを実現しています。
コードはhttps://github.com/cohortshapley/cohortintgradで公開されている。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)に顕著な効果を示した
しかし、3DGSモデルはスパースポーズビューで訓練すると過度に適合する傾向にあり、その一般化能力は新規ビューに制限される。
オーバーフィッティング問題を緩和するために,Self-Ensembling Gaussian Splatting (SE-GS) アプローチを提案する。
提案手法は,NVSの品質向上に寄与し,既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Cramer Type Distances for Learning Gaussian Mixture Models by Gradient
Descent [0.0]
今日まで、ガウス混合モデルに適合または学習できる既知のアルゴリズムはほとんどない。
一般多変量GMM学習のためのスライスクラマー2距離関数を提案する。
これらの機能は、分散強化学習とディープQネットワークに特に有用である。
論文 参考訳(メタデータ) (2023-07-13T13:43:02Z) - Topology-aware Generalization of Decentralized SGD [89.25765221779288]
本稿では,分散型Valpha-10安定降下(D-SGD)の一般化可能性について検討する。
D-SGDの一般化性は、初期訓練段階における接続性と正の相関があることを証明した。
論文 参考訳(メタデータ) (2022-06-25T16:03:48Z) - Deletion and Insertion Tests in Regression Models [1.2891210250935148]
説明可能なAI(XAI)の基本課題は、ブラックボックス関数$f$による予測の背後にある最も重要な特徴を特定することである。
Petsiuk et al. Kernel の挿入と削除テストは、分類においてピクセルを最も重要視するアルゴリズムの品質を判断するために用いられる。
論文 参考訳(メタデータ) (2022-05-25T00:55:47Z) - An Improved Analysis of Gradient Tracking for Decentralized Machine
Learning [34.144764431505486]
トレーニングデータが$n$エージェントに分散されるネットワーク上での分散機械学習を検討する。
エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。
ノイズのない場合、$p$を$mathcalO(p-1)$から$mathcalO(p-1)$に改善します。
論文 参考訳(メタデータ) (2022-02-08T12:58:14Z) - Implicit SVD for Graph Representation Learning [33.761179632722]
控えめなハードウェアを持つ人には、グラフ表現学習をより計算的に学習しやすいものにします。
我々はSOTAモデルの線形近似を導出し、入出力を計算せずに$mathbfM$のSVDを介して閉形式でモデルを訓練する。
我々のモデルは、様々なグラフ上での競合実証試験性能を示す。
論文 参考訳(メタデータ) (2021-11-11T16:58:17Z) - Estimating Stochastic Linear Combination of Non-linear Regressions
Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。
私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文 参考訳(メタデータ) (2020-10-19T07:15:38Z) - Particle-Gibbs Sampling For Bayesian Feature Allocation Models [77.57285768500225]
最も広く使われているMCMC戦略は、特徴割り当て行列のギブス更新に頼っている。
単一移動で特徴割り当て行列の全行を更新できるギブスサンプリング器を開発した。
このサンプルは、計算複雑性が特徴数で指数関数的にスケールするにつれて、多数の特徴を持つモデルにとって実用的ではない。
我々は,行ワイズギブズ更新と同じ分布を目標としたパーティクルギブズサンプルの開発を行うが,特徴数でのみ線形に増大する計算複雑性を有する。
論文 参考訳(メタデータ) (2020-01-25T22:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。