論文の概要: GRASP: A Goodness-of-Fit Test for Classification Learning
- arxiv url: http://arxiv.org/abs/2209.02064v1
- Date: Mon, 5 Sep 2022 17:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:27:00.463922
- Title: GRASP: A Goodness-of-Fit Test for Classification Learning
- Title(参考訳): GRASP: 分類学習のための適合性テスト
- Authors: Adel Javanmard and Mohammad Mehrabi
- Abstract要約: 標準測度であるにもかかわらず、平均精度は、特徴ベクトル(Y|X$)が与えられたラベルの基本的な条件法則にモデルを適合させるのに失敗する。
我々のフレームワークは条件付き法則$Y|X$のパラメトリックな仮定を一切行わず、クエリを通してのみアクセス可能なブラックボックスオラクルモデルとして扱う。
- 参考スコア(独自算出の注目度): 11.80267432402723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance of classifiers is often measured in terms of average accuracy on
test data. Despite being a standard measure, average accuracy fails in
characterizing the fit of the model to the underlying conditional law of labels
given the features vector ($Y|X$), e.g. due to model misspecification, over
fitting, and high-dimensionality. In this paper, we consider the fundamental
problem of assessing the goodness-of-fit for a general binary classifier. Our
framework does not make any parametric assumption on the conditional law $Y|X$,
and treats that as a black box oracle model which can be accessed only through
queries. We formulate the goodness-of-fit assessment problem as a tolerance
hypothesis testing of the form \[ H_0: \mathbb{E}\Big[D_f\Big({\sf
Bern}(\eta(X))\|{\sf Bern}(\hat{\eta}(X))\Big)\Big]\leq \tau\,, \] where $D_f$
represents an $f$-divergence function, and $\eta(x)$, $\hat{\eta}(x)$
respectively denote the true and an estimate likelihood for a feature vector
$x$ admitting a positive label. We propose a novel test, called \grasp for
testing $H_0$, which works in finite sample settings, no matter the features
(distribution-free). We also propose model-X \grasp designed for model-X
settings where the joint distribution of the features vector is known. Model-X
\grasp uses this distributional information to achieve better power. We
evaluate the performance of our tests through extensive numerical experiments.
- Abstract(参考訳): 分類器の性能はテストデータの平均精度で測定されることが多い。
標準測度であるにもかかわらず、平均精度は、モデルの不特定性、過度な適合性、高次元性などの特徴ベクトル(Y|X$)が与えられたラベルの基本的な条件法則にモデルを適合させるのに失敗する。
本稿では,一般二項分類器の適合性を評価するための基本的問題を考察する。
我々のフレームワークは条件付き法則$Y|X$のパラメトリックな仮定を一切行わず、クエリを通してのみアクセス可能なブラックボックスオラクルモデルとして扱う。
h_0: \mathbb{e}\big[d_f\big({\sf bern}(\eta(x))\|{\sf bern}(\hat{\eta}(x))\big]\leq \tau\, \] ここで、$d_f$ は$f$-divergence関数を表し、$\eta(x)$, $\hat{\eta}(x)$ はそれぞれ正のラベルを許容する特徴ベクトル $x$ の真と推定可能性を表す。
H_0$をテストするための新しいテストである \grasp を提案する。
また,特徴ベクトルの結合分布が知られているモデルx設定用に設計したモデルx \graspを提案する。
model-x \graspは、この分布情報を使ってより良い力を得る。
広範囲な数値実験により,本試験の性能評価を行った。
関連論文リスト
- One-Bit Quantization and Sparsification for Multiclass Linear Classification with Strong Regularization [18.427215139020625]
最高の分類は、$f(cdot) = |cdot|2$ と $lambda to infty$ によって達成されることを示す。
f(cdot) = |cdot|_infty$ とほぼ同等に機能するスパースと1ビットの解を見つけることは、大きめの $lambda$ regime においてしばしば可能である。
論文 参考訳(メタデータ) (2024-02-16T06:39:40Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Distribution-Independent Regression for Generalized Linear Models with
Oblivious Corruptions [49.69852011882769]
一般化線形モデル (GLMs) の重畳雑音の存在下での回帰問題に対する最初のアルゴリズムを示す。
本稿では,この問題に最も一般的な分布非依存設定で対処するアルゴリズムを提案する。
これは、サンプルの半分以上を任意に破損させる難聴ノイズを持つGLMレグレッションに対する最初の新しいアルゴリズムによる結果である。
論文 参考訳(メタデータ) (2023-09-20T21:41:59Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - A Spectral Approach to Item Response Theory [6.5268245109828005]
本稿では,Raschモデルに対する新しい項目推定アルゴリズムを提案する。
我々のアルゴリズムの中核は、アイテム-イムグラフ上で定義されたマルコフ連鎖の定常分布の計算である。
合成および実生活データセットの実験により、我々のアルゴリズムは、文献でよく使われている手法とスケーラブルで正確で競合することを示した。
論文 参考訳(メタデータ) (2022-10-09T18:57:08Z) - Mean Estimation in High-Dimensional Binary Markov Gaussian Mixture
Models [12.746888269949407]
2進隠れマルコフモデルに対する高次元平均推定問題を考える。
ほぼ最小限の誤差率(対数係数まで)を $|theta_*|,delta,d,n$ の関数として確立する。
論文 参考訳(メタデータ) (2022-06-06T09:34:04Z) - Robust Testing in High-Dimensional Sparse Models [0.0]
2つの異なる観測モデルの下で高次元スパース信号ベクトルのノルムを頑健にテストする問題を考察する。
回帰係数のノルムを確実に検定するアルゴリズムは、少なくとも$n=Omegaleft(min(slog d,1/gamma4)right)サンプルを必要とする。
論文 参考訳(メタデータ) (2022-05-16T07:47:22Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Minimax Optimal Regression over Sobolev Spaces via Laplacian
Regularization on Neighborhood Graphs [25.597646488273558]
非パラメトリック回帰に対するグラフに基づくアプローチであるラプラシア平滑化の統計的性質について検討する。
ラプラシアン滑らか化が多様体適応であることを証明する。
論文 参考訳(メタデータ) (2021-06-03T01:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。