論文の概要: Measures of classification bias derived from sample size analysis
- arxiv url: http://arxiv.org/abs/2601.03453v1
- Date: Tue, 06 Jan 2026 22:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.084034
- Title: Measures of classification bias derived from sample size analysis
- Title(参考訳): サンプルサイズ分析による分類バイアスの計測
- Authors: Ioannis Ivrissimtzis, Shauna Concannon, Matthew Houliston, Graham Roberts,
- Abstract要約: 簡単な設定では、2つの異なる人口層と、それぞれe1とe2の誤差率の非パラメトリック推定を仮定する。
提案手法を, 誤差率の差 e2/e1 と誤差率 e2/e1 の2つの統計値と比較した。
提案手法が本質的に異なるのは,アルゴリズムの偏りのランク付けが異なる点であり,他の2つの尺度に対するいくつかの利点について論じる。
- 参考スコア(独自算出の注目度): 0.11666234644810891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the use of a simple intuitive principle for measuring algorithmic classification bias: the significance of the differences in a classifier's error rates across the various demographics is inversely commensurate with the sample size required to statistically detect them. That is, if large sample sizes are required to statistically establish biased behavior, the algorithm is less biased, and vice versa. In a simple setting, we assume two distinct demographics, and non-parametric estimates of the error rates on them, e1 and e2, respectively. We use a well-known approximate formula for the sample size of the chi-squared test, and verify some basic desirable properties of the proposed measure. Next, we compare the proposed measure with two other commonly used statistics, the difference e2-e1 and the ratio e2/e1 of the error rates. We establish that the proposed measure is essentially different in that it can rank algorithms for bias differently, and we discuss some of its advantages over the other two measures. Finally, we briefly discuss how some of the desirable properties of the proposed measure emanate from fundamental characteristics of the method, rather than the approximate sample size formula we used, and thus, are expected to hold in more complex settings with more than two demographics.
- Abstract(参考訳): 本稿では,アルゴリズムの分類バイアスを測定するための単純な直観的原理を用いることを提案する。分類器の誤差率の違いの意義は,統計的に検出するために必要なサンプルサイズと逆に一致している。
つまり、統計的に偏りのある振る舞いを統計的に確立するために大きなサンプルサイズが必要ならば、アルゴリズムは偏りが少なくなり、逆も然りである。
簡単な設定では、2つの異なる人口層と、それぞれe1とe2の誤差率の非パラメトリック推定を仮定する。
我々は, カイ二乗検定の標本サイズについてよく知られた近似式を用い, 提案手法の基本的な望ましい性質を検証した。
次に,提案手法を,誤差率の差 e2-e1 と誤差 e2/e1 の2つの統計値と比較する。
提案手法が本質的に異なるのは, 偏りのアルゴリズムを異なるランク付けできる点であり, その他の2つの尺度に対するいくつかの利点について論じる。
最後に,提案手法の基本的特徴から,提案手法の望ましい性質がどのように生み出すのかを概説する。
関連論文リスト
- Efficient Covariance Estimation for Sparsified Functional Data [51.69796254617083]
共分散関数のランダムノット(ランダムノット-空間)とB-スプライン(Bspline-Spatial)推定器は計算的に効率的である。
共分散の漸近的なポイントワイドは、ある規則性条件下でのスパース化された個々の軌跡に対して得られる。
論文 参考訳(メタデータ) (2025-11-23T00:50:33Z) - Identifying Heterogeneity in Distributed Learning [1.7244120238071492]
最小データ伝送量を用いた分散M推定における不均一パラメータ成分の同定法について検討する。
1つは再正規化されたWaldテストに基づいており、分散データブロックの数が$K$で最小ブロックのサンプルサイズより小さいオーダーである限り一貫性がある。
2つ目は、データブロック間の最大と最小のコンポーネント単位でのパラメータの差に基づく、極端なコントラストテスト(ECT)である。
論文 参考訳(メタデータ) (2025-06-19T15:26:48Z) - Statistical Inference in Classification of High-dimensional Gaussian Mixture [1.2354076490479515]
高次元極限における正規化凸分類器の一般クラスの挙動について検討する。
我々の焦点は、推定器の一般化誤差と変数選択性である。
論文 参考訳(メタデータ) (2024-10-25T19:58:36Z) - A Correlation-induced Finite Difference Estimator [6.054123928890574]
まず, 最適な摂動を推定するためにブートストラップ法を用いて試料駆動法を提案し, そして, 推定された最適摂動の相関値に基づく効率的なFD推定器を提案する。
数値計算により, 推定器の効率性を確認し, 提案理論, 特にサンプルサイズが小さい場合とよく一致した。
論文 参考訳(メタデータ) (2024-05-09T09:27:18Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Information-Theoretic Bias Reduction via Causal View of Spurious
Correlation [71.9123886505321]
本稿では,スプリアス相関の因果的解釈による情報理論バイアス測定手法を提案する。
本稿では,バイアス正規化損失を含むアルゴリズムバイアスに対する新しいデバイアスフレームワークを提案する。
提案したバイアス測定とデバイアス法は、多様な現実シナリオで検証される。
論文 参考訳(メタデータ) (2022-01-10T01:19:31Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。