論文の概要: Limits to classification performance by relating Kullback-Leibler
divergence to Cohen's Kappa
- arxiv url: http://arxiv.org/abs/2403.01571v1
- Date: Sun, 3 Mar 2024 17:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:45:55.643423
- Title: Limits to classification performance by relating Kullback-Leibler
divergence to Cohen's Kappa
- Title(参考訳): Kullback-Leibler の発散と Cohen の Kappa との関連による分類性能の限界
- Authors: L. Crow and S. J. Watts
- Abstract要約: 理論と手法は詳細に議論され、モンテカルロのデータと実際のデータセットに適用される。
いずれの場合も、この分析は、2つのクラスに対する基礎となる確率密度関数のために、アルゴリズムがこれ以上良い性能を発揮できなかったことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of machine learning classification algorithms are evaluated
by estimating metrics, often from the confusion matrix, using training data and
cross-validation. However, these do not prove that the best possible
performance has been achieved. Fundamental limits to error rates can be
estimated using information distance measures. To this end, the confusion
matrix has been formulated to comply with the Chernoff-Stein Lemma. This links
the error rates to the Kullback-Leibler divergences between the probability
density functions describing the two classes. This leads to a key result that
relates Cohen's Kappa to the Resistor Average Distance which is the parallel
resistor combination of the two Kullback-Leibler divergences. The Resistor
Average Distance has units of bits and is estimated from the same training data
used by the classification algorithm, using kNN estimates of the
KullBack-Leibler divergences. The classification algorithm gives the confusion
matrix and Kappa. Theory and methods are discussed in detail and then applied
to Monte Carlo data and real datasets. Four very different real datasets -
Breast Cancer, Coronary Heart Disease, Bankruptcy, and Particle Identification
- are analysed, with both continuous and discrete values, and their
classification performance compared to the expected theoretical limit. In all
cases this analysis shows that the algorithms could not have performed any
better due to the underlying probability density functions for the two classes.
Important lessons are learnt on how to predict the performance of algorithms
for imbalanced data using training datasets that are approximately balanced.
Machine learning is very powerful but classification performance ultimately
depends on the quality of the data and the relevance of the variables to the
problem.
- Abstract(参考訳): 機械学習分類アルゴリズムの性能は、しばしば混乱行列からメトリクスを推定し、トレーニングデータとクロスバリデーションを用いて評価される。
しかし、これらは最高のパフォーマンスが達成されたことを証明していない。
情報距離測定により誤差率の基本的な限界を推定できる。
この目的のために、混乱行列はチェルノフ・シュタイン補題に従うように定式化されている。
これは2つのクラスを記述する確率密度関数の間で誤差率とkullback-leiblerの発散を関連付けている。
これはコーエンのカッパと2つのクルバック・リーブルの分岐の平行抵抗結合である抵抗平均距離を関連付ける重要な結果をもたらす。
抵抗平均距離はビット単位を持ち、kullback-leibler divergencesのkn推定値を用いて分類アルゴリズムが使用する同じトレーニングデータから推定される。
分類アルゴリズムは、混乱行列とカッパを与える。
理論と手法は詳細に議論され、モンテカルロのデータと実際のデータセットに適用される。
4つの非常に異なる実際のデータセット Breast Cancer, Coronary Heart Disease, Bankruptcy, Particle Identification は、連続値と離散値の両方で分析され、その分類性能は予想される理論限界と比較される。
いずれの場合も、この分析は、2つのクラスに対する基礎となる確率密度関数のために、アルゴリズムがこれ以上うまく機能しなかったことを示している。
重要な教訓は、ほぼバランスの取れたトレーニングデータセットを使用して、不均衡データに対するアルゴリズムのパフォーマンスを予測する方法を学ぶことである。
機械学習は非常に強力だが、分類のパフォーマンスは究極的にはデータの質と問題に対する変数の関連性に依存する。
関連論文リスト
- Is K-fold cross validation the best model selection method for Machine Learning? [0.0]
K-fold cross-validation (CV) は、機械学習の結果が偶然に生成される可能性を確認する最も一般的な手法である。
K-fold CVと実際のリスクの上界(K-fold CUBV)に基づく新しい統計試験が提案されている。
論文 参考訳(メタデータ) (2024-01-29T18:46:53Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Utilizing Class Separation Distance for the Evaluation of Corruption
Robustness of Machine Learning Classifiers [0.6882042556551611]
本稿では,最小クラス分離距離のデータセットから得られるロバストネス距離$epsilon$を使用するテストデータ拡張手法を提案する。
結果として得られるMSCRメトリックは、その破損の堅牢性に関して異なる分類器のデータセット固有の比較を可能にする。
以上の結果から, 単純なデータ拡張によるロバストネストレーニングにより, 精度が若干向上することが示唆された。
論文 参考訳(メタデータ) (2022-06-27T15:56:16Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - Error Scaling Laws for Kernel Classification under Source and Capacity
Conditions [26.558090928198187]
標準のソースとキャパシティ条件を満たす重要なデータセットのクラスを考察する。
ソースとキャパシティ係数の関数として誤分類(予測)誤差の減衰率を導出する。
この結果は、カーネル分類におけるスケーリング法則の指数の明示的な予測と見なすことができる。
論文 参考訳(メタデータ) (2022-01-29T20:39:58Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Regularized Classification-Aware Quantization [39.04839665081476]
本稿では,バイナリ分類タスクの分散量子化スキームを学習するアルゴリズムのクラスを提案する。
本手法は正規化分類認識量子化と呼ばれる。
論文 参考訳(メタデータ) (2021-07-12T21:27:48Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。