論文の概要: A Model-Agnostic Algorithm for Bayes Error Determination in Binary
Classification
- arxiv url: http://arxiv.org/abs/2107.11609v1
- Date: Sat, 24 Jul 2021 13:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 07:10:05.961401
- Title: A Model-Agnostic Algorithm for Bayes Error Determination in Binary
Classification
- Title(参考訳): 二元分類におけるベイズ誤差判定のためのモデル非依存アルゴリズム
- Authors: Umberto Michelucci, Michela Sperti, Dario Piga, Francesca Venturini,
Marco A. Deriu
- Abstract要約: ILDアルゴリズムは、AUC(ROC曲線の下での領域)と精度で測定された最高の性能を決定する新しい手法である。
この制限、すなわちベイズ誤差は、使用されるモデルとは完全に独立であり、データセットの本質的な性質を記述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the intrinsic limit determination algorithm (ILD
Algorithm), a novel technique to determine the best possible performance,
measured in terms of the AUC (area under the ROC curve) and accuracy, that can
be obtained from a specific dataset in a binary classification problem with
categorical features {\sl regardless} of the model used. This limit, namely the
Bayes error, is completely independent of any model used and describes an
intrinsic property of the dataset. The ILD algorithm thus provides important
information regarding the prediction limits of any binary classification
algorithm when applied to the considered dataset. In this paper the algorithm
is described in detail, its entire mathematical framework is presented and the
pseudocode is given to facilitate its implementation. Finally, an example with
a real dataset is given.
- Abstract(参考訳): 本稿では,AUC(ROC曲線の下での領域)と精度で測定し,使用したモデルの分類的特徴を問わない二項分類問題における特定のデータセットから得られる,最適性能を決定する新しい手法である内在限界決定アルゴリズム(ILD Algorithm)を提案する。
この限界、すなわちベイズ誤差は、使用するモデルとは完全に独立であり、データセットの固有の特性を記述する。
したがって、IDDアルゴリズムは、検討されたデータセットに適用した場合に、任意のバイナリ分類アルゴリズムの予測限界に関する重要な情報を提供する。
本稿では,アルゴリズムの詳細を述べるとともに,その実装を容易にするために,その数学的枠組み全体を提示し,擬似コードを与える。
最後に、実際のデータセットの例が与えられる。
関連論文リスト
- Unsupervised Feature Selection Algorithm Based on Graph Filtering and Self-representation [5.840228332438659]
グラフフィルタリングと自己表現に基づく教師なし特徴選択アルゴリズムを提案する。
提案した目的関数を効果的に解くために反復アルゴリズムを適用した。
論文 参考訳(メタデータ) (2024-11-01T00:00:08Z) - Topological Quality of Subsets via Persistence Matching Diagrams [0.196629787330046]
我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
論文 参考訳(メタデータ) (2023-06-04T17:08:41Z) - Encoding of data sets and algorithms [0.0]
多くの高インパクトアプリケーションにおいて、機械学習アルゴリズムの出力品質を保証することが重要である。
我々は、ある指標の観点から、どのモデルが互いに近いかを決定するために、数学的に厳密な理論を開始した。
このグリッドに作用する所定のしきい値メートル法は、それぞれのアルゴリズムと関心のデータセットから、任意のアプリケーションに近接性(または統計的距離)を表現します。
論文 参考訳(メタデータ) (2023-03-02T05:29:27Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - SECODA: Segmentation- and Combination-Based Detection of Anomalies [0.0]
SECODAは、連続的および分類的属性を含むデータセットの教師なし非パラメトリック異常検出アルゴリズムである。
このアルゴリズムはメモリのインプリントが低く、実行時のパフォーマンスはデータセットのサイズと線形にスケールする。
シミュレーションおよび実生活データセットによる評価は、このアルゴリズムが様々な種類の異常を識別できることを示している。
論文 参考訳(メタデータ) (2020-08-16T10:03:14Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。
本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-02-25T18:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。