論文の概要: Classification at the Accuracy Limit -- Facing the Problem of Data
Ambiguity
- arxiv url: http://arxiv.org/abs/2206.01922v1
- Date: Sat, 4 Jun 2022 07:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 11:47:44.127950
- Title: Classification at the Accuracy Limit -- Facing the Problem of Data
Ambiguity
- Title(参考訳): 精度限界での分類 --データ曖昧性の問題に直面する
- Authors: Claus Metzner, Achim Schilling, Maximilian Traxdorf, Konstantin
Tziridis, Holger Schulze, Patrick Krauss
- Abstract要約: データカテゴリの重複から生じる分類精度の理論的限界を示す。
睡眠中のMNISTとヒト脳波記録を用いて、教師なしおよび教師なしのトレーニングによって生成された新しいデータ埋め込みを比較した。
これは、手書き数字や睡眠段階などの人間定義カテゴリーを「自然種」とみなすことができることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data classification, the process of analyzing data and organizing it into
categories, is a fundamental computing problem of natural and artificial
information processing systems. Ideally, the performance of classifier models
would be evaluated using unambiguous data sets, where the 'correct' assignment
of category labels to the input data vectors is unequivocal. In real-world
problems, however, a significant fraction of actually occurring data vectors
will be located in a boundary zone between or outside of all categories, so
that perfect classification cannot even in principle be achieved. We derive the
theoretical limit for classification accuracy that arises from the overlap of
data categories. By using a surrogate data generation model with adjustable
statistical properties, we show that sufficiently powerful classifiers based on
completely different principles, such as perceptrons and Bayesian models, all
perform at this universal accuracy limit. Remarkably, the accuracy limit is not
affected by applying non-linear transformations to the data, even if these
transformations are non-reversible and drastically reduce the information
content of the input data. We compare emerging data embeddings produced by
supervised and unsupervised training, using MNIST and human EEG recordings
during sleep. We find that categories are not only well separated in the final
layers of classifiers trained with back-propagation, but to a smaller degree
also after unsupervised dimensionality reduction. This suggests that
human-defined categories, such as hand-written digits or sleep stages, can
indeed be considered as 'natural kinds'.
- Abstract(参考訳): データ分類は、データを分析して分類するプロセスであり、自然情報処理システムや人工情報処理システムの基本的な計算問題である。
理想的には、分類器モデルの性能は曖昧なデータセットを用いて評価され、入力データベクトルへのカテゴリラベルの'正しい'割り当ては意図しない。
しかし、実世界の問題では、実際に発生するデータベクトルのかなりの割合は、すべてのカテゴリの間または外部の境界ゾーンに置かれるので、完全な分類は原則的に達成できない。
データカテゴリの重複から生じる分類精度の理論的限界を導出する。
統計特性を調整可能なサロゲートデータ生成モデルを用いることで、パーセプトロンやベイズモデルのような全く異なる原理に基づく十分強力な分類器が、この普遍的精度の限界で全て機能することを示す。
注目すべきは、これらの変換が可逆であり、入力データの情報内容が劇的に減少しても、データに非線形変換を適用することにより、精度の限界は影響されないことである。
睡眠中のMNISTとヒト脳波記録を用いて、教師なしおよび教師なしのトレーニングによって生成された新しいデータ埋め込みを比較した。
下位プロパゲーションで訓練された分類器の最終層では, カテゴリーが適切に分離されているだけでなく, 教師なし次元の縮小後にも, より小さい程度に分離されていることがわかった。
これは、手書きの数字や睡眠段階など、人間の定義したカテゴリーを「自然の種類」とみなすことができることを示唆している。
関連論文リスト
- Directly Handling Missing Data in Linear Discriminant Analysis for Enhancing Classification Accuracy and Interpretability [1.4840867281815378]
重み付き欠失線形判別分析(WLDA)と呼ばれる新しい頑健な分類法を提案する。
WLDAは線形判別分析(LDA)を拡張して、計算不要な値でデータセットを処理する。
我々はWLDAの特性を確立するために詳細な理論解析を行い、その説明可能性について徹底的に評価する。
論文 参考訳(メタデータ) (2024-06-30T14:21:32Z) - Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization [80.54710259664698]
本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-07-04T16:22:44Z) - Classification of datasets with imputed missing values: does imputation
quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:58:03Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Classification and Uncertainty Quantification of Corrupted Data using
Semi-Supervised Autoencoders [11.300365160909879]
本稿では,強い破損したデータを分類し,不確実性を定量化する確率論的手法を提案する。
破損しないデータに基づいてトレーニングされた半教師付きオートエンコーダが基盤となるアーキテクチャである。
モデルの不確実性は、その分類が正しいか間違っているかに強く依存していることを示す。
論文 参考訳(メタデータ) (2021-05-27T18:47:55Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - FIND: Human-in-the-Loop Debugging Deep Text Classifiers [55.135620983922564]
隠れた機能を無効にすることで、人間がディープラーニングテキスト分類器をデバッグできるフレームワークであるFINDを提案する。
実験により、人間はFINDを使用することで、異なる種類の不完全なデータセットの下で訓練されたCNNテキスト分類器を改善することができる。
論文 参考訳(メタデータ) (2020-10-10T12:52:53Z) - Dynamic Decision Boundary for One-class Classifiers applied to
non-uniformly Sampled Data [0.9569316316728905]
パターン認識の典型的な問題は、一様でないサンプルデータである。
本稿では,動的決定境界を持つ最小スパンニング木に基づく一クラス分類器を提案する。
論文 参考訳(メタデータ) (2020-04-05T18:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。