論文の概要: Intrinsic Data Constraints and Upper Bounds in Binary Classification
Performance
- arxiv url: http://arxiv.org/abs/2401.17036v1
- Date: Tue, 30 Jan 2024 14:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:57:03.325396
- Title: Intrinsic Data Constraints and Upper Bounds in Binary Classification
Performance
- Title(参考訳): バイナリ分類性能における内在的データ制約と上限
- Authors: Fei Jing, Zi-Ke Zhang and Qingpeng Zhang
- Abstract要約: 実データセット上でのバイナリ分類性能の理論的上限は理論的に達成可能であることを示す。
本分析により,2値分類データにおける性能の上限値とクラス重複レベルとの詳細な関係が明らかになった。
- 参考スコア(独自算出の注目度): 5.565633304845458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The structure of data organization is widely recognized as having a
substantial influence on the efficacy of machine learning algorithms,
particularly in binary classification tasks. Our research provides a
theoretical framework suggesting that the maximum potential of binary
classifiers on a given dataset is primarily constrained by the inherent
qualities of the data. Through both theoretical reasoning and empirical
examination, we employed standard objective functions, evaluative metrics, and
binary classifiers to arrive at two principal conclusions. Firstly, we show
that the theoretical upper bound of binary classification performance on actual
datasets can be theoretically attained. This upper boundary represents a
calculable equilibrium between the learning loss and the metric of evaluation.
Secondly, we have computed the precise upper bounds for three commonly used
evaluation metrics, uncovering a fundamental uniformity with our overarching
thesis: the upper bound is intricately linked to the dataset's characteristics,
independent of the classifier in use. Additionally, our subsequent analysis
uncovers a detailed relationship between the upper limit of performance and the
level of class overlap within the binary classification data. This relationship
is instrumental for pinpointing the most effective feature subsets for use in
feature engineering.
- Abstract(参考訳): データ組織の構造は、特に二分分類タスクにおいて、機械学習アルゴリズムの有効性に大きな影響を与えると広く認識されている。
我々の研究は、与えられたデータセット上のバイナリ分類器の最大ポテンシャルは、データ固有の性質に主に制約されていることを示唆する理論的枠組みを提供する。
理論的推論と経験的検証の両面で,2つの主要な結論に達するために,標準目的関数,評価指標,二項分類器を用いた。
まず,実際のデータセット上でのバイナリ分類性能の理論的上限を理論的に達成できることを示す。
この上界は、学習損失と評価基準の間の計算可能な平衡を表す。
第二に、一般的に使用される3つの評価指標の正確な上限を計算し、その上界がデータセットの特性と複雑に結びついており、使用中の分類器とは無関係である。
さらに、その後の分析により、二項分類データにおける性能上限とクラス重複レベルとの詳細な関係が明らかになった。
この関係は、機能工学で使用する最も効果的な機能サブセットを特定するのに役立ちます。
関連論文リスト
- Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - The Computational Complexity of Concise Hypersphere Classification [49.57441416941195]
本稿では,二元データに対する超球分類問題の複雑性理論による最初の研究である。
パラメータ化複雑性のパラダイムを用いて、入力データに存在する可能性のある構造特性の影響を分析する。
論文 参考訳(メタデータ) (2023-12-12T09:33:03Z) - Contextualizing the Limits of Model & Evaluation Dataset Curation on
Semantic Similarity Classification Tasks [1.8130068086063336]
本稿では,事前学習されたモデルとオープン評価データセットの制限が,バイナリ意味類似性分類タスクの性能評価にどう影響するかを示す。
1)これらのデータセットのキュレーションや事前学習したモデルトレーニング体制のエンドユーザー向けドキュメンテーションは容易にはアクセスできないことが多く,(2)現実の文脈でそのようなシステムを迅速に展開するための低摩擦と高需要を考えると,本研究では,データセット間の性能格差,埋め込み技術,距離測定値などを示す先行作業を強化する。
論文 参考訳(メタデータ) (2023-11-03T17:12:07Z) - Topological Quality of Subsets via Persistence Matching Diagrams [0.196629787330046]
我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
論文 参考訳(メタデータ) (2023-06-04T17:08:41Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - On Interpretable Approaches to Cluster, Classify and Represent
Multi-Subspace Data via Minimum Lossy Coding Length based on Rate-Distortion
Theory [0.0]
クラスタリング、分類、表現は、本質的な構造を持つ高次元データから学習する3つの基本的な目的である。
本稿では,3つの解釈可能なアプローチ,すなわち,最小ロッシー符号化長基準によるセグメンテーション(クラスタリング),最小インクリメンタル符号化長基準による分類,最大符号化レート削減基準による表現を紹介する。
論文 参考訳(メタデータ) (2023-02-21T01:15:08Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Learning Diverse and Discriminative Representations via the Principle of
Maximal Coding Rate Reduction [32.21975128854042]
本稿では、データセット全体と各クラスの和との符号化レート差を最大化する情報理論尺度である最大符号化レート削減(textMCR2$)の原理を提案する。
我々は,クロスエントロピー,情報ボトルネック,情報ゲイン,契約的・コントラスト的学習など,既存のフレームワークとの関係を明らかにするとともに,多様かつ差別的な特徴を学習するための理論的保証を提供する。
論文 参考訳(メタデータ) (2020-06-15T17:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。