論文の概要: Data organization limits the predictability of binary classification
- arxiv url: http://arxiv.org/abs/2401.17036v2
- Date: Fri, 12 Jul 2024 06:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 05:27:26.238527
- Title: Data organization limits the predictability of binary classification
- Title(参考訳): データ組織はバイナリ分類の予測可能性を制限する
- Authors: Fei Jing, Zi-Ke Zhang, Yi-Cheng Zhang, Qingpeng Zhang,
- Abstract要約: 実データセット上でのバイナリ分類性能の理論的上限は理論的に達成可能であることを示す。
本分析により,2値分類データにおける性能の上限値とクラス重複レベルとの詳細な関係が明らかになった。
- 参考スコア(独自算出の注目度): 8.494815916044814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The structure of data organization is widely recognized as having a substantial influence on the efficacy of machine learning algorithms, particularly in binary classification tasks. Our research provides a theoretical framework suggesting that the maximum potential of binary classifiers on a given dataset is primarily constrained by the inherent qualities of the data. Through both theoretical reasoning and empirical examination, we employed standard objective functions, evaluative metrics, and binary classifiers to arrive at two principal conclusions. Firstly, we show that the theoretical upper bound of binary classification performance on actual datasets can be theoretically attained. This upper boundary represents a calculable equilibrium between the learning loss and the metric of evaluation. Secondly, we have computed the precise upper bounds for three commonly used evaluation metrics, uncovering a fundamental uniformity with our overarching thesis: the upper bound is intricately linked to the dataset's characteristics, independent of the classifier in use. Additionally, our subsequent analysis uncovers a detailed relationship between the upper limit of performance and the level of class overlap within the binary classification data. This relationship is instrumental for pinpointing the most effective feature subsets for use in feature engineering.
- Abstract(参考訳): データ組織の構造は、特に二分分類タスクにおいて、機械学習アルゴリズムの有効性に大きな影響を与えていると広く認識されている。
我々の研究は、与えられたデータセット上のバイナリ分類器の最大ポテンシャルは、データ固有の性質に主に制約されていることを示唆する理論的枠組みを提供する。
理論的推論と経験的検証の両面から, 2つの主要な結論に達するために, 標準目的関数, 評価指標, 二項分類器を用いた。
まず、実際のデータセットにおける二項分類性能の理論的上限が理論的に達成可能であることを示す。
この上界は、学習損失と評価基準の間の計算可能な平衡を表す。
第2に、一般的に使用されている3つの評価指標の正確な上界を計算し、その上界は、使用中の分類器とは独立に、データセットの特徴と複雑に結びついているという、上位のテーゼと基本的な均一性を明らかにする。
さらに、その後の分析により、二項分類データにおける性能上限とクラス重複レベルとの詳細な関係が明らかになった。
この関係は、機能エンジニアリングで使用する最も効果的な機能サブセットをピンポイントするのに役立ちます。
関連論文リスト
- Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - The Computational Complexity of Concise Hypersphere Classification [49.57441416941195]
本稿では,二元データに対する超球分類問題の複雑性理論による最初の研究である。
パラメータ化複雑性のパラダイムを用いて、入力データに存在する可能性のある構造特性の影響を分析する。
論文 参考訳(メタデータ) (2023-12-12T09:33:03Z) - Contextualizing the Limits of Model & Evaluation Dataset Curation on
Semantic Similarity Classification Tasks [1.8130068086063336]
本稿では,事前学習されたモデルとオープン評価データセットの制限が,バイナリ意味類似性分類タスクの性能評価にどう影響するかを示す。
1)これらのデータセットのキュレーションや事前学習したモデルトレーニング体制のエンドユーザー向けドキュメンテーションは容易にはアクセスできないことが多く,(2)現実の文脈でそのようなシステムを迅速に展開するための低摩擦と高需要を考えると,本研究では,データセット間の性能格差,埋め込み技術,距離測定値などを示す先行作業を強化する。
論文 参考訳(メタデータ) (2023-11-03T17:12:07Z) - Topological Quality of Subsets via Persistence Matching Diagrams [0.196629787330046]
我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
論文 参考訳(メタデータ) (2023-06-04T17:08:41Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - On Interpretable Approaches to Cluster, Classify and Represent
Multi-Subspace Data via Minimum Lossy Coding Length based on Rate-Distortion
Theory [0.0]
クラスタリング、分類、表現は、本質的な構造を持つ高次元データから学習する3つの基本的な目的である。
本稿では,3つの解釈可能なアプローチ,すなわち,最小ロッシー符号化長基準によるセグメンテーション(クラスタリング),最小インクリメンタル符号化長基準による分類,最大符号化レート削減基準による表現を紹介する。
論文 参考訳(メタデータ) (2023-02-21T01:15:08Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Learning Diverse and Discriminative Representations via the Principle of
Maximal Coding Rate Reduction [32.21975128854042]
本稿では、データセット全体と各クラスの和との符号化レート差を最大化する情報理論尺度である最大符号化レート削減(textMCR2$)の原理を提案する。
我々は,クロスエントロピー,情報ボトルネック,情報ゲイン,契約的・コントラスト的学習など,既存のフレームワークとの関係を明らかにするとともに,多様かつ差別的な特徴を学習するための理論的保証を提供する。
論文 参考訳(メタデータ) (2020-06-15T17:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。