論文の概要: Revisiting Data Complexity Metrics Based on Morphology for Overlap and
Imbalance: Snapshot, New Overlap Number of Balls Metrics and Singular
Problems Prospect
- arxiv url: http://arxiv.org/abs/2007.07935v1
- Date: Wed, 15 Jul 2020 18:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:00:09.730402
- Title: Revisiting Data Complexity Metrics Based on Morphology for Overlap and
Imbalance: Snapshot, New Overlap Number of Balls Metrics and Singular
Problems Prospect
- Title(参考訳): オーバーラップとアンバランスのモルフォロジーに基づくデータ複雑度メトリクスの再検討:スナップショット,ボールの新たなオーバーラップ数,特異問題
- Authors: Jos\'e Daniel Pascual-Triana, David Charte, Marta Andr\'es Arroyo,
Alberto Fern\'andez and Francisco Herrera
- Abstract要約: 本研究は,データ形態に基づく複雑性メトリクスの再検討に焦点をあてる。
クラスによるボールのカバレッジに基づいており、オーバーラップ・ナンバー・オブ・ボールにちなんで名付けられている。
- 参考スコア(独自算出の注目度): 9.666866159867444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data Science and Machine Learning have become fundamental assets for
companies and research institutions alike. As one of its fields, supervised
classification allows for class prediction of new samples, learning from given
training data. However, some properties can cause datasets to be problematic to
classify.
In order to evaluate a dataset a priori, data complexity metrics have been
used extensively. They provide information regarding different intrinsic
characteristics of the data, which serve to evaluate classifier compatibility
and a course of action that improves performance. However, most complexity
metrics focus on just one characteristic of the data, which can be insufficient
to properly evaluate the dataset towards the classifiers' performance. In fact,
class overlap, a very detrimental feature for the classification process
(especially when imbalance among class labels is also present) is hard to
assess.
This research work focuses on revisiting complexity metrics based on data
morphology. In accordance to their nature, the premise is that they provide
both good estimates for class overlap, and great correlations with the
classification performance. For that purpose, a novel family of metrics have
been developed. Being based on ball coverage by classes, they are named after
Overlap Number of Balls. Finally, some prospects for the adaptation of the
former family of metrics to singular (more complex) problems are discussed.
- Abstract(参考訳): データサイエンスと機械学習は企業や研究機関の基本的な資産になっている。
その分野のひとつとして、教師付き分類は、与えられたトレーニングデータから学習した新しいサンプルのクラス予測を可能にする。
しかし、いくつかのプロパティはデータセットの分類に問題を引き起こす可能性がある。
データセットを事前評価するために、データ複雑性メトリクスが広く使われている。
それらはデータの異なる本質的特性に関する情報を提供し、分類器の互換性を評価するのに役立つ。
しかし、ほとんどの複雑性メトリクスはデータの1つの特性だけに焦点を当てており、分類器のパフォーマンスに向けてデータセットを適切に評価するには不十分である。
実際、クラス重複は分類プロセスにとって非常に有害な特徴であり(特にクラスラベルの不均衡が存在する場合)、評価が難しい。
本研究は,データ形態に基づく複雑性メトリクスの再検討に焦点をあてる。
その性質に応じて、クラスオーバーラップに対する優れた推定と、分類性能との大きな相関の両方を提供するという前提がある。
そのため、新しいメトリクスのファミリーが開発された。
クラスによってボールのカバレッジに基づいており、ボールの重複数にちなんで名づけられる。
最後に, 単数(より複雑な)問題に対して, 前者メトリクス群が適応する可能性について考察する。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Characterizing instance hardness in classification and regression
problems [0.0]
本稿では,データセットのどのインスタンスがラベルを正確に予測しにくいかを特徴付けるメタ機能について述べる。
分類問題と回帰問題の両方が考慮されている。
すべての実装を含むPythonパッケージも提供されている。
論文 参考訳(メタデータ) (2022-12-04T19:16:43Z) - Classification of datasets with imputed missing values: does imputation
quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:58:03Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z) - A Systematic Evaluation: Fine-Grained CNN vs. Traditional CNN
Classifiers [54.996358399108566]
本稿では,大規模分類データセット上でトップノーチ結果を示すランドマーク一般的なCNN分類器の性能について検討する。
最先端のきめ細かい分類器と比較する。
実験において, 粒度の細かい分類器がベースラインを高められるかどうかを判定するために, 6つのデータセットについて広範囲に評価する。
論文 参考訳(メタデータ) (2020-03-24T23:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。