論文の概要: Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties
- arxiv url: http://arxiv.org/abs/2201.07932v1
- Date: Wed, 15 Dec 2021 18:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-04 11:31:36.136742
- Title: Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties
- Title(参考訳): データセット特性に関する不均衡データ分類に適した再サンプリング戦略の選択
- Authors: Mohamed S. Kraiem, Fernando S\'anchez-Hern\'andez and Mar\'ia N.
Moreno-Garc\'ia
- Abstract要約: 医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many application domains such as medicine, information retrieval,
cybersecurity, social media, etc., datasets used for inducing classification
models often have an unequal distribution of the instances of each class. This
situation, known as imbalanced data classification, causes low predictive
performance for the minority class examples. Thus, the prediction model is
unreliable although the overall model accuracy can be acceptable. Oversampling
and undersampling techniques are well-known strategies to deal with this
problem by balancing the number of examples of each class. However, their
effectiveness depends on several factors mainly related to data intrinsic
characteristics, such as imbalance ratio, dataset size and dimensionality,
overlapping between classes or borderline examples. In this work, the impact of
these factors is analyzed through a comprehensive comparative study involving
40 datasets from different application areas. The objective is to obtain models
for automatic selection of the best resampling strategy for any dataset based
on its characteristics. These models allow us to check several factors
simultaneously considering a wide range of values since they are induced from
very varied datasets that cover a broad spectrum of conditions. This differs
from most studies that focus on the individual analysis of the characteristics
or cover a small range of values. In addition, the study encompasses both basic
and advanced resampling strategies that are evaluated by means of eight
different performance metrics, including new measures specifically designed for
imbalanced data classification. The general nature of the proposal allows the
choice of the most appropriate method regardless of the domain, avoiding the
search for special purpose techniques that could be valid for the target data.
- Abstract(参考訳): 医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
したがって、予測モデルは信頼できないが、全体のモデルの精度は許容できる。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
しかし、それらの効果は、不均衡比、データセットのサイズ、寸法、クラス間の重なりや境界の例といったデータ固有の特性に主に関係するいくつかの要因に依存する。
本研究は、異なるアプリケーション領域の40のデータセットを含む包括的比較研究を通して、これらの要因の影響を分析した。
その目的は、その特性に基づいて任意のデータセットの最適な再サンプリング戦略を自動的に選択するためのモデルを得ることである。
これらのモデルは、幅広い条件をカバーする非常に多様なデータセットから引き起こされるため、幅広い値を考慮して同時に複数の因子をチェックすることができる。
これは、特性の個々の分析に焦点を当てたり、少数の値をカバーする多くの研究とは異なる。
さらに、不均衡なデータ分類のために特別に設計された新しい措置を含む、8つの異なるパフォーマンス指標によって評価される基本的な再サンプリング戦略と先進的な再サンプリング戦略の両方を包含する。
提案の一般的な性質は、ドメインに関係なく最も適切なメソッドを選択することを可能にし、ターゲットデータに有効な特別な用途のテクニックの探索を避ける。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Harnessing Diversity for Important Data Selection in Pretraining Large Language Models [39.89232835928945]
textttQuadは、データの影響を利用して、最先端の事前トレーニング結果を達成することによって、品質と多様性の両方を考慮する。
多様性のために、textttQuadはデータセットを、各クラスタ内の同様のデータインスタンスと、異なるクラスタにわたる多様なインスタンスにクラスタする。
論文 参考訳(メタデータ) (2024-09-25T14:49:29Z) - Fair Overlap Number of Balls (Fair-ONB): A Data-Morphology-based Undersampling Method for Bias Reduction [8.691440960669649]
信頼できる人工知能における分類問題に関する重要な問題の1つは、異なるクラスの予測において公平性を保証することである。
トレーニングデータのバイアスが機械学習に反映され、人間の生活に影響を与え、現在の規制に従わないため、これらのケースではデータ品質が重要になります。
本研究は,各データ群のデータ形態を利用したアンダーサンプリング手法であるフェアオーバーラップボール数(Fair-ONB)を提案する。
論文 参考訳(メタデータ) (2024-07-19T11:16:02Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Automatic Generation of Attention Rules For Containment of Machine
Learning Model Errors [1.4987559345379062]
我々は、観測を分離するために最適な規則を決定するためのいくつかのアルゴリズム(ストラテジー')を提案する。
特に,機能ベースのスライシングを利用する戦略は,人間の解釈可能で,モデル非依存であり,補足的な入力や知識を最小限に抑える必要がある。
戦略を評価するために、我々は、その性能、安定性、そして、目に見えないデータに対する一般化可能性など、様々な望ましい品質を測定するための指標を導入する。
論文 参考訳(メタデータ) (2023-05-14T10:15:35Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Dynamic Instance-Wise Classification in Correlated Feature Spaces [15.351282873821935]
典型的な機械学習環境では、すべてのテストインスタンスの予測は、モデルトレーニング中に発見された機能の共通サブセットに基づいている。
それぞれのテストインスタンスに対して個別に評価する最適な特徴を順次選択し、分類精度に関して更なる改善が得られないことを判断すると、選択プロセスが終了して予測を行う新しい手法を提案する。
提案手法の有効性, 一般化性, 拡張性について, 多様なアプリケーション領域の様々な実世界のデータセットで説明する。
論文 参考訳(メタデータ) (2021-06-08T20:20:36Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。