論文の概要: RB-CCR: Radial-Based Combined Cleaning and Resampling algorithm for
imbalanced data classification
- arxiv url: http://arxiv.org/abs/2105.04009v1
- Date: Sun, 9 May 2021 19:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:45:53.355882
- Title: RB-CCR: Radial-Based Combined Cleaning and Resampling algorithm for
imbalanced data classification
- Title(参考訳): RB-CCR:不均衡データ分類のための放射型複合洗浄・再サンプリングアルゴリズム
- Authors: Micha{\l} Koziarski, Colin Bellinger, Micha{\l} Wo\'zniak
- Abstract要約: トレーニングデータのサンプル化は、不均衡バイナリデータの分類性能を改善するための標準的なアプローチである。
RB-CCRはクラスポテンシャルを利用して、合成オーバーサンプリングのためのデータ空間のサブリージョンを正確に見つける。
以上の結果から,RB-CCRはCCRよりも精度の高いリコールトレードオフを実現し,AUC や G-mean といった最先端のリサンプリング手法よりも優れていた。
- 参考スコア(独自算出の注目度): 5.448684866061922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world classification domains, such as medicine, health and safety, and
finance, often exhibit imbalanced class priors and have asynchronous
misclassification costs. In such cases, the classification model must achieve a
high recall without significantly impacting precision. Resampling the training
data is the standard approach to improving classification performance on
imbalanced binary data. However, the state-of-the-art methods ignore the local
joint distribution of the data or correct it as a post-processing step. This
can causes sub-optimal shifts in the training distribution, particularly when
the target data distribution is complex. In this paper, we propose Radial-Based
Combined Cleaning and Resampling (RB-CCR). RB-CCR utilizes the concept of class
potential to refine the energy-based resampling approach of CCR. In particular,
RB-CCR exploits the class potential to accurately locate sub-regions of the
data-space for synthetic oversampling. The category sub-region for oversampling
can be specified as an input parameter to meet domain-specific needs or be
automatically selected via cross-validation. Our $5\times2$ cross-validated
results on 57 benchmark binary datasets with 9 classifiers show that RB-CCR
achieves a better precision-recall trade-off than CCR and generally
out-performs the state-of-the-art resampling methods in terms of AUC and
G-mean.
- Abstract(参考訳): 医学、健康、安全、金融といった現実世界の分類ドメインは、しばしば不均衡なクラス優先を示し、非同期な誤分類コストを持つ。
このような場合、分類モデルは精度に大きな影響を及ぼすことなく高いリコールを達成する必要がある。
トレーニングデータのサンプル化は、不均衡バイナリデータの分類性能を改善するための標準的なアプローチである。
しかし、最先端の手法はデータの局所的な関節分布を無視したり、後処理のステップとして修正する。
これにより、特にターゲットデータ分布が複雑である場合に、トレーニング分布が最適にシフトする可能性がある。
本稿では,放射型複合洗浄・リサイクル(RB-CCR)を提案する。
RB-CCRはクラスポテンシャルの概念を用いて、CCRのエネルギーベースの再サンプリングアプローチを洗練させる。
特に、RB-CCRはクラスポテンシャルを利用して、合成オーバーサンプリングのためのデータ空間のサブリージョンを正確に見つける。
オーバーサンプリングのためのカテゴリサブリージョンは、ドメイン固有のニーズを満たす入力パラメータとして指定するか、クロスバリデーションによって自動的に選択することができる。
57のベンチマークバイナリデータセットを9つの分類器でクロスバリデーションした結果、RB-CCRはCCRよりも精度の高いリコールトレードオフを実現しており、一般的にAUCとG-meanの点で最先端のリサンプリング手法よりも優れています。
関連論文リスト
- Energy Score-based Pseudo-Label Filtering and Adaptive Loss for Imbalanced Semi-supervised SAR target recognition [1.2035771704626825]
既存の半教師付きSAR ATRアルゴリズムは、クラス不均衡の場合、認識精度が低い。
この研究は、動的エネルギースコアと適応損失を用いた非平衡半教師付きSAR目標認識手法を提供する。
論文 参考訳(メタデータ) (2024-11-06T14:45:16Z) - Coordinated Sparse Recovery of Label Noise [2.9495895055806804]
本研究は、ラベルノイズがインスタンス依存であるロバストな分類タスクに焦点を当てる。
協調スパース回収法(CSR)を提案する。
CSRは、モデル予測とノイズ回復を調整するために、協調行列と信頼重みを導入し、エラーリークを低減する。
CSRに基づいて,共同サンプル選択戦略を設計し,CSR+と呼ばれる包括的で強力な学習フレームワークを構築した。
論文 参考訳(メタデータ) (2024-04-07T03:41:45Z) - Latent Enhancing AutoEncoder for Occluded Image Classification [2.6217304977339473]
LEARN: Latent Enhancing feature Reconstruction Networkを紹介する。
オートエンコーダベースのネットワークで、頭の前に分類モデルに組み込むことができる。
OccludedPASCAL3D+データセットでは、提案されたLEARNが標準分類モデルより優れている。
論文 参考訳(メタデータ) (2024-02-10T12:22:31Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z) - Improved Design of Quadratic Discriminant Analysis Classifier in
Unbalanced Settings [19.763768111774134]
分類のための二次判別分析(QDA)またはその正規化バージョン(R-QDA)は推奨されないことが多い。
本稿では2つの正規化パラメータと修正バイアスに基づく改良されたR-QDAを提案する。
論文 参考訳(メタデータ) (2020-06-11T12:17:05Z) - On Positive-Unlabeled Classification in GAN [130.43248168149432]
本稿では,標準GANに対する肯定的かつ未ラベルの分類問題を定義する。
その後、GANにおける差別者の訓練を安定させる新しい手法が導かれる。
論文 参考訳(メタデータ) (2020-02-04T05:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。