論文の概要: Multi-granularity Relabeled Under-sampling Algorithm for Imbalanced Data
- arxiv url: http://arxiv.org/abs/2201.03957v1
- Date: Tue, 11 Jan 2022 14:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 16:33:08.319673
- Title: Multi-granularity Relabeled Under-sampling Algorithm for Imbalanced Data
- Title(参考訳): 不均衡データに対するマルチグラニュラリティリラベルアンダーサンプリングアルゴリズム
- Authors: Qi Dai, Jian-wei Liu, Yang Liu
- Abstract要約: 不均衡な分類問題は、データマイニングと機械学習において重要かつ困難な問題の1つであることが判明した。
Tomek-Linkサンプリングアルゴリズムは、データ上のクラスオーバーラップを効果的に低減し、識別が難しい多数インスタンスを除去し、アルゴリズムの分類精度を向上させる。
しかし、Tomek-Linksアンダーサンプリングアルゴリズムは、世界中に最も近い隣り合う境界インスタンスのみを考慮し、潜在的に局所的な重複するインスタンスを無視している。
本稿では,データセットの局所的情報を完全に考慮した多粒度アンダーサンプリングアルゴリズム(MGRU)を提案する。
- 参考スコア(独自算出の注目度): 15.030895782548576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The imbalanced classification problem turns out to be one of the important
and challenging problems in data mining and machine learning. The performances
of traditional classifiers will be severely affected by many data problems,
such as class imbalanced problem, class overlap and noise. The Tomek-Link
algorithm was only used to clean data when it was proposed. In recent years,
there have been reports of combining Tomek-Link algorithm with sampling
technique. The Tomek-Link sampling algorithm can effectively reduce the class
overlap on data, remove the majority instances that are difficult to
distinguish, and improve the algorithm classification accuracy. However, the
Tomek-Links under-sampling algorithm only considers the boundary instances that
are the nearest neighbors to each other globally and ignores the potential
local overlapping instances. When the number of minority instances is small,
the under-sampling effect is not satisfactory, and the performance improvement
of the classification model is not obvious. Therefore, on the basis of
Tomek-Link, a multi-granularity relabeled under-sampling algorithm (MGRU) is
proposed. This algorithm fully considers the local information of the data set
in the local granularity subspace, and detects the local potential overlapping
instances in the data set. Then, the overlapped majority instances are
eliminated according to the global relabeled index value, which effectively
expands the detection range of Tomek-Links. The simulation results show that
when we select the optimal global relabeled index value for under-sampling, the
classification accuracy and generalization performance of the proposed
under-sampling algorithm are significantly better than other baseline
algorithms.
- Abstract(参考訳): 不均衡な分類問題は、データマイニングと機械学習において重要かつ困難な問題の1つであることが判明した。
従来の分類器の性能は、クラス不均衡問題、クラスオーバーラップ、ノイズなど、多くのデータ問題に大きく影響を受ける。
tomek-linkアルゴリズムは、提案時にデータクリーニングにのみ使用された。
近年,Tomek-Linkアルゴリズムとサンプリング手法の組み合わせが報告されている。
Tomek-Linkサンプリングアルゴリズムは、データ上のクラスオーバーラップを効果的に低減し、識別が難しい多数インスタンスを除去し、アルゴリズムの分類精度を向上させる。
しかし、tomek-linksのアンダーサンプリングアルゴリズムは、互いに最も近い境界インスタンスのみをグローバルに考慮し、潜在的に重複するインスタンスを無視する。
マイノリティインスタンス数が小さい場合、アンサンプリング効果が不十分であり、分類モデルの性能改善は明らかではない。
そこで,tomek-linkに基づき,マルチグラニュラリティリラベル化アンダーサンプリングアルゴリズム(mgru)を提案する。
このアルゴリズムは、局所粒度部分空間に設定されたデータセットの局所情報を十分に考慮し、データセット内の局所ポテンシャル重複インスタンスを検出する。
そして、重なり合う多数派インスタンスをグローバルレザベルインデックス値に従って排除し、トメックリンクの検出範囲を効果的に拡大する。
その結果,アンダーサンプリングの最適大域レラベルインデックス値を選択した場合,提案するアンダーサンプリングアルゴリズムの分類精度と一般化性能は,他のベースラインアルゴリズムよりも有意に優れていることがわかった。
関連論文リスト
- Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Unsupervised anomaly detection algorithms on real-world data: how many
do we need? [1.4610038284393165]
この研究は、これまでで最大の教師なし異常検出アルゴリズムの比較である。
ローカルデータセットでは、$k$NN ($k$-nearest neighbor)アルゴリズムがトップに表示される。
グローバルデータセットでは、EDF(extended isolation forest)アルゴリズムが最善を尽くしている。
論文 参考訳(メタデータ) (2023-05-01T09:27:42Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - SSDBCODI: Semi-Supervised Density-Based Clustering with Outliers
Detection Integrated [1.8444322599555096]
クラスタリング分析は、機械学習における重要なタスクの1つだ。
クラスタリングクラスタリングのパフォーマンスが、異常値によって著しく損なわれる可能性があるため、アルゴリズムは、異常値検出のプロセスを組み込もうとする。
我々は,半教師付き検出素子であるSSDBCODIを提案する。
論文 参考訳(メタデータ) (2022-08-10T21:06:38Z) - Undersampling is a Minimax Optimal Robustness Intervention in
Nonparametric Classification [28.128464387420216]
マイノリティグループサンプルの欠如によって学習が根本的に制約されていることを示す。
特にラベルシフトの場合、最小値のアンダーサンプリングアルゴリズムが常に存在することを示す。
論文 参考訳(メタデータ) (2022-05-26T00:35:11Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - A Novel Resampling Technique for Imbalanced Dataset Optimization [1.0323063834827415]
まれなイベントの分類は、詐欺取引、マルウェアトラフィック分析、ネットワーク侵入検出など、多くのドメインで一般的な問題です。
我々は,クラス不均衡問題に対処する2種類の1-Nearest Neighbour (G1Nos)オーバーサンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-30T17:17:08Z) - Clustering of Big Data with Mixed Features [3.3504365823045044]
我々は混合型の大規模データのための新しいクラスタリングアルゴリズムを開発した。
このアルゴリズムは、比較的低い密度値の外れ値とクラスターを検出することができる。
本研究では,本アルゴリズムが実際に有効であることを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-11-11T19:54:38Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Improving Face Recognition by Clustering Unlabeled Faces in the Wild [77.48677160252198]
極値理論に基づく新しいアイデンティティ分離法を提案する。
重なり合うラベルノイズによる問題を大幅に低減する。
制御された設定と実際の設定の両方の実験は、我々のメソッドの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2020-07-14T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。