論文の概要: An Instance Selection Algorithm for Big Data in High imbalanced datasets
based on LSH
- arxiv url: http://arxiv.org/abs/2210.04310v1
- Date: Sun, 9 Oct 2022 17:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 19:50:06.435842
- Title: An Instance Selection Algorithm for Big Data in High imbalanced datasets
based on LSH
- Title(参考訳): LSHに基づく高不均衡データセットにおけるビッグデータのインスタンス選択アルゴリズム
- Authors: Germ\'an E. Melo-Acosta and Freddy Duitama-Mu\~noz and Juli\'an D.
Arias-Londo\~no
- Abstract要約: 機械学習モデルを実環境で訓練することは、しばしば、関心のクラスが表現されていないビッグデータや不均衡なサンプルを扱う。
本研究は,大規模かつ不均衡なデータセットを扱うために,例選択(IS)という3つの新しい手法を提案する。
アルゴリズムはApache Sparkフレームワークで開発され、スケーラビリティが保証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training of Machine Learning (ML) models in real contexts often deals with
big data sets and high-class imbalance samples where the class of interest is
unrepresented (minority class). Practical solutions using classical ML models
address the problem of large data sets using parallel/distributed
implementations of training algorithms, approximate model-based solutions, or
applying instance selection (IS) algorithms to eliminate redundant information.
However, the combined problem of big and high imbalanced datasets has been less
addressed. This work proposes three new methods for IS to be able to deal with
large and imbalanced data sets. The proposed methods use Locality Sensitive
Hashing (LSH) as a base clustering technique, and then three different sampling
methods are applied on top of the clusters (or buckets) generated by LSH. The
algorithms were developed in the Apache Spark framework, guaranteeing their
scalability. The experiments carried out in three different datasets suggest
that the proposed IS methods can improve the performance of a base ML model
between 5% and 19% in terms of the geometric mean.
- Abstract(参考訳): 機械学習(ML)モデルの実際のコンテキストでのトレーニングは、関心のクラスが表現されない(マイノリティクラス)ビッグデータや高レベルの不均衡サンプルを扱うことが多い。
古典的MLモデルを用いた実践的ソリューションは、トレーニングアルゴリズムの並列/分散実装、近似モデルベースのソリューション、あるいは冗長な情報を排除するためにインスタンス選択(IS)アルゴリズムを適用した大規模データセットの問題に対処する。
しかし、大きなデータセットと高い不均衡データセットの複合問題は解決されていない。
本研究は,大規模で不均衡なデータセットを扱うための3つの新しい手法を提案する。
提案手法は, ベースクラスタリング手法としてLocality Sensitive Hashing (LSH) を用い, LSHによって生成されたクラスタ(あるいはバケット)上に3種類の異なるサンプリング手法を適用した。
アルゴリズムはApache Sparkフレームワークで開発され、スケーラビリティが保証された。
3つの異なるデータセットで実施した実験から,提案手法は幾何学平均値の5%から19%のベースMLモデルの性能を向上させることが示唆された。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Clustering based on Mixtures of Sparse Gaussian Processes [6.939768185086753]
低次元の組込み空間を使ってデータをクラスタする方法は、マシンラーニングにおいて依然として難しい問題である。
本稿では,クラスタリングと次元還元の両立を目的とした共同定式化を提案する。
我々のアルゴリズムはスパースガウス過程の混合に基づいており、スパースガウス過程混合クラスタリング(SGP-MIC)と呼ばれる。
論文 参考訳(メタデータ) (2023-03-23T20:44:36Z) - Research on Efficient Fuzzy Clustering Method Based on Local Fuzzy
Granular balls [67.33923111887933]
本稿では,データをグラニュラーボールを用いてファジィにイテレーションし,その位置にある2つのグラニュラーボールのみをデータのメンバーシップ度として検討する。
ファジィグラニュラーボールセットは、異なるデータシナリオに直面して、より多くの処理方法を使用することができる。
論文 参考訳(メタデータ) (2023-03-07T01:52:55Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - A Hybrid Approach for Binary Classification of Imbalanced Data [0.0]
本稿では,データブロック構築,次元減少,アンサンブル学習を併用したハイブリットアプローチHADRを提案する。
我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。
論文 参考訳(メタデータ) (2022-07-06T15:18:41Z) - Envelope Imbalance Learning Algorithm based on Multilayer Fuzzy C-means
Clustering and Minimum Interlayer discrepancy [14.339674126923903]
本稿では,マルチ層ファジィc-means(MlFCM)と最小層間離散化機構(MIDMD)を用いたディープインスタンスエンベロープネットワークに基づく不均衡学習アルゴリズムを提案する。
このアルゴリズムは、事前の知識がなければ、ディープインスタンスエンベロープネットワークを使用して、高品質なバランスの取れたインスタンスを保証できる。
論文 参考訳(メタデータ) (2021-11-02T04:59:57Z) - A Deep Learning Object Detection Method for an Efficient Clusters
Initialization [6.365889364810239]
クラスタリングは、銀行顧客のプロファイリング、文書検索、画像セグメンテーション、Eコマースレコメンデーションエンジンなど、多くのアプリケーションで使用されている。
既存のクラスタリング技術には、初期化パラメータに対する安定性の信頼性という大きな制限がある。
本稿では,計算オーバーヘッドとリソースオーバーヘッドの少ない最適クラスタリングパラメータを提供するソリューションを提案する。
論文 参考訳(メタデータ) (2021-04-28T08:34:25Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。