論文の概要: A Method for Handling Multi-class Imbalanced Data by Geometry based
Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS)
- arxiv url: http://arxiv.org/abs/2010.05155v1
- Date: Sun, 11 Oct 2020 04:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 12:57:27.937720
- Title: A Method for Handling Multi-class Imbalanced Data by Geometry based
Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS)
- Title(参考訳): 幾何に基づく情報サンプリングとクラス優先合成データ生成(GICaPS)による多クラス不均衡データの処理法
- Authors: Anima Majumder, Samrat Dutta, Swagat Kumar, Laxmidhar Behera
- Abstract要約: 本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。
特徴ベクトル間の幾何学的関係を利用する2つの新しい手法が提案されている。
提案手法の有効性は,汎用的なマルチクラス認識問題を解くことによって解析する。
- 参考スコア(独自算出の注目度): 15.433936272310952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper looks into the problem of handling imbalanced data in a
multi-label classification problem. The problem is solved by proposing two
novel methods that primarily exploit the geometric relationship between the
feature vectors. The first one is an undersampling algorithm that uses angle
between feature vectors to select more informative samples while rejecting the
less informative ones. A suitable criterion is proposed to define the
informativeness of a given sample. The second one is an oversampling algorithm
that uses a generative algorithm to create new synthetic data that respects all
class boundaries. This is achieved by finding \emph{no man's land} based on
Euclidean distance between the feature vectors. The efficacy of the proposed
methods is analyzed by solving a generic multi-class recognition problem based
on mixture of Gaussians. The superiority of the proposed algorithms is
established through comparison with other state-of-the-art methods, including
SMOTE and ADASYN, over ten different publicly available datasets exhibiting
high-to-extreme data imbalance. These two methods are combined into a single
data processing framework and is labeled as ``GICaPS'' to highlight the role of
geometry-based information (GI) sampling and Class-Prioritized Synthesis (CaPS)
in dealing with multi-class data imbalance problem, thereby making a novel
contribution in this field.
- Abstract(参考訳): 本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。
この問題は、主に特徴ベクトル間の幾何学的関係を利用する2つの新しい方法を提案することで解決される。
1つ目は、特徴ベクトル間の角度を使ってより有益なサンプルを選択しながら、より有益でないサンプルを拒否するアンダーサンプリングアルゴリズムである。
与えられたサンプルの情報性を定義するのに適した基準を提案する。
2つ目は、生成アルゴリズムを使用してすべてのクラス境界を尊重する新しい合成データを生成するオーバーサンプリングアルゴリズムである。
これは特徴ベクトル間のユークリッド距離に基づいて 'emph{no man's land} を見つけることによって達成される。
提案手法の有効性は,ガウス混合系に基づく汎用的多クラス認識問題を解いて解析した。
提案手法の優位性は,smote や adasyn など他の最先端手法と比較して,高対極のデータ不均衡を示す10以上の公開データセットと比較することで確立された。
これらの2つの手法は単一のデータ処理フレームワークに統合され、"GICaPS"とラベル付けされ、多クラスデータ不均衡問題に対処する上でのジオメトリベース情報(GI)サンプリングとクラス分割合成(CaPS)の役割を強調している。
関連論文リスト
- A Bilevel Optimization Framework for Imbalanced Data Classification [1.6385815610837167]
合成データによるノイズや重なりの落とし穴を回避する新しいアンダーサンプリング手法を提案する。
多数データをランダムにアンサンプするのではなく、モデル損失を改善する能力に基づいてデータポイントをアンアンサンプする。
本手法は,モデル損失の改善を指標として,データポイントが損失に与える影響を評価し,それを改善することができない者を拒絶する。
論文 参考訳(メタデータ) (2024-10-15T01:17:23Z) - Projection based fuzzy least squares twin support vector machine for
class imbalance problems [0.9668407688201361]
本稿では,不均衡なクラスとノイズの多いデータセットを扱うファジィに基づく新しい手法を提案する。
提案アルゴリズムは,複数のベンチマークおよび合成データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-09-27T14:28:48Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Handling Imbalanced Data: A Case Study for Binary Class Problems [0.0]
分類問題の解決における主要な問題は、不均衡データの問題である。
本稿では,合成オーバーサンプリング技術と手動で合成データポイントを計算することで,アルゴリズムの理解を深める。
我々は,これらの合成オーバーサンプリング手法を,不均衡比とサンプルサイズが異なる二項分類問題に適用する。
論文 参考訳(メタデータ) (2020-10-09T02:04:14Z) - The Integrity of Machine Learning Algorithms against Software Defect
Prediction [0.0]
本報告では,Liangらが開発したオンラインシーケンス・エクストリーム・ラーニング・マシン(OS-ELM)の性能を解析する。
OS-ELMは従来のディープニューラルネットワークよりも高速にトレーニングし、常にグローバルな最適解に収束する。
この分析は、NASAグループが実施する3つのプロジェクトKC1、PC4、PC3で実施される。
論文 参考訳(メタデータ) (2020-09-05T17:26:56Z) - A Comparison of Synthetic Oversampling Methods for Multi-class Text
Classification [2.28438857884398]
著者らは,マルチクラストピック分類の問題に対するオーバーサンプリング手法の比較を行った。
SMOTEアルゴリズムは最も人気のあるオーバーサンプリング手法の1つである。
著者らは、このタスクでは、ニューラルネットワークよりもクラス不均衡により、KNNとSVMアルゴリズムの品質が影響を受けていると結論付けている。
論文 参考訳(メタデータ) (2020-08-11T11:41:53Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。