論文の概要: Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering
- arxiv url: http://arxiv.org/abs/2405.19757v1
- Date: Thu, 30 May 2024 07:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:38:52.511960
- Title: Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering
- Title(参考訳): データ適応型ノイズフィルタにおけるFusing Conditional VAEによるSMOTEの改善
- Authors: Sungchul Hong, Seunghwan An, Jong-June Jeon,
- Abstract要約: 変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムの拡張フレームワークを提案する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが従来のSMOTEアルゴリズムを革新的に改善することを示している。
- 参考スコア(独自算出の注目度): 0.5735035463793009
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in a generative neural network model extend the development of data augmentation methods. However, the augmentation methods based on the modern generative models fail to achieve notable performance for class imbalance data compared to the conventional model, the SMOTE. We investigate the problem of the generative model for imbalanced classification and introduce a framework to enhance the SMOTE algorithm using Variational Autoencoders (VAE). Our approach systematically quantifies the density of data points in a low-dimensional latent space using the VAE, simultaneously incorporating information on class labels and classification difficulty. Then, the data points potentially degrading the augmentation are systematically excluded, and the neighboring observations are directly augmented on the data space. Empirical studies on several imbalanced datasets represent that this simple process innovatively improves the conventional SMOTE algorithm over the deep learning models. Consequently, we conclude that the selection of minority data and the interpolation in the data space are beneficial for imbalanced classification problems with a relatively small number of data points.
- Abstract(参考訳): 生成ニューラルネットワークモデルの最近の進歩は、データ拡張手法の開発を拡張している。
しかし, 従来のモデルであるSMOTEと比較して, クラス不均衡データに対して, 最新の生成モデルに基づく拡張手法では顕著な性能が得られなかった。
不均衡な分類のための生成モデルの問題点を考察し、変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムを強化する枠組みを導入する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
そして、増大する可能性のあるデータポイントを体系的に排除し、そのデータ空間に隣接した観測を直接拡張する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
その結果、少数データの選択とデータ空間の補間は、比較的少数のデータポイントを持つ不均衡な分類問題に有効であると結論付けている。
関連論文リスト
- Enhancing Few-Shot Learning with Integrated Data and GAN Model Approaches [35.431340001608476]
本稿では,データ拡張とモデルファインチューニングを融合することで,少数ショット学習を向上するための革新的なアプローチを提案する。
薬物発見、ターゲット認識、悪意のあるトラフィック検出などの分野で、小さなサンプルデータによって引き起こされる課題に対処することを目的としている。
その結果,本研究で開発されたMhERGANアルゴリズムは,数発の学習に極めて有効であることが確認された。
論文 参考訳(メタデータ) (2024-11-25T16:51:11Z) - Improved Anomaly Detection through Conditional Latent Space VAE Ensembles [49.1574468325115]
条件付きラテント空間変分オートエンコーダ(CL-VAE)は、既知の不整形クラスと未知の不整形クラスを持つデータに対する異常検出のための前処理を改善した。
モデルでは異常検出の精度が向上し、MNISTデータセットで97.4%のAUCが達成された。
さらに、CL-VAEは、アンサンブルの利点、より解釈可能な潜在空間、モデルサイズに制限のある複雑なデータでパターンを学習する能力の増大を示す。
論文 参考訳(メタデータ) (2024-10-16T07:48:53Z) - Systematic Evaluation of Synthetic Data Augmentation for Multi-class NetFlow Traffic [2.5182419298876857]
マルチクラス分類モデルは特定のタイプの攻撃を識別し、より標的的で効果的なインシデント応答を可能にする。
最近の進歩は、生成モデルがデータの増大を補助し、不均衡なデータセットに対して優れたソリューションを提供すると主張することを示唆している。
本実験は,トレーニングデータのバランスをとる再サンプリング手法が,分類性能を確実に向上させるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-08-28T12:44:07Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Synthetic Information towards Maximum Posterior Ratio for deep learning
on Imbalanced Data [1.7495515703051119]
マイノリティクラスのための合成データを生成することによって,データのバランスをとる手法を提案する。
提案手法は,高エントロピーサンプルを同定することにより,情報領域のバランスを優先する。
実験結果から,提案手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2024-01-05T01:08:26Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Convex space learning improves deep-generative oversampling for tabular
imbalanced classification on smaller datasets [0.0]
既存の深部生成モデルは,少数クラスの凸空間から合成サンプルを生成する線形アプローチと比較して性能が低いことを示す。
本研究では,凸空間学習と深部生成モデルを組み合わせた深部生成モデルConvGeNを提案する。
論文 参考訳(メタデータ) (2022-06-20T14:42:06Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Data Augmentation Imbalance For Imbalanced Attribute Classification [60.71438625139922]
本稿では,データ拡張不均衡(DAI)と呼ばれる新しい再サンプリングアルゴリズムを提案する。
我々のDAIアルゴリズムは歩行者属性のデータセットに基づいて最先端の結果を得る。
論文 参考訳(メタデータ) (2020-04-19T20:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。