論文の概要: Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering
- arxiv url: http://arxiv.org/abs/2405.19757v2
- Date: Wed, 14 Aug 2024 06:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 17:36:35.251794
- Title: Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering
- Title(参考訳): データ適応型ノイズフィルタにおけるFusing Conditional VAEによるSMOTEの改善
- Authors: Sungchul Hong, Seunghwan An, Jong-June Jeon,
- Abstract要約: 変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムの拡張フレームワークを提案する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
- 参考スコア(独自算出の注目度): 0.5735035463793009
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in a generative neural network model extend the development of data augmentation methods. However, the augmentation methods based on the modern generative models fail to achieve notable performance for class imbalance data compared to the conventional model, Synthetic Minority Oversampling Technique (SMOTE). We investigate the problem of the generative model for imbalanced classification and introduce a framework to enhance the SMOTE algorithm using Variational Autoencoders (VAE). Our approach systematically quantifies the density of data points in a low-dimensional latent space using the VAE, simultaneously incorporating information on class labels and classification difficulty. Then, the data points potentially degrading the augmentation are systematically excluded, and the neighboring observations are directly augmented on the data space. Empirical studies on several imbalanced datasets represent that this simple process innovatively improves the conventional SMOTE algorithm over the deep learning models. Consequently, we conclude that the selection of minority data and the interpolation in the data space are beneficial for imbalanced classification problems with a relatively small number of data points.
- Abstract(参考訳): 生成ニューラルネットワークモデルの最近の進歩は、データ拡張手法の開発を拡張している。
しかし, 最新の生成モデルに基づく拡張手法は, 従来のモデルであるSMOTEと比較して, クラス不均衡データに対する顕著な性能を達成するには至らなかった。
不均衡な分類のための生成モデルの問題点を考察し、変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムを強化する枠組みを導入する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
そして、増大する可能性のあるデータポイントを体系的に排除し、そのデータ空間に隣接した観測を直接拡張する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
その結果、少数データの選択とデータ空間の補間は、比較的少数のデータポイントを持つ不均衡な分類問題に有効であると結論付けている。
関連論文リスト
- Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - Evaluating the Utility of GAN Generated Synthetic Tabular Data for Class
Balancing and Low Resource Settings [0.0]
この研究はクラスバランス実験に一般化線形モデル(GLM)アルゴリズムを用いた。
低リソース実験では、GAN合成データで強化されたデータに基づいてトレーニングされたモデルは、元のデータよりも優れたリコール値を示した。
論文 参考訳(メタデータ) (2023-06-24T10:27:08Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A Guide for Practical Use of ADMG Causal Data Augmentation [0.0]
これらの課題に対処するためのソリューションとして、因果データ拡張戦略が指摘されている。
異なる設定を考慮したADMG因果拡大法を実験的に検討した。
論文 参考訳(メタデータ) (2023-04-03T09:31:13Z) - Improved Techniques for the Conditional Generative Augmentation of
Clinical Audio Data [36.45569352490318]
本稿では,学習したデータ分布からメルスペクトルを合成できる条件付き逆方向ニューラルネットワークによる拡張法を提案する。
提案手法は,従来の音質向上手法よりも優れていることを示す。
提案モデルは,臨床オーディオデータの増大における最先端の進歩と,臨床音響センシングシステムの設計におけるデータのボトルネックを改善する。
論文 参考訳(メタデータ) (2022-11-05T10:58:04Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Imbalanced data preprocessing techniques utilizing local data
characteristics [2.28438857884398]
データ不均衡は、異なるクラスから来るトレーニング観察の数の間の不均衡である。
この論文の焦点は、新しいデータ再サンプリング戦略の開発である。
論文 参考訳(メタデータ) (2021-11-28T11:48:26Z) - Data Augmentation Imbalance For Imbalanced Attribute Classification [60.71438625139922]
本稿では,データ拡張不均衡(DAI)と呼ばれる新しい再サンプリングアルゴリズムを提案する。
我々のDAIアルゴリズムは歩行者属性のデータセットに基づいて最先端の結果を得る。
論文 参考訳(メタデータ) (2020-04-19T20:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。