論文の概要: SMOTE-ENC: A novel SMOTE-based method to generate synthetic data for
nominal and continuous features
- arxiv url: http://arxiv.org/abs/2103.07612v1
- Date: Sat, 13 Mar 2021 04:16:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 03:31:17.324237
- Title: SMOTE-ENC: A novel SMOTE-based method to generate synthetic data for
nominal and continuous features
- Title(参考訳): SMOTE-ENC: 名目および連続的な特徴のための合成データを生成する新しいSMOTEベース手法
- Authors: Mimi Mukherjee and Matloob Khushi
- Abstract要約: SMOTE-ENC (SMOTE - Encoded Nominal and Continuous) という新しいマイノリティオーバーサンプリング手法を提案する。
本実験では、SMOTE-ENC法を用いた分類モデルがSMOTE-NCを用いたモデルよりも優れた予測を提供することを示した。
提案手法は,SMOTE-NCアルゴリズムの主な制約の一つに対処する。
- 参考スコア(独自算出の注目度): 0.38073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real world datasets are heavily skewed where some classes are significantly
outnumbered by the other classes. In these situations, machine learning
algorithms fail to achieve substantial efficacy while predicting these
under-represented instances. To solve this problem, many variations of
synthetic minority over-sampling methods (SMOTE) have been proposed to balance
the dataset which deals with continuous features. However, for datasets with
both nominal and continuous features, SMOTE-NC is the only SMOTE-based
over-sampling technique to balance the data. In this paper, we present a novel
minority over-sampling method, SMOTE-ENC (SMOTE - Encoded Nominal and
Continuous), in which, nominal features are encoded as numeric values and the
difference between two such numeric value reflects the amount of change of
association with minority class. Our experiments show that the classification
model using SMOTE-ENC method offers better prediction than model using SMOTE-NC
when the dataset has a substantial number of nominal features and also when
there is some association between the categorical features and the target
class. Additionally, our proposed method addressed one of the major limitations
of SMOTE-NC algorithm. SMOTE-NC can be applied only on mixed datasets that have
features consisting of both continuous and nominal features and cannot function
if all the features of the dataset are nominal. Our novel method has been
generalized to be applied on both mixed datasets and on nominal only datasets.
The code is available from mkhushi.github.io
- Abstract(参考訳): 現実世界のデータセットは、いくつかのクラスが他のクラスに比較してかなり歪んでいる。
これらの状況では、機械学習アルゴリズムは、これらの未表現のインスタンスを予測しながら、実質的な有効性を達成することができない。
この問題を解決するために、連続的な特徴を扱うデータセットのバランスをとるために、合成マイノリティオーバーサンプリング法(SMOTE)の多くのバリエーションが提案されている。
しかし、名目上かつ連続的な特徴を持つデータセットの場合、SMOTE-NCはデータのバランスをとる唯一のSMOTEベースのオーバーサンプリング技術である。
本稿では,名目特徴を数値としてエンコードし,その2つの数値の差がマイノリティクラスとの関連の変化量を反映した,新たなマイノリティオーバーサンプリング法であるsmote-enc(smote)を提案する。
実験により,smote-enc法を用いた分類モデルは,データセットが相当数の名目的特徴を持つ場合と,分類的特徴と対象クラスとの相関がある場合において,smote-ncを用いたモデルよりも優れた予測を提供することが示された。
さらに,提案手法はSMOTE-NCアルゴリズムの主要な制約の一つに対処する。
SMOTE-NCは、連続的な特徴と名目的特徴の両方からなる特徴を持つ混合データセットにのみ適用でき、データセットのすべての機能が名目上は機能しない。
我々の新しい手法は混合データセットと名目のみのデータセットの両方に適用できるように一般化されている。
コードはmkhushi.github.ioから入手できる。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Solving the Class Imbalance Problem Using a Counterfactual Method for
Data Augmentation [4.454557728745761]
クラス不均衡データセットからの学習は、機械学習アルゴリズムに課題をもたらす。
我々は、マイノリティクラスにおける合成対実例を生成する新しいデータ拡張手法(eXplainable AIから適応)を推進している。
4つの異なる分類器と25のデータセットを用いたいくつかの実験を報告し、本手法(CFA)がマイノリティクラスで有用な合成データポイントを生成することを示す。
論文 参考訳(メタデータ) (2021-11-05T14:14:06Z) - Gated recurrent units and temporal convolutional network for multilabel
classification [122.84638446560663]
本研究は,マルチラベル分類を管理するための新しいアンサンブル手法を提案する。
提案手法のコアは,Adamグラデーション最適化アプローチの変種で訓練された,ゲート再帰単位と時間畳み込みニューラルネットワークの組み合わせである。
論文 参考訳(メタデータ) (2021-10-09T00:00:16Z) - SMOTified-GAN for class imbalanced pattern classification problems [0.41998444721319217]
本稿では,SMOTEとGANの相乗効果を持つ2相オーバーサンプリング手法を提案する。
実験の結果,様々なベンチマークデータセットにおいて,マイノリティクラス(es)のサンプル品質が向上していることが証明された。
論文 参考訳(メタデータ) (2021-08-06T06:14:05Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - GMOTE: Gaussian based minority oversampling technique for imbalanced
classification adapting tail probability of outliers [0.0]
データレベルのアプローチは、主にオーバーサンプリングメソッドを使用して問題を解決します。例えば、合成マイノリティオーバーサンプリング技術(SMOTE)です。
本稿では,不均衡データセットに対する統計的観点からガウス型マイノリティオーバーサンプリング手法(gmote)を提案する。
GMOTEが分類および回帰木(CART)またはサポートベクター機械(SVM)と結合されるとき、それはよりよい正確さおよびF1スコアを示します。
論文 参考訳(メタデータ) (2021-05-09T07:04:37Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - A Novel Resampling Technique for Imbalanced Dataset Optimization [1.0323063834827415]
まれなイベントの分類は、詐欺取引、マルウェアトラフィック分析、ネットワーク侵入検出など、多くのドメインで一般的な問題です。
我々は,クラス不均衡問題に対処する2種類の1-Nearest Neighbour (G1Nos)オーバーサンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-30T17:17:08Z) - Deep Synthetic Minority Over-Sampling Technique [3.3707422585608953]
我々はSMOTEの考え方をディープラーニングアーキテクチャに適用する。
ディープSMOTEは、ほとんどのテストケースにおいて、精度、F1スコア、エリアアンダーカーブ(AUC)の点で従来のSMOTEを上回っます。
論文 参考訳(メタデータ) (2020-03-22T02:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。