論文の概要: Imputation of Missing Data with Class Imbalance using Conditional
Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2012.00220v1
- Date: Tue, 1 Dec 2020 02:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:39:57.095198
- Title: Imputation of Missing Data with Class Imbalance using Conditional
Generative Adversarial Networks
- Title(参考訳): 条件付き生成逆数ネットワークを用いたクラス不均衡の欠落データの計算
- Authors: Saqib Ejaz Awan, Mohammed Bennamoun, Ferdous Sohel, Frank M
Sanfilippo, Girish Dwivedi
- Abstract要約: そこで本研究では,そのクラス固有の特徴に基づいて,欠落したデータを出力する新しい手法を提案する。
CGAIN(Con Conditional Generative Adversarial Imputation Network)は、クラス固有の分布を用いて、欠落したデータをインプットする。
提案手法をベンチマークデータセットで検証し,最先端の計算手法や一般的な計算手法と比較して優れた性能を示した。
- 参考スコア(独自算出の注目度): 24.075691766743702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing data is a common problem faced with real-world datasets. Imputation
is a widely used technique to estimate the missing data. State-of-the-art
imputation approaches, such as Generative Adversarial Imputation Nets (GAIN),
model the distribution of observed data to approximate the missing values. Such
an approach usually models a single distribution for the entire dataset, which
overlooks the class-specific characteristics of the data. Class-specific
characteristics are especially useful when there is a class imbalance. We
propose a new method for imputing missing data based on its class-specific
characteristics by adapting the popular Conditional Generative Adversarial
Networks (CGAN). Our Conditional Generative Adversarial Imputation Network
(CGAIN) imputes the missing data using class-specific distributions, which can
produce the best estimates for the missing values. We tested our approach on
benchmark datasets and achieved superior performance compared with the
state-of-the-art and popular imputation approaches.
- Abstract(参考訳): データ不足は、現実のデータセットで直面する一般的な問題である。
インプテーションはデータの欠落を推定するのに広く使われている手法である。
GAIN(Generative Adversarial Imputation Nets)のような最先端の計算手法は、観測データの分布をモデル化し、欠落した値を近似する。
このようなアプローチは通常、データセット全体の単一ディストリビューションをモデル化します。
クラス固有の特徴は、クラス不均衡がある場合に特に有用である。
本研究では,cgan(popular conditional generative adversarial networks)を応用し,クラス固有の特徴に基づく欠落データを示唆する新しい手法を提案する。
CGAIN(Conditional Generative Adversarial Imputation Network)は、クラス固有の分布を用いて欠落したデータをインプットし、欠落した値に対して最適な推定値を生成する。
提案手法をベンチマークデータセットで検証し,最新かつ一般的な計算手法と比較して優れた性能を示した。
関連論文リスト
- Classification of datasets with imputed missing values: does imputation
quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:58:03Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Graph-LDA: Graph Structure Priors to Improve the Accuracy in Few-Shot
Classification [6.037383467521294]
本稿では、2つのノイズ源で観測されたクラス信号が劣化することが想定されるジェネリックモデルを提案する。
このような信号を分類する最適な手法を導出する。
この手法には単一のパラメータが含まれており、利用可能なデータが不足している場合に特に適している。
論文 参考訳(メタデータ) (2021-08-23T21:55:45Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - IFGAN: Missing Value Imputation using Feature-specific Generative
Adversarial Networks [14.714106979097222]
本論文では,GAN(Feature-specific Generative Adversarial Networks)に基づく欠落値インピーダンスアルゴリズムIFGANを提案する。
特徴特異的生成器は欠落した値を誘発するように訓練され、判別器は観測された値と区別することが期待される。
IFGANは、様々な不足条件下で、現在の最先端アルゴリズムよりも優れている実生活データセットを実証的に示す。
論文 参考訳(メタデータ) (2020-12-23T10:14:35Z) - PC-GAIN: Pseudo-label Conditional Generative Adversarial Imputation
Networks for Incomplete Data [19.952411963344556]
PC-GAIN(PC-GAIN)は、PC-GAIN(PC-GAIN)と呼ばれる新しい教師なしデータ計算法である。
まず,低損失率データのサブセットに含まれる潜在的なカテゴリ情報を学習するための事前学習手順を提案する。
そして、合成擬似ラベルを用いて補助分類器を決定する。
論文 参考訳(メタデータ) (2020-11-16T08:08:26Z) - Extended Missing Data Imputation via GANs for Ranking Applications [5.2710726359379265]
Conditional Imputation GANは、GAN(Generative Adversarial Networks)に基づく拡張欠落データ計算手法である。
提案手法は,EMAR(Extended Always Missing At Random)とEMAR(Extended Always Missing At Random)のメカニズムに対して,単純なMCARを超越した最適GAN計算を実現する。
論文 参考訳(メタデータ) (2020-11-04T01:15:41Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z) - Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition
from a Domain Adaptation Perspective [98.70226503904402]
現実世界のオブジェクトの周波数は、しばしば電力法則に従い、長い尾のクラス分布を持つデータセット間のミスマッチを引き起こす。
メタラーニング手法を用いて,クラス条件分布の違いを明示的に推定し,古典的なクラスバランス学習を強化することを提案する。
論文 参考訳(メタデータ) (2020-03-24T11:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。