論文の概要: Weakly Supervised-Based Oversampling for High Imbalance and High
Dimensionality Data Classification
- arxiv url: http://arxiv.org/abs/2009.14096v2
- Date: Tue, 6 Oct 2020 11:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 05:36:41.372758
- Title: Weakly Supervised-Based Oversampling for High Imbalance and High
Dimensionality Data Classification
- Title(参考訳): 高不均衡・高次元データ分類のための弱監視型オーバーサンプリング
- Authors: Min Qian and Yan-Fu Li
- Abstract要約: オーバーサンプリングは、不均衡な分類を解決する効果的な方法である。
合成サンプルの不正確なラベルは、データセットの分布を歪ませる。
本稿では,合成試料の不正確なラベル付けを扱うために,弱教師付き学習を導入する。
- 参考スコア(独自算出の注目度): 2.9283685972609494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the abundance of industrial datasets, imbalanced classification has
become a common problem in several application domains. Oversampling is an
effective method to solve imbalanced classification. One of the main challenges
of the existing oversampling methods is to accurately label the new synthetic
samples. Inaccurate labels of the synthetic samples would distort the
distribution of the dataset and possibly worsen the classification performance.
This paper introduces the idea of weakly supervised learning to handle the
inaccurate labeling of synthetic samples caused by traditional oversampling
methods. Graph semi-supervised SMOTE is developed to improve the credibility of
the synthetic samples' labels. In addition, we propose cost-sensitive
neighborhood components analysis for high dimensional datasets and bootstrap
based ensemble framework for highly imbalanced datasets. The proposed method
has achieved good classification performance on 8 synthetic datasets and 3
real-world datasets, especially for high imbalance and high dimensionality
problems. The average performances and robustness are better than the benchmark
methods.
- Abstract(参考訳): 産業データセットの豊富さにより、いくつかのアプリケーション領域で不均衡な分類が一般的な問題となっている。
オーバーサンプリングは、不均衡な分類を解決する効果的な方法である。
既存のオーバーサンプリング手法の主な課題の1つは、新しい合成サンプルを正確にラベル付けることである。
合成サンプルの不正確なラベルはデータセットの分布を歪ませ、おそらく分類性能を悪化させる。
本稿では,従来のオーバーサンプリング手法による合成試料の不正確なラベル付けを扱うために,弱教師付き学習を提案する。
グラフ半教師付きSMOTEは,合成試料ラベルの信頼性を向上させるために開発された。
さらに,高次元データセットに対するコスト感受性近傍成分分析と高度不均衡データセットに対するブートストラップに基づくアンサンブルフレームワークを提案する。
提案手法は,8つの合成データセットと3つの実世界のデータセット,特に高不均衡および高次元問題に対する優れた分類性能を実現している。
平均的なパフォーマンスと堅牢性はベンチマーク手法よりも優れている。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Synthetic Information towards Maximum Posterior Ratio for deep learning
on Imbalanced Data [1.7495515703051119]
マイノリティクラスのための合成データを生成することによって,データのバランスをとる手法を提案する。
提案手法は,高エントロピーサンプルを同定することにより,情報領域のバランスを優先する。
実験結果から,提案手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2024-01-05T01:08:26Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Handling Imbalanced Data: A Case Study for Binary Class Problems [0.0]
分類問題の解決における主要な問題は、不均衡データの問題である。
本稿では,合成オーバーサンプリング技術と手動で合成データポイントを計算することで,アルゴリズムの理解を深める。
我々は,これらの合成オーバーサンプリング手法を,不均衡比とサンプルサイズが異なる二項分類問題に適用する。
論文 参考訳(メタデータ) (2020-10-09T02:04:14Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。