論文の概要: Rebalancing the Scales: A Systematic Mapping Study of Generative Adversarial Networks (GANs) in Addressing Data Imbalance
- arxiv url: http://arxiv.org/abs/2502.16535v1
- Date: Sun, 23 Feb 2025 11:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:14.297882
- Title: Rebalancing the Scales: A Systematic Mapping Study of Generative Adversarial Networks (GANs) in Addressing Data Imbalance
- Title(参考訳): スケールの再バランス:データ不均衡に対処するGAN(Generative Adversarial Networks)の体系的マッピング
- Authors: Pankaj Yadav, Gulshan Sihag, Vivek Vijay,
- Abstract要約: Generative Adrial Networks (GANs) は、高品質な合成データを生成するデータ前処理技術として大きな可能性を示した。
本研究では、4つのデジタルライブラリから得られる不均衡なデータに対して、GANに基づくサンプリング手法に関する3041の論文を体系的なマッピング手法を用いて分析する。
包括的定量的分析を通じて、データの不均衡の性質を扱うために、アプリケーションドメイン、GAN技術、およびGAN変種として3つの分類写像を導入する。
- 参考スコア(独自算出の注目度): 0.16385815610837165
- License:
- Abstract: Machine learning algorithms are used in diverse domains, many of which face significant challenges due to data imbalance. Studies have explored various approaches to address the issue, like data preprocessing, cost-sensitive learning, and ensemble methods. Generative Adversarial Networks (GANs) showed immense potential as a data preprocessing technique that generates good quality synthetic data. This study employs a systematic mapping methodology to analyze 3041 papers on GAN-based sampling techniques for imbalanced data sourced from four digital libraries. A filtering process identified 100 key studies spanning domains such as healthcare, finance, and cybersecurity. Through comprehensive quantitative analysis, this research introduces three categorization mappings as application domains, GAN techniques, and GAN variants used to handle the imbalanced nature of the data. GAN-based over-sampling emerges as an effective preprocessing method. Advanced architectures and tailored frameworks helped GANs to improve further in the case of data imbalance. GAN variants like vanilla GAN, CTGAN, and CGAN show great adaptability in structured imbalanced data cases. Interest in GANs for imbalanced data has grown tremendously, touching a peak in recent years, with journals and conferences playing crucial roles in transmitting foundational theories and practical applications. While with these advances, none of the reviewed studies explicitly explore hybridized GAN frameworks with diffusion models or reinforcement learning techniques. This gap leads to a future research idea develop innovative approaches for effectively handling data imbalance.
- Abstract(参考訳): 機械学習アルゴリズムは多様なドメインで使われており、その多くはデータの不均衡のために重大な課題に直面している。
研究は、データ前処理、コスト感受性学習、アンサンブル手法など、この問題に対処するための様々なアプローチを探求してきた。
GAN(Generative Adversarial Networks)は、高品質な合成データを生成するデータ前処理技術として大きな可能性を示した。
本研究では、4つのデジタルライブラリから得られる不均衡なデータに対して、GANに基づくサンプリング手法に関する3041の論文を体系的なマッピング手法を用いて分析する。
フィルタリングプロセスでは、医療、金融、サイバーセキュリティといった分野にまたがる100の重要研究が特定された。
包括的定量的分析を通じて、データの不均衡の性質を扱うために、アプリケーションドメイン、GAN技術、およびGAN変種として3つの分類写像を導入する。
GANベースのオーバーサンプリングは、効果的な前処理方法として現れる。
高度なアーキテクチャと調整されたフレームワークは、GANがデータ不均衡の場合にさらに改善するのに役立つ。
バニラGAN、CTGAN、CGANのようなGANの変種は、構造化された不均衡なデータケースに非常に適応性を示す。
不均衡なデータに対するGANの関心は、近年ピークを迎え、基礎理論や実践的応用を伝達する上で重要な役割を果たすジャーナルやカンファレンスなど、急速に高まっている。
これらの進歩とともに、レビューされた研究のどれも、拡散モデルや強化学習技術を用いたハイブリッド化GANフレームワークを明示的に探求していない。
このギャップは、データ不均衡を効果的に処理するための革新的なアプローチを開発する将来の研究アイデアにつながります。
関連論文リスト
- Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Towards Understanding How Data Augmentation Works with Imbalanced Data [17.478900028887537]
本稿では,データ拡張が3つの異なる分類器,畳み込みニューラルネットワーク,サポートベクトルマシン,ロジスティック回帰モデルに与える影響について検討する。
本研究は,不均衡データに適用した場合,モデル重み,サポートベクトル,特徴選択に大きな変化が生じることを示す。
DAはデータの分散を促進することによって機能し、機械学習モデルがデータの変化とラベルを関連付けることができる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-04-12T15:01:22Z) - Distributed Traffic Synthesis and Classification in Edge Networks: A
Federated Self-supervised Learning Approach [83.2160310392168]
本稿では,多数の異種データセット上での自動トラフィック解析と合成を支援するFS-GANを提案する。
FS-GANは複数の分散ジェネレーティブ・アドバイサル・ネットワーク(GAN)から構成される
FS-GANは未知のサービスのデータを分類し、未知のタイプのトラフィック分布をキャプチャする合成サンプルを作成する。
論文 参考訳(メタデータ) (2023-02-01T03:23:11Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Imbalanced data preprocessing techniques utilizing local data
characteristics [2.28438857884398]
データ不均衡は、異なるクラスから来るトレーニング観察の数の間の不均衡である。
この論文の焦点は、新しいデータ再サンプリング戦略の開発である。
論文 参考訳(メタデータ) (2021-11-28T11:48:26Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - On the Fairness of Generative Adversarial Networks (GANs) [1.061960673667643]
GAN(Generative adversarial Network)は、近年のAIの最大の進歩の1つです。
本稿では,GANモデルの公平性に関する問題を分析し,強調する。
論文 参考訳(メタデータ) (2021-03-01T12:25:01Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - Mitigating Dataset Imbalance via Joint Generation and Classification [17.57577266707809]
教師付きディープラーニング手法は、コンピュータビジョンの多くの実践的応用において大きな成功を収めている。
バイアスや不均衡データに対する顕著な性能劣化は、これらの手法の信頼性に疑問を投げかける。
ニューラルネットワーク分類器とGAN(Generative Adversarial Networks)を組み合わせた共同データセット修復戦略を提案する。
重度のクラス不均衡に対する分類器とGANの堅牢性向上に寄与することを示す。
論文 参考訳(メタデータ) (2020-08-12T18:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。