論文の概要: Tackling Diverse Minorities in Imbalanced Classification
- arxiv url: http://arxiv.org/abs/2308.14838v1
- Date: Mon, 28 Aug 2023 18:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 16:57:38.807254
- Title: Tackling Diverse Minorities in Imbalanced Classification
- Title(参考訳): 不均衡分類における多様なマイノリティに取り組む
- Authors: Kwei-Herng Lai, Daochen Zha, Huiyuan Chen, Mangesh Bendre, Yuzhong
Chen, Mahashweta Das, Hao Yang, Xia Hu
- Abstract要約: 不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
- 参考スコア(独自算出の注目度): 80.78227787608714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imbalanced datasets are commonly observed in various real-world applications,
presenting significant challenges in training classifiers. When working with
large datasets, the imbalanced issue can be further exacerbated, making it
exceptionally difficult to train classifiers effectively. To address the
problem, over-sampling techniques have been developed to linearly interpolating
data instances between minorities and their neighbors. However, in many
real-world scenarios such as anomaly detection, minority instances are often
dispersed diversely in the feature space rather than clustered together.
Inspired by domain-agnostic data mix-up, we propose generating synthetic
samples iteratively by mixing data samples from both minority and majority
classes. It is non-trivial to develop such a framework, the challenges include
source sample selection, mix-up strategy selection, and the coordination
between the underlying model and mix-up strategies. To tackle these challenges,
we formulate the problem of iterative data mix-up as a Markov decision process
(MDP) that maps data attributes onto an augmentation strategy. To solve the
MDP, we employ an actor-critic framework to adapt the discrete-continuous
decision space. This framework is utilized to train a data augmentation policy
and design a reward signal that explores classifier uncertainty and encourages
performance improvement, irrespective of the classifier's convergence. We
demonstrate the effectiveness of our proposed framework through extensive
experiments conducted on seven publicly available benchmark datasets using
three different types of classifiers. The results of these experiments showcase
the potential and promise of our framework in addressing imbalanced datasets
with diverse minorities.
- Abstract(参考訳): 不均衡データセットは、様々な現実世界のアプリケーションで一般的に観察され、分類器の訓練において重大な課題を示す。
大きなデータセットを扱う場合、不均衡な問題はさらに悪化し、分類器を効果的に訓練することは極めて困難である。
この問題に対処するため、マイノリティと近隣住民の間でデータインスタンスを線形に補間するオーバーサンプリング技術が開発されている。
しかし、異常検出のような現実世界の多くのシナリオでは、少数インスタンスは一緒にクラスタ化されるのではなく、特徴空間内で多様に分散されることが多い。
ドメインに依存しないデータ混合に着想を得て,少数クラスと多数クラスのデータサンプルを混合することにより,反復的に合成サンプルを生成することを提案する。
このようなフレームワークを開発するのは自明ではなく、ソースサンプルの選択、ミックスアップ戦略の選択、基盤となるモデルとミックスアップ戦略の調整といった課題がある。
これらの課題に対処するために、データ属性を拡張戦略にマッピングするマルコフ決定プロセス(MDP)として反復データ混合の問題を定式化する。
MDPの解決には,個別連続決定空間に適応するためにアクター批判フレームワークを用いる。
このフレームワークは、データ拡張ポリシーをトレーニングし、分類器の不確実性を探究し、分類器の収束に関係なく性能改善を促進する報奨信号の設計に使用される。
3種類の分類器を用いて、7つの公開ベンチマークデータセット上で広範な実験を行い,提案フレームワークの有効性を実証した。
これらの実験の結果は、多様なマイノリティを持つ不均衡データセットに対処するためのフレームワークの可能性と可能性を示しています。
関連論文リスト
- FedMAC: Tackling Partial-Modality Missing in Federated Learning with Cross-Modal Aggregation and Contrastive Regularization [11.954904313477176]
Federated Learning(FL)は、分散データソースを使用して機械学習モデルをトレーニングする手法である。
本研究ではFedMACという新しいフレームワークを提案し,FLに欠落した部分モダリティ条件下でのマルチモダリティの解消を図った。
論文 参考訳(メタデータ) (2024-10-04T01:24:02Z) - Confronting Discrimination in Classification: Smote Based on
Marginalized Minorities in the Kernel Space for Imbalanced Data [0.0]
決定境界とサンプル近接関係に基づく新しい分類オーバーサンプリング手法を提案する。
提案手法を古典的金融詐欺データセットで検証する。
論文 参考訳(メタデータ) (2024-02-13T04:03:09Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks [0.1074267520911262]
不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
本稿では,Deep Neural Networks(DNN)とConvolutional Neural Networks(CNN)に基づく手法の有効性を検討する。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
論文 参考訳(メタデータ) (2022-09-01T07:42:16Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Imbalanced Data Learning by Minority Class Augmentation using Capsule
Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。
我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。
カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文 参考訳(メタデータ) (2020-04-05T12:36:06Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。