論文の概要: Fair Oversampling Technique using Heterogeneous Clusters
- arxiv url: http://arxiv.org/abs/2305.13875v1
- Date: Tue, 23 May 2023 09:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:17:35.744424
- Title: Fair Oversampling Technique using Heterogeneous Clusters
- Title(参考訳): 不均一クラスターを用いたフェアオーバーサンプリング技術
- Authors: Ryosuke Sonoda
- Abstract要約: クラス不均衡とグループ(例えば、人種、性別、年齢)の不均衡は、機械学習分類器の公平性と有用性の間のトレードオフを妨げる2つの理由として認識される。
既存の手法は、公平なオーバーサンプリング手法を提案することによって、クラス不均衡とグループ不均衡に関する問題を共同で解決してきた。
クラス不均衡に対処する一般的なオーバーサンプリング技術とは異なり、フェアオーバーサンプリング技術はグループ不均衡にも対処できるため、上記のトレードオフを大幅に改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Class imbalance and group (e.g., race, gender, and age) imbalance are
acknowledged as two reasons in data that hinder the trade-off between fairness
and utility of machine learning classifiers. Existing techniques have jointly
addressed issues regarding class imbalance and group imbalance by proposing
fair over-sampling techniques. Unlike the common oversampling techniques, which
only address class imbalance, fair oversampling techniques significantly
improve the abovementioned trade-off, as they can also address group imbalance.
However, if the size of the original clusters is too small, these techniques
may cause classifier overfitting. To address this problem, we herein develop a
fair oversampling technique using data from heterogeneous clusters. The
proposed technique generates synthetic data that have class-mix features or
group-mix features to make classifiers robust to overfitting. Moreover, we
develop an interpolation method that can enhance the validity of generated
synthetic data by considering the original cluster distribution and data noise.
Finally, we conduct experiments on five realistic datasets and three
classifiers, and the experimental results demonstrate the effectiveness of the
proposed technique in terms of fairness and utility.
- Abstract(参考訳): クラス不均衡とグループ(例えば、人種、性別、年齢)の不均衡は、機械学習分類器の公平性と有用性の間のトレードオフを妨げる2つの理由として認識される。
既存の手法では,公平なオーバーサンプリング手法を提案することで,クラス不均衡とグループ不均衡の問題に共同で対処してきた。
クラス不均衡に対処する一般的なオーバーサンプリング技術とは異なり、フェアオーバーサンプリング技術はグループ不均衡にも対処できるため、上記のトレードオフを大幅に改善する。
しかし、元のクラスタのサイズが小さすぎると、これらのテクニックが分類器の過剰フィットを引き起こす可能性がある。
この問題に対処するため,異種クラスタのデータを用いた公平なオーバーサンプリング手法を開発した。
提案手法は,クラスミックス特徴やグループミックス特徴を有する合成データを生成し,分類器を過度に適合させる。
さらに,元のクラスタ分布とデータノイズを考慮して,生成した合成データの妥当性を高める補間法を開発した。
最後に,5つの現実的データセットと3つの分類器について実験を行い,提案手法の有効性を公平性と有用性の観点から実証した。
関連論文リスト
- Interaction-Aware Gaussian Weighting for Clustered Federated Learning [58.92159838586751]
フェデレートラーニング(FL)は、プライバシを維持しながらモデルをトレーニングするための分散パラダイムとして登場した。
本稿では,新たなクラスタリングFL法であるFedGWC(Federated Gaussian Weighting Clustering)を提案する。
ベンチマークデータセットを用いた実験により,FedGWCはクラスタの品質と分類精度において,既存のFLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-05T16:33:36Z) - Synthetic Tabular Data Generation for Class Imbalance and Fairness: A Comparative Study [4.420073761023326]
データ駆動性のため、機械学習(ML)モデルは、データから受け継がれたバイアスの影響を受けやすい。
クラス不均衡(分類対象)とグループ不均衡(性や人種のような保護された属性)はMLの有用性と公平性を損なう可能性がある。
本稿では、最先端モデルを用いて、クラスとグループの不均衡に対処する比較分析を行う。
論文 参考訳(メタデータ) (2024-09-08T20:08:09Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Learning Classifiers for Imbalanced and Overlapping Data [0.0]
この研究は、不均衡なデータを用いて分類器を誘導することである。
少数派は多数派に比例しない。
本稿では,Sparsityと呼ばれる新しい手法によるクラス不均衡をさらに最適化する。
論文 参考訳(メタデータ) (2022-10-22T13:31:38Z) - Outlier-Robust Group Inference via Gradient Space Clustering [50.87474101594732]
既存のメソッドは、最悪のグループのパフォーマンスを改善することができるが、それらは、しばしば高価で入手できないグループアノテーションを必要とする。
モデルパラメータの勾配の空間にデータをクラスタリングすることで,アウトレーヤの存在下でグループアノテーションを学習する問題に対処する。
そこで我々は,DBSCANのような標準クラスタリング手法に適合するように,マイノリティグループや外れ値に関する情報を保存しながら,勾配空間内のデータがより単純な構造を持つことを示す。
論文 参考訳(メタデータ) (2022-10-13T06:04:43Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Handling Imbalanced Data: A Case Study for Binary Class Problems [0.0]
分類問題の解決における主要な問題は、不均衡データの問題である。
本稿では,合成オーバーサンプリング技術と手動で合成データポイントを計算することで,アルゴリズムの理解を深める。
我々は,これらの合成オーバーサンプリング手法を,不均衡比とサンプルサイズが異なる二項分類問題に適用する。
論文 参考訳(メタデータ) (2020-10-09T02:04:14Z) - Weakly Supervised-Based Oversampling for High Imbalance and High
Dimensionality Data Classification [2.9283685972609494]
オーバーサンプリングは、不均衡な分類を解決する効果的な方法である。
合成サンプルの不正確なラベルは、データセットの分布を歪ませる。
本稿では,合成試料の不正確なラベル付けを扱うために,弱教師付き学習を導入する。
論文 参考訳(メタデータ) (2020-09-29T15:26:34Z) - Progressive Cluster Purification for Unsupervised Feature Learning [48.87365358296371]
教師なしの特徴学習では、サンプル特異性に基づく手法はクラス間の情報を無視する。
本稿では,プログレッシブクラスタ形成時にクラス不整合サンプルを除外するクラスタリングに基づく新しい手法を提案する。
我々の手法は、プログレッシブ・クラスタ・パーフィケーション(PCP)と呼ばれ、訓練中に徐々にクラスタ数を減らし、プログレッシブ・クラスタリングを実装している。
論文 参考訳(メタデータ) (2020-07-06T08:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。