論文の概要: Affinity Clustering Framework for Data Debiasing Using Pairwise
Distribution Discrepancy
- arxiv url: http://arxiv.org/abs/2306.01699v1
- Date: Fri, 2 Jun 2023 17:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 14:04:58.760358
- Title: Affinity Clustering Framework for Data Debiasing Using Pairwise
Distribution Discrepancy
- Title(参考訳): Pairwise Distribution Disrepancy を用いたデータデバイアスのための親和性クラスタリングフレームワーク
- Authors: Siamak Ghodsi, and Eirini Ntoutsi
- Abstract要約: グループ不均衡(グループ不均衡)は、データセットにおける表現バイアスの主要な原因である。
本稿では、アフィニティクラスタリングを利用して、ターゲットデータセットの非保護および保護されたグループの表現のバランスをとるデータ拡張手法であるMASCを提案する。
- 参考スコア(独自算出の注目度): 10.184056098238765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group imbalance, resulting from inadequate or unrepresentative data
collection methods, is a primary cause of representation bias in datasets.
Representation bias can exist with respect to different groups of one or more
protected attributes and might lead to prejudicial and discriminatory outcomes
toward certain groups of individuals; in cases where a learning model is
trained on such biased data. This paper presents MASC, a data augmentation
approach that leverages affinity clustering to balance the representation of
non-protected and protected groups of a target dataset by utilizing instances
of the same protected attributes from similar datasets that are categorized in
the same cluster as the target dataset by sharing instances of the protected
attribute. The proposed method involves constructing an affinity matrix by
quantifying distribution discrepancies between dataset pairs and transforming
them into a symmetric pairwise similarity matrix. A non-parametric spectral
clustering is then applied to this affinity matrix, automatically categorizing
the datasets into an optimal number of clusters. We perform a step-by-step
experiment as a demo of our method to show the procedure of the proposed data
augmentation method and evaluate and discuss its performance. A comparison with
other data augmentation methods, both pre- and post-augmentation, is conducted,
along with a model evaluation analysis of each method. Our method can handle
non-binary protected attributes so, in our experiments, bias is measured in a
non-binary protected attribute setup w.r.t. racial groups distribution for two
separate minority groups in comparison with the majority group before and after
debiasing. Empirical results imply that our method of augmenting dataset biases
using real (genuine) data from similar contexts can effectively debias the
target datasets comparably to existing data augmentation strategies.
- Abstract(参考訳): グループ不均衡(グループ不均衡)は、データセットにおける表現バイアスの主要な原因である。
表現バイアスは1つ以上の保護された属性の異なるグループに対して存在し、特定の個人のグループに対して偏見的および差別的な結果をもたらす可能性がある。
本稿では,保護された属性のインスタンスを共有することによって,同じクラスタで分類された類似データセットから保護された属性のインスタンスを活用し,対象データセットの非保護型および保護型グループ表現のバランスをとるために,親和性クラスタリングを利用するデータ拡張手法であるmascを提案する。
提案手法は,データセット対間の分布差を定量化し,対称なペアワイズ類似性行列に変換することで,親和性行列を構築することを含む。
このアフィニティマトリックスには非パラメトリックスペクトルクラスタリングが適用され、データセットを最適なクラスタに自動的に分類する。
本手法のデモとして,提案手法の手順を示し,その性能評価と議論を行うためのステップバイステップ実験を行った。
各手法のモデル評価解析とともに,事前および後増分法と他のデータ増分法との比較を行った。
本手法は,非バイナリ保護属性を扱えるため,非バイナリ保護属性設定w.r.t.人種集団分布において,非バイナリ保護属性をデバイアス前後の多数派と比較し,バイアスを測定できる。
実験結果から,類似したコンテキストから実(生成)データを用いてデータセットバイアスを増大させる手法は,既存のデータ拡張戦略と同等にターゲットデータセットの偏りを効果的に解消できることが示唆された。
関連論文リスト
- A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - GroupMixNorm Layer for Learning Fair Models [4.324785083027206]
本研究では,ディープラーニングモデルからバイアスを緩和するための,内部処理に基づく新しいGroupMixNorm層を提案する。
提案手法は,全体の精度に最小限の影響を伴って,いくつかの公正度測定値を改善する。
論文 参考訳(メタデータ) (2023-12-19T09:04:26Z) - Group-blind optimal transport to group parity and its constrained
variants [7.92637080020358]
我々は、ソースデータ中の両方のグループの特徴分布を整列する単一のグループ盲投影マップを設計する。
情報源データは人口の偏りのない表現であると仮定する。
合成データと実データについて数値的な結果を示す。
論文 参考訳(メタデータ) (2023-10-17T17:14:07Z) - Leveraging Structure for Improved Classification of Grouped Biased Data [8.121462458089143]
データポイントが自然にグループ化されるアプリケーションに対する半教師付きバイナリ分類を検討する。
我々は、この構造を明示的に活用し、最適、グループ対応、確率出力の分類器を学習する半教師付きアルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-12-07T15:18:21Z) - Inv-SENnet: Invariant Self Expression Network for clustering under
biased data [17.25929452126843]
本研究では,各サブ空間におけるデータポイントのクラスタ化を学習しながら,不要な属性(バイアス)を共同で除去する新しいフレームワークを提案する。
合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-11-13T01:19:06Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Auditing for Diversity using Representative Examples [17.016881905579044]
本稿では,ラベルのないデータセットの相違を近似する費用対効果のアプローチを提案する。
提案アルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を利用して近似を効果的にブートストラップする。
本稿では,データセットのサイズよりもはるかに小さい制御セットを用いることで,近似誤差を小さく抑えることができることを示す。
論文 参考訳(メタデータ) (2021-07-15T15:21:17Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。