論文の概要: Leveraging Structure for Improved Classification of Grouped Biased Data
- arxiv url: http://arxiv.org/abs/2212.03697v1
- Date: Wed, 7 Dec 2022 15:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:23:27.726867
- Title: Leveraging Structure for Improved Classification of Grouped Biased Data
- Title(参考訳): グループ化バイアスデータの分類改善のための構造活用
- Authors: Daniel Zeiberg, Shantanu Jain, Predrag Radivojac
- Abstract要約: データポイントが自然にグループ化されるアプリケーションに対する半教師付きバイナリ分類を検討する。
我々は、この構造を明示的に活用し、最適、グループ対応、確率出力の分類器を学習する半教師付きアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 8.121462458089143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider semi-supervised binary classification for applications in which
data points are naturally grouped (e.g., survey responses grouped by state) and
the labeled data is biased (e.g., survey respondents are not representative of
the population). The groups overlap in the feature space and consequently the
input-output patterns are related across the groups. To model the inherent
structure in such data, we assume the partition-projected class-conditional
invariance across groups, defined in terms of the group-agnostic feature space.
We demonstrate that under this assumption, the group carries additional
information about the class, over the group-agnostic features, with provably
improved area under the ROC curve. Further assuming invariance of
partition-projected class-conditional distributions across both labeled and
unlabeled data, we derive a semi-supervised algorithm that explicitly leverages
the structure to learn an optimal, group-aware, probability-calibrated
classifier, despite the bias in the labeled data. Experiments on synthetic and
real data demonstrate the efficacy of our algorithm over suitable baselines and
ablative models, spanning standard supervised and semi-supervised learning
approaches, with and without incorporating the group directly as a feature.
- Abstract(参考訳): 我々は、データポイントが自然にグループ化されたアプリケーション(例えば、州によってグループ化された調査応答)に対する半教師付きバイナリ分類とラベル付きデータのバイアス(例えば、調査回答者は人口を代表していない)について検討する。
グループは特徴空間に重複し、その結果、入力出力パターンはグループ全体で関連付けられる。
このようなデータの固有の構造をモデル化するために、グループに依存しない特徴空間で定義されるグループ間の分割射影クラス条件不変性を仮定する。
この仮定の下では、群に依存しない特徴に対してクラスに関する追加情報を持ち、ROC曲線の下では確実に改善された面積を持つことを示す。
さらに、ラベル付きデータとラベル付きデータの両方にわたる分割計画型クラス条件分布の不分散を仮定し、ラベル付きデータのバイアスにもかかわらず、構造を明示的に活用して最適なグループ対応確率共役分類器を学習する半教師付きアルゴリズムを導出する。
合成および実データを用いた実験は,本アルゴリズムが標準教師付きおよび半教師付き学習アプローチにまたがって,適切なベースラインとアブレーションモデルに対して有効であることを示す。
関連論文リスト
- A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Group-blind optimal transport to group parity and its constrained variants [6.70948761466883]
我々は、ソースデータ中の両方のグループの特徴分布を整列する単一のグループ盲投影マップを設計する。
情報源データは人口の偏りのない表現であると仮定する。
合成データと実データについて数値的な結果を示す。
論文 参考訳(メタデータ) (2023-10-17T17:14:07Z) - Affinity Clustering Framework for Data Debiasing Using Pairwise
Distribution Discrepancy [10.184056098238765]
グループ不均衡(グループ不均衡)は、データセットにおける表現バイアスの主要な原因である。
本稿では、アフィニティクラスタリングを利用して、ターゲットデータセットの非保護および保護されたグループの表現のバランスをとるデータ拡張手法であるMASCを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:18:20Z) - Outlier-Robust Group Inference via Gradient Space Clustering [50.87474101594732]
既存のメソッドは、最悪のグループのパフォーマンスを改善することができるが、それらは、しばしば高価で入手できないグループアノテーションを必要とする。
モデルパラメータの勾配の空間にデータをクラスタリングすることで,アウトレーヤの存在下でグループアノテーションを学習する問題に対処する。
そこで我々は,DBSCANのような標準クラスタリング手法に適合するように,マイノリティグループや外れ値に関する情報を保存しながら,勾配空間内のデータがより単純な構造を持つことを示す。
論文 参考訳(メタデータ) (2022-10-13T06:04:43Z) - Addressing Missing Sources with Adversarial Support-Matching [8.53946780558779]
そこで本研究では,データ内の2段階階層の2段階に,データの欠如が関係しているシナリオについて検討する。
アルゴリズム的公正性から保護された群の概念に触発され、この第2階層によって彫られた分割を「部分群」と呼ぶ。
私たちは、サブグループに不変な表現を学ぶために、"deployment set"と呼ばれる追加で多様だがラベルなしのデータセットを使用します。
論文 参考訳(メタデータ) (2022-03-24T16:19:19Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。