論文の概要: Balanced Filtering via Non-Disclosive Proxies
- arxiv url: http://arxiv.org/abs/2306.15083v1
- Date: Mon, 26 Jun 2023 21:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 15:29:55.934282
- Title: Balanced Filtering via Non-Disclosive Proxies
- Title(参考訳): 非開示プロキシによる平衡フィルタ
- Authors: Siqi Deng, Emily Diana, Michael Kearns, Aaron Roth
- Abstract要約: 収集機構は、基準レートだけでは確認できないほど、個々のサンプルのグループメンバシップについてはあまり明らかにしない。
アルゴリズム的な仮定では、そのようなプロキシはサンプルとオラクルの効率のよい方法で見つかることが示される。
- 参考スコア(独自算出の注目度): 10.72315083265869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of non-disclosively collecting a sample of data that is
balanced with respect to sensitive groups when group membership is unavailable
or prohibited from use at collection time. Specifically, our collection
mechanism does not reveal significantly more about group membership of any
individual sample than can be ascertained from base rates alone. To do this, we
adopt a fairness pipeline perspective, in which a learner can use a small set
of labeled data to train a proxy function that can later be used for this
filtering task. We then associate the range of the proxy function with sampling
probabilities; given a new candidate, we classify it using our proxy function,
and then select it for our sample with probability proportional to the sampling
probability corresponding to its proxy classification. Importantly, we require
that the proxy classification itself not reveal significant information about
the sensitive group membership of any individual sample (i.e., it should be
sufficiently non-disclosive). We show that under modest algorithmic
assumptions, we find such a proxy in a sample- and oracle-efficient manner.
Finally, we experimentally evaluate our algorithm and analyze generalization
properties.
- Abstract(参考訳): グループメンバーシップが利用できない場合や、収集時に使用できない場合、センシティブなグループに対してバランスの取れたデータのサンプルを非開示的に収集する問題について検討する。
特に,収集機構は,ベースレートのみから確認できるよりも,個々のサンプルのグループメンバシップについて明らかにしていない。
これを実現するために、学習者が小さなラベル付きデータセットを使用して、後にこのフィルタリングタスクに使用できるプロキシ関数をトレーニングできる、公正なパイプラインパースペクティブを採用しています。
次に、プロキシ関数の範囲をサンプリング確率に関連付け、新しい候補が与えられたら、プロキシ関数を使用してそれを分類し、そのプロキシ分類に対応するサンプリング確率に比例した確率でサンプルに対して選択する。
重要なことに、プロキシの分類自体が個々のサンプルの敏感なグループメンバーシップに関する重要な情報を明かさない必要がある(つまり、十分に非開示である)。
アルゴリズム的な仮定では、そのようなプロキシはサンプルとオラクルの効率のよい方法で見つかる。
最後に,本アルゴリズムを実験的に評価し,一般化特性を解析する。
関連論文リスト
- Sample size planning for conditional counterfactual mean estimation with
a K-armed randomized experiment [0.0]
K$のランダム化実験で十分なサンプルサイズを決定する方法を示す。
政策木を用いてサブグループを学習し、公開可能な大規模なランダム化実験データセットにおいて、我々の名目上の保証を評価する。
論文 参考訳(メタデータ) (2024-03-06T20:37:29Z) - Correcting Underrepresentation and Intersectional Bias for Fair
Classification [55.2480439325792]
偏見バイアスによって劣化したデータから学習する問題について考察し, 正の例を, 一定の数のセンシティブなグループに対して, 異なる未知のレートでフィルタする。
交叉群のメンバーシップが各交叉率を計算不能にするような設定であっても,少数の偏りのないデータを用いてグループワイド・ドロップアウトパラメータを効率的に推定できることが示される。
我々は,この学習と再重み付け過程をカプセル化するアルゴリズムを提案し,高い確率で真の分布に対する仮説のリスクが任意に近いことをPACスタイルの強い保証を提供する。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - False membership rate control in mixture models [1.387448620257867]
クラスタリングタスクは、サンプルの要素を均質なグループに分割する。
教師付き設定では、このアプローチはよく知られており、禁忌オプションの分類として言及されている。
本稿では, 教師なし混合モデルフレームワークで再検討し, 偽会員率が予め定義された名目レベルを超えないことを保証する手法を開発することを目的とする。
論文 参考訳(メタデータ) (2022-03-04T22:37:59Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Group Sampling for Unsupervised Person Re-identification [47.664761089768234]
グループサンプリングにより、最先端技術は2.2%6.1%向上する。
グループサンプリングにより、最先端技術は2.2%6.1%向上した。
論文 参考訳(メタデータ) (2021-07-07T05:39:58Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z) - Predicting the Accuracy of a Few-Shot Classifier [3.609538870261841]
まず,一般化性能の変動要因を解析する。
我々は,検討された分類器の一般化能力と実証的に相関する合理的な尺度を提案する。
論文 参考訳(メタデータ) (2020-07-08T16:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。