論文の概要: Auditing for Diversity using Representative Examples
- arxiv url: http://arxiv.org/abs/2107.07393v1
- Date: Thu, 15 Jul 2021 15:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:07:12.436894
- Title: Auditing for Diversity using Representative Examples
- Title(参考訳): 代表例を用いた多様性の監査
- Authors: Vijay Keswani and L. Elisa Celis
- Abstract要約: 本稿では,ラベルのないデータセットの相違を近似する費用対効果のアプローチを提案する。
提案アルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を利用して近似を効果的にブートストラップする。
本稿では,データセットのサイズよりもはるかに小さい制御セットを用いることで,近似誤差を小さく抑えることができることを示す。
- 参考スコア(独自算出の注目度): 17.016881905579044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing the diversity of a dataset of information associated with people is
crucial before using such data for downstream applications. For a given
dataset, this often involves computing the imbalance or disparity in the
empirical marginal distribution of a protected attribute (e.g. gender, dialect,
etc.). However, real-world datasets, such as images from Google Search or
collections of Twitter posts, often do not have protected attributes labeled.
Consequently, to derive disparity measures for such datasets, the elements need
to hand-labeled or crowd-annotated, which are expensive processes.
We propose a cost-effective approach to approximate the disparity of a given
unlabeled dataset, with respect to a protected attribute, using a control set
of labeled representative examples. Our proposed algorithm uses the pairwise
similarity between elements in the dataset and elements in the control set to
effectively bootstrap an approximation to the disparity of the dataset.
Importantly, we show that using a control set whose size is much smaller than
the size of the dataset is sufficient to achieve a small approximation error.
Further, based on our theoretical framework, we also provide an algorithm to
construct adaptive control sets that achieve smaller approximation errors than
randomly chosen control sets. Simulations on two image datasets and one Twitter
dataset demonstrate the efficacy of our approach (using random and adaptive
control sets) in auditing the diversity of a wide variety of datasets.
- Abstract(参考訳): 下流アプリケーションでこのようなデータを使用する前に、人々に関連する情報のデータセットの多様性を評価することが重要である。
与えられたデータセットに対して、これはしばしば保護された属性(例えば、)の経験的限界分布の不均衡や不均衡を計算する。
性別、方言など)。
しかし、Google検索の画像やTwitter投稿のコレクションのような現実世界のデータセットは、しばしば保護属性をラベル付けしていない。
したがって、このようなデータセットの格差を導出するためには、高価なプロセスである手書きまたはクラウドアノテートされた要素が必要である。
本稿では、ラベル付き代表例の制御セットを用いて、保護属性に対するラベル付きデータセットの相違を近似するコスト効率のよいアプローチを提案する。
提案するアルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を用いて,データセットの差異に対する近似を効果的にブートストラップする。
重要となるのは,データセットのサイズよりもサイズがはるかに小さい制御セットを使用することで,近似誤差を小さくできることを示すことである。
さらに,本理論の枠組みに基づき,ランダムに選択した制御集合よりも近似誤差が小さい適応制御集合を構築するアルゴリズムを提案する。
2つの画像データセットと1つのtwitterデータセットのシミュレーションは、さまざまなデータセットの多様性を監査する上で、このアプローチ(ランダムおよび適応制御セットを使用)の有効性を示しています。
関連論文リスト
- Diversity Measurement and Subset Selection for Instruction Tuning
Datasets [40.930387018872786]
決定点プロセスを用いて、サブセット選択のための命令チューニングデータセットの多様性と品質をキャプチャする。
興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。
論文 参考訳(メタデータ) (2024-02-04T02:09:43Z) - Affinity Clustering Framework for Data Debiasing Using Pairwise
Distribution Discrepancy [10.184056098238765]
グループ不均衡(グループ不均衡)は、データセットにおける表現バイアスの主要な原因である。
本稿では、アフィニティクラスタリングを利用して、ターゲットデータセットの非保護および保護されたグループの表現のバランスをとるデータ拡張手法であるMASCを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:18:20Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Capturing patterns of variation unique to a specific dataset [68.8204255655161]
対象データセットの1つ以上の比較データセットに対する低次元表現を同定するチューニングフリー手法を提案する。
複数の実験で、単一のバックグラウンドデータセットを持つUCAが、様々なチューニングパラメータを持つcPCAと同じような結果を達成することを示しました。
論文 参考訳(メタデータ) (2021-04-16T15:07:32Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。