論文の概要: Choose Your Lenses: Flaws in Gender Bias Evaluation
- arxiv url: http://arxiv.org/abs/2210.11471v1
- Date: Thu, 20 Oct 2022 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:43:11.710634
- Title: Choose Your Lenses: Flaws in Gender Bias Evaluation
- Title(参考訳): レンズを選ぶ - 性別バイアス評価の欠陥
- Authors: Hadas Orgad and Yonatan Belinkov
- Abstract要約: ジェンダーバイアス評価の現在のパラダイムを評価し、その中のいくつかの欠陥を同定する。
まず、あるタスクにおけるモデルのパフォーマンスがジェンダーによってどのように影響を受けるかを測定する、外在バイアス指標の重要性を強調する。
第二に、データセットとメトリクスが頻繁に結合されていることを発見し、それらの結合がいかにして信頼できる結論を得る能力を妨げているかについて議論する。
- 参考スコア(独自算出の注目度): 29.16221451643288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Considerable efforts to measure and mitigate gender bias in recent years have
led to the introduction of an abundance of tasks, datasets, and metrics used in
this vein. In this position paper, we assess the current paradigm of gender
bias evaluation and identify several flaws in it. First, we highlight the
importance of extrinsic bias metrics that measure how a model's performance on
some task is affected by gender, as opposed to intrinsic evaluations of model
representations, which are less strongly connected to specific harms to people
interacting with systems. We find that only a few extrinsic metrics are
measured in most studies, although more can be measured. Second, we find that
datasets and metrics are often coupled, and discuss how their coupling hinders
the ability to obtain reliable conclusions, and how one may decouple them. We
then investigate how the choice of the dataset and its composition, as well as
the choice of the metric, affect bias measurement, finding significant
variations across each of them. Finally, we propose several guidelines for more
reliable gender bias evaluation.
- Abstract(参考訳): 近年、性別バイアスを計測し緩和するための重要な取り組みは、この領域で使われるタスク、データセット、メトリクスを大量に導入することにつながっている。
本稿では,ジェンダーバイアス評価の現在のパラダイムを評価し,その欠陥をいくつか同定する。
まず、あるタスクにおけるモデルのパフォーマンスが、システムと相互作用する人々に対する特定の害に強く関係しないモデル表現の本質的な評価とは対照的に、あるタスクにおけるモデルのパフォーマンスが、ジェンダーによってどのように影響を受けるかを測定する外部バイアス指標の重要性を強調する。
ほとんどの研究で測定できるのはごくわずかだが、測定できるものは限られている。
第2に、データセットとメトリクスがしばしば結合していることを発見し、それらの結合が信頼できる結論を得る能力をどのように阻害するか、どのように分離するかを議論する。
次に、データセットの選択とその構成、およびメトリクスの選択がバイアス測定にどのように影響するかを調べ、それらのそれぞれに有意な変化を見出す。
最後に,より信頼性の高いジェンダーバイアス評価のためのガイドラインを提案する。
関連論文リスト
- Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。
顔認識システムの運用評価に焦点をあて,適用する。
論文 参考訳(メタデータ) (2024-09-03T14:19:38Z) - As Biased as You Measure: Methodological Pitfalls of Bias Evaluations in Speaker Verification Research [15.722009470067974]
本研究では,測定がバイアス評価の結果に与える影響について検討する。
偏見評価は,評価基準値に強く影響されていることを示す。
以上の結果から,比に基づく偏差測定の活用を推奨する。
論文 参考訳(メタデータ) (2024-08-24T16:04:51Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - MABEL: Attenuating Gender Bias using Textual Entailment Data [20.489427903240017]
我々は、文脈化表現における性別バイアスを軽減するための中間的事前学習手法であるMABELを提案する。
このアプローチの鍵となるのは、非現実的に強化されたジェンダーバランスのエンターメントペアに対して、対照的な学習目標を使用することである。
我々はMABELが従来のタスク非依存のデバイアスアプローチよりも公平性で優れていることを示す。
論文 参考訳(メタデータ) (2022-10-26T18:36:58Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Evaluating Metrics for Bias in Word Embeddings [44.14639209617701]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z) - Intrinsic Bias Metrics Do Not Correlate with Application Bias [12.588713044749179]
本研究は, 測定容易な内在的指標が実世界の外在的指標とよく相関するかどうかを検討する。
異なるタスクと実験条件をカバーする数百のトレーニングモデルに対して,内在バイアスと外部バイアスの両方を測定した。
埋め込みスペースのデビア化の取り組みは、常に下流モデルバイアスの測定とペアリングされることを推奨し、追加のチャレンジセットと注釈付きテストデータの作成を通じて下流測定をより実現可能にするためのコミュニティの努力を高めることを提案します。
論文 参考訳(メタデータ) (2020-12-31T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。