論文の概要: Gender Biases in Automatic Evaluation Metrics for Image Captioning
- arxiv url: http://arxiv.org/abs/2305.14711v3
- Date: Fri, 3 Nov 2023 00:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 17:53:42.503562
- Title: Gender Biases in Automatic Evaluation Metrics for Image Captioning
- Title(参考訳): 画像キャプションの自動評価尺度におけるジェンダーバイアス
- Authors: Haoyi Qiu, Zi-Yi Dou, Tianlu Wang, Asli Celikyilmaz, Nanyun Peng
- Abstract要約: 画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 87.15170977240643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based evaluation metrics (e.g., CLIPScore and GPTScore) have
demonstrated decent correlations with human judgments in various language
generation tasks. However, their impact on fairness remains largely unexplored.
It is widely recognized that pretrained models can inadvertently encode
societal biases, thus employing these models for evaluation purposes may
inadvertently perpetuate and amplify biases. For example, an evaluation metric
may favor the caption "a woman is calculating an account book" over "a man is
calculating an account book," even if the image only shows male accountants. In
this paper, we conduct a systematic study of gender biases in model-based
automatic evaluation metrics for image captioning tasks. We start by curating a
dataset comprising profession, activity, and object concepts associated with
stereotypical gender associations. Then, we demonstrate the negative
consequences of using these biased metrics, including the inability to
differentiate between biased and unbiased generations, as well as the
propagation of biases to generation models through reinforcement learning.
Finally, we present a simple and effective way to mitigate the metric bias
without hurting the correlations with human judgments. Our dataset and
framework lay the foundation for understanding the potential harm of
model-based evaluation metrics, and facilitate future works to develop more
inclusive evaluation metrics.
- Abstract(参考訳): モデルに基づく評価指標(例えば、CLIPScoreとGPTScore)は、様々な言語生成タスクにおける人間の判断と十分な相関を示す。
しかし、フェアネスへの影響はほとんど未解明のままである。
事前訓練されたモデルは社会バイアスを不注意にエンコードできるため、評価目的にこれらのモデルを使用することでバイアスを不注意に持続し、増幅することができると広く認識されている。
例えば、評価基準は、画像が男性会計士のみを示す場合であっても、「男性が会計帳を計算している」というキャプションを「男性が会計帳を計算している」よりも好むことがある。
本稿では,画像キャプションタスクのためのモデルベース自動評価尺度における性別バイアスの体系的研究を行う。
まず、ステレオタイプのジェンダーアソシエーションに関連する職業、活動、および対象概念からなるデータセットをキュレートすることから始める。
そして、これらのバイアス付き指標を用いて、バイアス付き世代とバイアスなし世代を区別できないことや、強化学習による世代モデルへのバイアスの伝播など、負の結果を示す。
最後に,人間の判断との相関を損なうことなく,簡易かつ効果的な距離バイアス軽減手法を提案する。
我々のデータセットとフレームワークは、モデルに基づく評価指標の潜在的な害を理解し、より包括的な評価指標を開発するための将来の作業を促進する基盤を築いた。
関連論文リスト
- Identifying and examining machine learning biases on Adult dataset [0.7856362837294112]
この研究は、エンサンブルラーニングによる機械学習モデルバイアスの低減を念頭に置いている。
我々の厳密な方法論は、様々なカテゴリー変数にまたがる偏見を包括的に評価し、最終的に顕著な男女属性偏見を明らかにします。
本研究は,データ駆動型社会における倫理的考察とハイブリッドモデルの実現を提唱する。
論文 参考訳(メタデータ) (2023-10-13T19:41:47Z) - Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic
Contrast Sets [52.77024349608834]
視覚言語モデルは、インターネットから未計算の画像テキストペアの事前トレーニング中に学んだ社会的バイアスを永続し、増幅することができる。
COCO Captionsは、背景コンテキストとその場にいる人々の性別間のバイアスを評価するために最も一般的に使用されるデータセットである。
本研究では,COCOデータセットを男女バランスの取れたコントラストセットで拡張する新しいデータセットデバイアスパイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:18Z) - Is Your Model "MADD"? A Novel Metric to Evaluate Algorithmic Fairness
for Predictive Student Models [0.0]
本稿では,モデルの識別行動を分析するために,モデル絶対密度距離(MADD)を提案する。
オンライン授業における学生の成功を予測するための共通課題に対するアプローチを,いくつかの共通予測分類モデルを用いて評価した。
論文 参考訳(メタデータ) (2023-05-24T16:55:49Z) - Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition [4.336779198334903]
人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。
我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。
この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-28T11:04:18Z) - Choose Your Lenses: Flaws in Gender Bias Evaluation [29.16221451643288]
ジェンダーバイアス評価の現在のパラダイムを評価し、その中のいくつかの欠陥を同定する。
まず、あるタスクにおけるモデルのパフォーマンスがジェンダーによってどのように影響を受けるかを測定する、外在バイアス指標の重要性を強調する。
第二に、データセットとメトリクスが頻繁に結合されていることを発見し、それらの結合がいかにして信頼できる結論を得る能力を妨げているかについて議論する。
論文 参考訳(メタデータ) (2022-10-20T17:59:55Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。