論文の概要: Gender Biases in Automatic Evaluation Metrics: A Case Study on Image
Captioning
- arxiv url: http://arxiv.org/abs/2305.14711v1
- Date: Wed, 24 May 2023 04:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:50:49.453929
- Title: Gender Biases in Automatic Evaluation Metrics: A Case Study on Image
Captioning
- Title(参考訳): 自動評価指標におけるジェンダーバイアス:画像キャプションを事例として
- Authors: Haoyi Qiu, Zi-Yi Dou, Tianlu Wang, Asli Celikyilmaz, Nanyun Peng
- Abstract要約: 我々は,イメージキャプションタスクに着目し,モデルに基づく評価指標の性別バイアスに関する体系的研究を行った。
まず、職業、活動、対象概念に関するさまざまな評価指標において、性別バイアスを識別し、定量化する。
我々は、これらのバイアス付きメトリクスを使用することによるネガティブな結果を示し、例えば、デプロイメントにおいてバイアス付き生成モデルを支持する。
- 参考スコア(独自算出の注目度): 58.859952087388926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained model-based evaluation metrics have demonstrated strong
performance with high correlations with human judgments in various natural
language generation tasks such as image captioning. Despite the impressive
results, their impact on fairness is under-explored -- it is widely
acknowledged that pretrained models can encode societal biases, and utilizing
them for evaluation purposes may inadvertently manifest and potentially amplify
biases. In this paper, we conduct a systematic study in gender biases of
model-based evaluation metrics with a focus on image captioning tasks.
Specifically, we first identify and quantify gender biases in different
evaluation metrics regarding profession, activity, and object concepts. Then,
we demonstrate the negative consequences of using these biased metrics, such as
favoring biased generation models in deployment and propagating the biases to
generation models through reinforcement learning. We also present a simple but
effective alternative to reduce gender biases by combining n-gram
matching-based and pretrained model-based evaluation metrics.
- Abstract(参考訳): 事前訓練されたモデルベース評価指標は,画像キャプションなどの自然言語生成タスクにおいて,人間の判断と高い相関性を示し,高い性能を示した。
印象的な結果にもかかわらず、彼らの公正性への影響は未調査であり、事前訓練されたモデルが社会的バイアスを符号化し、評価目的にそれらを利用すれば、不注意に現れ、バイアスを増幅する可能性があると広く認識されている。
本稿では,画像キャプションタスクに着目し,モデルに基づく評価指標の性別バイアスに関する体系的研究を行う。
具体的には、職業、活動、オブジェクトの概念に関するさまざまな評価指標において、まず性別バイアスを特定し、定量化する。
次に、これらのバイアス付き指標を使用することによる負の結果を示す。例えば、デプロイメントにおいてバイアス付き生成モデルを選択し、強化学習を通じてバイアスを生成モデルに伝達する。
また,n-gramマッチングと事前学習したモデルベース評価指標を組み合わせることで,性別バイアスを減らすための簡易かつ効果的な方法を提案する。
関連論文リスト
- Identifying and examining machine learning biases on Adult dataset [0.7856362837294112]
この研究は、エンサンブルラーニングによる機械学習モデルバイアスの低減を念頭に置いている。
我々の厳密な方法論は、様々なカテゴリー変数にまたがる偏見を包括的に評価し、最終的に顕著な男女属性偏見を明らかにします。
本研究は,データ駆動型社会における倫理的考察とハイブリッドモデルの実現を提唱する。
論文 参考訳(メタデータ) (2023-10-13T19:41:47Z) - Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic
Contrast Sets [52.77024349608834]
視覚言語モデルは、インターネットから未計算の画像テキストペアの事前トレーニング中に学んだ社会的バイアスを永続し、増幅することができる。
COCO Captionsは、背景コンテキストとその場にいる人々の性別間のバイアスを評価するために最も一般的に使用されるデータセットである。
本研究では,COCOデータセットを男女バランスの取れたコントラストセットで拡張する新しいデータセットデバイアスパイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:18Z) - Is Your Model "MADD"? A Novel Metric to Evaluate Algorithmic Fairness
for Predictive Student Models [0.0]
本稿では,モデルの識別行動を分析するために,モデル絶対密度距離(MADD)を提案する。
オンライン授業における学生の成功を予測するための共通課題に対するアプローチを,いくつかの共通予測分類モデルを用いて評価した。
論文 参考訳(メタデータ) (2023-05-24T16:55:49Z) - Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition [4.336779198334903]
人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。
我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。
この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-28T11:04:18Z) - Choose Your Lenses: Flaws in Gender Bias Evaluation [29.16221451643288]
ジェンダーバイアス評価の現在のパラダイムを評価し、その中のいくつかの欠陥を同定する。
まず、あるタスクにおけるモデルのパフォーマンスがジェンダーによってどのように影響を受けるかを測定する、外在バイアス指標の重要性を強調する。
第二に、データセットとメトリクスが頻繁に結合されていることを発見し、それらの結合がいかにして信頼できる結論を得る能力を妨げているかについて議論する。
論文 参考訳(メタデータ) (2022-10-20T17:59:55Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。