論文の概要: Social Biases in Automatic Evaluation Metrics for NLG
- arxiv url: http://arxiv.org/abs/2210.08859v1
- Date: Mon, 17 Oct 2022 08:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:21:40.715160
- Title: Social Biases in Automatic Evaluation Metrics for NLG
- Title(参考訳): nlg自動評価指標における社会的バイアス
- Authors: Mingqi Gao, Xiaojun Wan
- Abstract要約: 本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
- 参考スコア(独自算出の注目度): 53.76118154594404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many studies have revealed that word embeddings, language models, and models
for specific downstream tasks in NLP are prone to social biases, especially
gender bias. Recently these techniques have been gradually applied to automatic
evaluation metrics for text generation. In the paper, we propose an evaluation
method based on Word Embeddings Association Test (WEAT) and Sentence Embeddings
Association Test (SEAT) to quantify social biases in evaluation metrics and
discover that social biases are also widely present in some model-based
automatic evaluation metrics. Moreover, we construct gender-swapped
meta-evaluation datasets to explore the potential impact of gender bias in
image caption and text summarization tasks. Results show that given
gender-neutral references in the evaluation, model-based evaluation metrics may
show a preference for the male hypothesis, and the performance of them, i.e.
the correlation between evaluation metrics and human judgments, usually has
more significant variation after gender swapping.
- Abstract(参考訳): 多くの研究は、NLPにおける特定の下流タスクのための単語埋め込み、言語モデル、モデルが社会的偏見、特に性バイアスを引き起こすことを示した。
近年,これらの手法がテキスト生成のための自動評価指標に徐々に応用されている。
本稿では,評価指標における社会的バイアスを定量化し,モデルに基づく自動評価指標にも社会的バイアスが広く存在していることを発見するための,単語埋め込み関連テスト(weat)と文埋め込み関連テスト(seat)に基づく評価手法を提案する。
さらに,画像キャプションやテキスト要約タスクにおけるジェンダーバイアスの影響を探究するために,性別対応のメタ評価データセットを構築した。
その結果, 評価における性中立的基準が与えられた場合, モデルに基づく評価指標は男性仮説に好意的な傾向を示し, 評価指標と人的判断との相関性は, 性交換後の変化が大きいことが示唆された。
関連論文リスト
- Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Gender Bias in Transformer Models: A comprehensive survey [1.1011268090482573]
人工知能(AI)におけるジェンダーバイアスは、個人の生活に深く影響する懸念として浮上している。
本稿では,トランスフォーマーモデルにおけるジェンダーバイアスを言語学的観点から調査する。
論文 参考訳(メタデータ) (2023-06-18T11:40:47Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Comparing Intrinsic Gender Bias Evaluation Measures without using Human
Annotated Examples [33.044775876807826]
そこで本研究では,人間に注釈を付けた例に頼らずに,本質的な性別偏見評価手法を比較する手法を提案する。
具体的には、男性と女性の男女差のある文章を多量に使用して、バイアス制御された言語モデルのバージョンを作成する。
計算されたバイアススコアとPLMの微調整に用いる性別比とのランク相関を算出する。
論文 参考訳(メタデータ) (2023-01-28T03:11:50Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Choose Your Lenses: Flaws in Gender Bias Evaluation [29.16221451643288]
ジェンダーバイアス評価の現在のパラダイムを評価し、その中のいくつかの欠陥を同定する。
まず、あるタスクにおけるモデルのパフォーマンスがジェンダーによってどのように影響を受けるかを測定する、外在バイアス指標の重要性を強調する。
第二に、データセットとメトリクスが頻繁に結合されていることを発見し、それらの結合がいかにして信頼できる結論を得る能力を妨げているかについて議論する。
論文 参考訳(メタデータ) (2022-10-20T17:59:55Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。