論文の概要: GG-BBQ: German Gender Bias Benchmark for Question Answering
- arxiv url: http://arxiv.org/abs/2507.16410v1
- Date: Tue, 22 Jul 2025 10:02:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.059457
- Title: GG-BBQ: German Gender Bias Benchmark for Question Answering
- Title(参考訳): GG-BBQ:独ジェンダーバイアスベンチマークで質問に答える
- Authors: Shalaka Satheesh, Katrin Klug, Katharina Beckh, Héctor Allende-Cid, Sebastian Houben, Teena Hassan,
- Abstract要約: ドイツ語大言語モデル(LLM)における性別バイアスを,Parrishらによる質問回答のためのバイアスベンチマークを用いて評価した。
特に、この英語データセットの性同一性サブセットのテンプレートは、機械でドイツ語に翻訳された。
性別バイアス評価のためのデータセットを作成する際には,手作業による翻訳の改訂が不可欠であることがわかった。
- 参考スコア(独自算出の注目度): 1.4545246152596758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Within the context of Natural Language Processing (NLP), fairness evaluation is often associated with the assessment of bias and reduction of associated harm. In this regard, the evaluation is usually carried out by using a benchmark dataset, for a task such as Question Answering, created for the measurement of bias in the model's predictions along various dimensions, including gender identity. In our work, we evaluate gender bias in German Large Language Models (LLMs) using the Bias Benchmark for Question Answering by Parrish et al. (2022) as a reference. Specifically, the templates in the gender identity subset of this English dataset were machine translated into German. The errors in the machine translated templates were then manually reviewed and corrected with the help of a language expert. We find that manual revision of the translation is crucial when creating datasets for gender bias evaluation because of the limitations of machine translation from English to a language such as German with grammatical gender. Our final dataset is comprised of two subsets: Subset-I, which consists of group terms related to gender identity, and Subset-II, where group terms are replaced with proper names. We evaluate several LLMs used for German NLP on this newly created dataset and report the accuracy and bias scores. The results show that all models exhibit bias, both along and against existing social stereotypes.
- Abstract(参考訳): 自然言語処理(NLP)の文脈において、公平性の評価は、しばしばバイアスの評価と関連する害の軽減と結びついている。
この点に関して、評価は通常、性同一性を含む様々な次元に沿ってモデルの予測におけるバイアスを測定するために作成された質問応答のようなタスクに対して、ベンチマークデータセットを用いて行われる。
本研究では,Parrish et al (2022)による質問回答のためのバイアスベンチマークを用いて,ドイツ語大言語モデル(LLM)の性別バイアスを評価する。
特に、この英語データセットの性同一性サブセットのテンプレートは、機械でドイツ語に翻訳された。
機械翻訳テンプレートのエラーは手作業でレビューされ、言語専門家の助けを借りて修正される。
英語からドイツ語などの文法性のある言語への機械翻訳の限界から, 性別バイアス評価のためのデータセットを作成する際には, 手作業による翻訳の改訂が不可欠であることがわかった。
最終データセットは2つのサブセットから構成される: サブセットI、ジェンダーのアイデンティティに関連するグループ用語と、グループ用語を適切な名前に置き換えるサブセットIIである。
新たに作成したデータセット上で,ドイツのNLPに使用される複数のLPMを評価し,精度とバイアススコアを報告する。
その結果、すべてのモデルが既存の社会的ステレオタイプに沿っても反対でもバイアスを示します。
関連論文リスト
- Are All Spanish Doctors Male? Evaluating Gender Bias in German Machine Translation [0.0]
WinoMTDEは、ドイツの機械翻訳システムにおいて、仕事のステレオタイピングと表現不足を評価するために設計された新しい性別バイアス評価セットである。
このデータセットは、性別に関してバランスが取れた288のドイツ語文と、ドイツの労働統計を用いて注釈付けされたステレオタイプから構成されている。
論文 参考訳(メタデータ) (2025-02-26T12:46:59Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - What is Your Favorite Gender, MLM? Gender Bias Evaluation in Multilingual Masked Language Models [8.618945530676614]
本稿では,中国語,英語,ドイツ語,ポルトガル語,スペイン語の5言語から,多言語辞書の性別バイアスを推定する手法を提案する。
ジェンダーバイアスのより堅牢な分析のための文対を生成するために,新しいモデルに基づく手法を提案する。
以上の結果から,複数の評価指標をベストプラクティスとして用いた大規模データセットでは,性別バイアスを研究すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T21:12:08Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution
and Machine Translation [10.542861450223128]
3つのドメインのコーパスにおいて,ステレオタイプおよび非ステレオタイプなジェンダーロール代入を示す文法パターンが発見された。
我々は、コーパスの品質を手動で検証し、様々なコア参照解像度と機械翻訳モデルにおける性別バイアスを評価する。
論文 参考訳(メタデータ) (2021-09-08T18:14:11Z) - Investigating Failures of Automatic Translation in the Case of
Unambiguous Gender [13.58884863186619]
トランスフォーマーベースのモデルは、ニューラルマシン翻訳(NMT)のための現代の作業馬です。
我々は、名詞の性別をマークしない言語から他の名詞に翻訳することに関して、トランスフォーマーモデルによる体系的で初歩的なエラーのクラスを観察する。
トランスベースのNMTモデルがジェンダーを正しく翻訳する能力を測定するための評価スキームとデータセットをリリースします。
論文 参考訳(メタデータ) (2021-04-16T00:57:36Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。