論文の概要: The power of Prompts: Evaluating and Mitigating Gender Bias in MT with LLMs
- arxiv url: http://arxiv.org/abs/2407.18786v1
- Date: Fri, 26 Jul 2024 14:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 13:09:10.255547
- Title: The power of Prompts: Evaluating and Mitigating Gender Bias in MT with LLMs
- Title(参考訳): LLMを用いたMTにおけるジェンダーバイアスの評価と緩和
- Authors: Aleix Sant, Carlos Escolano, Audrey Mash, Francesca De Luca Fornaciari, Maite Melero,
- Abstract要約: 本稿では,Large Language Models (LLM) のレンズを用いた機械翻訳における性別バイアスについて検討する。
4つの広く使われているテストセットを使用して、様々なベースLLMをベンチマークし、それらの翻訳品質と性別バイアスを、カタルーニャ語(En $rightarrow$Ca)とスペイン語(En $rightarrow$Es)の英語(En $rightarrow$Es)の最先端のニューラルネットワーク翻訳(NMT)モデルと比較する。
以上の結果から,NMTモデルと比較すると,LLMは高い偏差を示し,全モデルにまたがる性的偏差が認められた。
- 参考スコア(独自算出の注目度): 1.707677607445317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies gender bias in machine translation through the lens of Large Language Models (LLMs). Four widely-used test sets are employed to benchmark various base LLMs, comparing their translation quality and gender bias against state-of-the-art Neural Machine Translation (NMT) models for English to Catalan (En $\rightarrow$ Ca) and English to Spanish (En $\rightarrow$ Es) translation directions. Our findings reveal pervasive gender bias across all models, with base LLMs exhibiting a higher degree of bias compared to NMT models. To combat this bias, we explore prompting engineering techniques applied to an instruction-tuned LLM. We identify a prompt structure that significantly reduces gender bias by up to 12% on the WinoMT evaluation dataset compared to more straightforward prompts. These results significantly reduce the gender bias accuracy gap between LLMs and traditional NMT systems.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) のレンズを用いた機械翻訳における性別バイアスについて検討する。
4つの広く使用されているテストセットを使用して、さまざまなベースLLMをベンチマークし、それらの翻訳品質と性別バイアスを、カタルーニャ語(En $\rightarrow$Ca)とスペイン語(En $\rightarrow$Es)の翻訳方向の最先端のニューラルネットワーク翻訳(NMT)モデルと比較する。
以上の結果から,NMTモデルと比較すると,LLMは高い偏差を示し,全モデルにまたがる性的偏差が認められた。
このバイアスに対処するため,命令調整型LLMに適用した工学的手法の推進について検討する。
我々は、WinoMT評価データセットにおいて、より直接的なプロンプトと比較して、性別バイアスを最大12%減少させるプロンプト構造を同定する。
これらの結果は,従来のNMTシステムとLDMの男女差の精度ギャップを著しく低減する。
関連論文リスト
- A Novel Interpretability Metric for Explaining Bias in Language Models: Applications on Multilingual Models from Southeast Asia [0.3376269351435396]
事前学習言語モデル(PLM)におけるバイアス行動に対するトークンレベルの寄与を測定するための新しい指標を提案する。
東南アジアのPLMにおいて性差別と同性愛バイアスの存在が確認された。
解釈可能性と意味分析は、PLMバイアスが犯罪、親密な関係、助けに関する言葉によって強く引き起こされることを示している。
論文 参考訳(メタデータ) (2024-10-20T18:31:05Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - What is Your Favorite Gender, MLM? Gender Bias Evaluation in Multilingual Masked Language Models [8.618945530676614]
本稿では,中国語,英語,ドイツ語,ポルトガル語,スペイン語の5言語から,多言語辞書の性別バイアスを推定する手法を提案する。
ジェンダーバイアスのより堅牢な分析のための文対を生成するために,新しいモデルに基づく手法を提案する。
以上の結果から,複数の評価指標をベストプラクティスとして用いた大規模データセットでは,性別バイアスを研究すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T21:12:08Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for
Fairer Instruction-Tuned Machine Translation [35.44115368160656]
機械翻訳モデルがジェンダーバイアスを示すか否かについて検討する。
We found that IFT model default to male-inflected translations, evengarding female occupational stereotypes。
実装が容易で効果的なバイアス緩和ソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-18T17:36:55Z) - Gender-specific Machine Translation with Large Language Models [39.49764957694078]
デコーダのみの大規模言語モデル(LLM)は機械翻訳の可能性を実証している。
LLMはプロンプトを通じて出力のプロパティを制御する機能を提供する。
以上の結果から,LLaMaは,現在最先端の多言語NMTシステムに匹敵する,翻訳精度と性別偏差を有する性特化翻訳を生成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-06T17:24:06Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z) - Reducing Gender Bias in Neural Machine Translation as a Domain
Adaptation Problem [21.44025591721678]
NLPタスクのトレーニングデータは、男性よりも女性に言及する文が少ないという性別バイアスを呈することが多い。
最近のWinoMTチャレンジセットでは、この効果を直接測定することができます。
私たちは、信頼できる性別バランスの例の小さなセットでトランスファーラーニングを使用します。
論文 参考訳(メタデータ) (2020-04-09T11:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。