論文の概要: Widespread Gender and Pronoun Bias in Moral Judgments Across LLMs
- arxiv url: http://arxiv.org/abs/2603.13636v1
- Date: Fri, 13 Mar 2026 22:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.308887
- Title: Widespread Gender and Pronoun Bias in Moral Judgments Across LLMs
- Title(参考訳): LLMにおける形態判断における広帯域ジェンダーと代名詞バイアス
- Authors: Gustavo Lúcius Fernandes, Jeiverson C. V. M. Santos, Pedro O. S. Vaz-de-Melo,
- Abstract要約: 大規模言語モデル (LLMs) は、道徳的または倫理的なステートメントを評価するためにますます用いられる。
本研究は, 文法的人, 数, 性別的マーカーが, 公平性のLLM道徳的分類にどのように影響するかを, 制御された文レベルで研究する。
- 参考スコア(独自算出の注目度): 0.37331950863394847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to assess moral or ethical statements, yet their judgments may reflect social and linguistic biases. This work presents a controlled, sentence-level study of how grammatical person, number, and gender markers influence LLM moral classifications of fairness. Starting from 550 balanced base sentences from the ETHICS dataset, we generated 26 counterfactual variants per item, systematically varying pronouns and demographic markers to yield 14,850 semantically equivalent sentences. We evaluated six model families (Grok, GPT, LLaMA, Gemma, DeepSeek, and Mistral), and measured fairness judgments and inter-group disparities using Statistical Parity Difference (SPD). Results show statistically significant biases: sentences written in the singular form and third person are more often judged as "fair'', while those in the second person are penalized. Gender markers produce the strongest effects, with non-binary subjects consistently favored and male subjects disfavored. We conjecture that these patterns reflect distributional and alignment biases learned during training, emphasizing the need for targeted fairness interventions in moral LLM applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、道徳的または倫理的な言明を評価するためにますます使われるが、その判断は社会的および言語的偏見を反映する可能性がある。
本研究は, 文法的人, 数, 性別的マーカーが, 公平性のLLM道徳的分類にどのように影響するかを, 制御された文レベルで研究する。
ETHICSデータセットから550のバランスの取れた基本文から,26の反実例,体系的に異なる代名詞,人口統計マーカーを生成し,意味論的に等価な文14,850を作成した。
我々は,Grok,GPT,LLaMA,Gemma,DeepSeek,Mistralの6つのモデルファミリーを評価し,統計的パリティ差(SPD)を用いた公正判断とグループ間格差を測定した。
結果は統計的に有意な偏見を示しており、特異な形で書かれた文と三人称の文はより頻繁に「フェア」と判断され、二人称の文は罰せられる。
ジェンダーマーカーは最も強い効果をもたらし、非バイナリの被験者は一貫して好意的であり、男性の被験者は嫌悪している。
これらのパターンは、トレーニング中に学習した分布バイアスとアライメントバイアスを反映し、道徳的LLMアプリケーションにおいて対象の公正な介入の必要性を強調している。
関連論文リスト
- QueerGen: How LLMs Reflect Societal Norms on Gender and Sexuality in Sentence Completion Tasks [0.38887448816036313]
対象者の性別やセクシュアリティに関する明示的な情報が,3つのカテゴリーにまたがる反応に影響を及ぼすか否かを検討する。
以上の結果から,masked Language Models (MLMs) が最も好ましくない感情を呈し, 有毒度が高く, クイアマークの被験者に対してより否定的な評価が得られた。
論文 参考訳(メタデータ) (2026-01-28T16:06:04Z) - Investigating Intersectional Bias in Large Language Models using Confidence Disparities in Coreference Resolution [5.061421107401101]
大規模言語モデル(LLM)は目覚ましいパフォーマンスを達成し、採用や受け入れといったリソース制約のあるコンテキストで意思決定支援ツールとして広く採用されている。
しかし、AIシステムは社会的バイアスを反映し、さらに悪化させることができるという科学的コンセンサスがあり、批判的な社会的文脈で使用される場合、アイデンティティに基づく害についての懸念が高まる。
本研究では,複数の識別軸が交差する際,異なる不利パターンを生じることを認識して,一軸の公平性評価を拡張し,交差バイアスを検証した。
論文 参考訳(メタデータ) (2025-08-09T22:24:40Z) - Bridging the Fairness Gap: Enhancing Pre-trained Models with LLM-Generated Sentences [8.979854959662664]
本稿では,コヒーレント,属性バランス,意味的リッチな文を吸収することにより,事前学習言語モデル(PLM)における公平性(フェアジェンダー)を高めることを提案する。
これらの文は、アライメントの問題と負の移動のリスクにより、デバイアスに直接使われることはできない。
因果解析を適用し、因果効果を推定し、不整列文をフィルタリングし、PLMに組み込むための整列文を特定することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-12T12:32:43Z) - Everyone deserves their voice to be heard: Analyzing Predictive Gender Bias in ASR Models Applied to Dutch Speech Data [13.91630413828167]
本研究は,オランダ語音声データに基づくWhisperモデルの性能格差の同定に焦点をあてる。
性別グループ間の単語誤り率,文字誤り率,BERTに基づく意味的類似性を解析した。
論文 参考訳(メタデータ) (2024-11-14T13:29:09Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。