論文の概要: Measuring Bias or Measuring the Task: Understanding the Brittle Nature of LLM Gender Biases
- arxiv url: http://arxiv.org/abs/2509.04373v2
- Date: Mon, 08 Sep 2025 22:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.808123
- Title: Measuring Bias or Measuring the Task: Understanding the Brittle Nature of LLM Gender Biases
- Title(参考訳): バイアスの測定やタスクの測定: LLM ジェンダーバイアスの脆い性質の理解
- Authors: Bufan Gao, Elisa Kreiss,
- Abstract要約: 本稿では, 課題評価の目的が, LLMの性別バイアスに与える影響について検討する。
ジェンダーバイアス(性偏見)の評価とより明確に一致していることが、ジェンダーの出力分布を区別する要因であることがわかった。
- 参考スコア(独自算出の注目度): 2.9803250365852443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs are increasingly applied in socially impactful settings, concerns about gender bias have prompted growing efforts both to measure and mitigate such bias. These efforts often rely on evaluation tasks that differ from natural language distributions, as they typically involve carefully constructed task prompts that overtly or covertly signal the presence of gender bias-related content. In this paper, we examine how signaling the evaluative purpose of a task impacts measured gender bias in LLMs.Concretely, we test models under prompt conditions that (1) make the testing context salient, and (2) make gender-focused content salient. We then assess prompt sensitivity across four task formats with both token-probability and discrete-choice metrics. We find that prompts that more clearly align with (gender bias) evaluation framing elicit distinct gender output distributions compared to less evaluation-framed prompts. Discrete-choice metrics further tend to amplify bias relative to probabilistic measures. These findings do not only highlight the brittleness of LLM gender bias evaluations but open a new puzzle for the NLP benchmarking and development community: To what extent can well-controlled testing designs trigger LLM "testing mode" performance, and what does this mean for the ecological validity of future benchmarks.
- Abstract(参考訳): LLMは社会的に影響力のある環境にますます適用されているため、性別の偏見に対する懸念は、そのような偏見を測り緩和する努力を増大させてきた。
これらの取り組みは、しばしば、ジェンダーバイアス関連コンテンツの存在を過度にまたは隠蔽的に示す、注意深く構築されたタスクプロンプトを含むため、自然言語の分布とは異なる評価タスクに依存する。
本稿では,タスク評価の目的がLCMの性別バイアスに与える影響について検討し,(1)テストコンテキストを健全なものにし,(2)ジェンダーに焦点を絞ったコンテンツを健全なものにする,という素早い条件下でモデルを検証する。
次に、トークン確率と離散選択の指標を用いて、4つのタスクフォーマット間での迅速な感度を評価する。
その結果、評価基準の少ないプロンプトと比較して、性別の出力分布を区別する(性バイアス)評価とより明確に一致していることが判明した。
離散選択測度はさらに確率的測度に対するバイアスを増幅する傾向がある。
これらの発見は、LSMの性別バイアス評価の脆さを浮き彫りにするだけでなく、NLPベンチマークと開発コミュニティの新たなパズルを開く。
関連論文リスト
- Towards Fair Rankings: Leveraging LLMs for Gender Bias Detection and Measurement [6.92803536773427]
自然言語処理(NLP)と情報検索(IR)システムの社会的バイアスは、現在進行中の課題である。
我々は,大言語モデル(LLM)を利用して,通過ランクの性別バイアスを検出し,測定することで,この問題に対処することを目指している。
そこで我々は,既存の制約に対処するために,CWEx (Class-wise Weighted Exposure) という新しいジェンダーフェアネス尺度を導入する。
論文 参考訳(メタデータ) (2025-06-27T16:39:12Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。