論文の概要: The Confidence Trap: Gender Bias and Predictive Certainty in LLMs
- arxiv url: http://arxiv.org/abs/2601.07806v1
- Date: Mon, 12 Jan 2026 18:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.745674
- Title: The Confidence Trap: Gender Bias and Predictive Certainty in LLMs
- Title(参考訳): LLMにおけるジェンダーバイアスと予測確実性
- Authors: Ahmed Sabir, Markus Kängsepp, Rajesh Sharma,
- Abstract要約: 本研究では,ジェンダー付き代名詞解決を含む文脈における確率信頼度校正について検討した。
本研究の目的は,予測信頼度スコアに基づく校正基準が,大規模言語モデルにおける公平性に関連する相違を効果的に捉えているかどうかを評価することである。
- 参考スコア(独自算出の注目度): 5.926203312586108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increased use of Large Language Models (LLMs) in sensitive domains leads to growing interest in how their confidence scores correspond to fairness and bias. This study examines the alignment between LLM-predicted confidence and human-annotated bias judgments. Focusing on gender bias, the research investigates probability confidence calibration in contexts involving gendered pronoun resolution. The goal is to evaluate if calibration metrics based on predicted confidence scores effectively capture fairness-related disparities in LLMs. The results show that, among the six state-of-the-art models, Gemma-2 demonstrates the worst calibration according to the gender bias benchmark. The primary contribution of this work is a fairness-aware evaluation of LLMs' confidence calibration, offering guidance for ethical deployment. In addition, we introduce a new calibration metric, Gender-ECE, designed to measure gender disparities in resolution tasks.
- Abstract(参考訳): センシティブなドメインにおけるLarge Language Model(LLM)の利用の増加は、その信頼性スコアが公平さとバイアスにどのように対応するかに対する関心を高めます。
本研究は, LLM予測信頼度と有意差判定との整合性について検討した。
本研究は、性別バイアスに着目し、性別付き代名詞解決を含む文脈における確率信頼度校正について検討する。
予測信頼度に基づく校正基準がLLMの公平性に関する格差を効果的に捉えているかどうかを評価することが目的である。
その結果,6つの最先端モデルの中で,Gemma-2は男女差のベンチマークで最悪のキャリブレーションを示すことがわかった。
この研究の主な貢献は、LLMの信頼性校正の公平性に配慮した評価であり、倫理的展開のためのガイダンスを提供する。
さらに、解像度タスクにおける男女差を測定するために、新しい校正基準であるGender-ECEを導入する。
関連論文リスト
- Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation [116.86965910589775]
対象物の10%だけをマスクしたり、背景が弱くぼやけたりといった、最小限の摂動でさえ、バイアススコアを劇的に変える可能性がある。
これは、現在のバイアス評価がモデル応答を、性別バイアスよりも刺激的な特徴に反映していることを示唆している。
論文 参考訳(メタデータ) (2025-09-09T11:14:11Z) - Measuring Bias or Measuring the Task: Understanding the Brittle Nature of LLM Gender Biases [2.9803250365852443]
本稿では, 課題評価の目的が, LLMの性別バイアスに与える影響について検討する。
ジェンダーバイアス(性偏見)の評価とより明確に一致していることが、ジェンダーの出力分布を区別する要因であることがわかった。
論文 参考訳(メタデータ) (2025-09-04T16:32:18Z) - Towards Fair Rankings: Leveraging LLMs for Gender Bias Detection and Measurement [6.92803536773427]
自然言語処理(NLP)と情報検索(IR)システムの社会的バイアスは、現在進行中の課題である。
我々は,大言語モデル(LLM)を利用して,通過ランクの性別バイアスを検出し,測定することで,この問題に対処することを目指している。
そこで我々は,既存の制約に対処するために,CWEx (Class-wise Weighted Exposure) という新しいジェンダーフェアネス尺度を導入する。
論文 参考訳(メタデータ) (2025-06-27T16:39:12Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。