論文の概要: The Confidence Trap: Gender Bias and Predictive Certainty in LLMs
- arxiv url: http://arxiv.org/abs/2601.07806v1
- Date: Mon, 12 Jan 2026 18:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.745674
- Title: The Confidence Trap: Gender Bias and Predictive Certainty in LLMs
- Title(参考訳): LLMにおけるジェンダーバイアスと予測確実性
- Authors: Ahmed Sabir, Markus Kängsepp, Rajesh Sharma,
- Abstract要約: 本研究では,ジェンダー付き代名詞解決を含む文脈における確率信頼度校正について検討した。
本研究の目的は,予測信頼度スコアに基づく校正基準が,大規模言語モデルにおける公平性に関連する相違を効果的に捉えているかどうかを評価することである。
- 参考スコア(独自算出の注目度): 5.926203312586108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increased use of Large Language Models (LLMs) in sensitive domains leads to growing interest in how their confidence scores correspond to fairness and bias. This study examines the alignment between LLM-predicted confidence and human-annotated bias judgments. Focusing on gender bias, the research investigates probability confidence calibration in contexts involving gendered pronoun resolution. The goal is to evaluate if calibration metrics based on predicted confidence scores effectively capture fairness-related disparities in LLMs. The results show that, among the six state-of-the-art models, Gemma-2 demonstrates the worst calibration according to the gender bias benchmark. The primary contribution of this work is a fairness-aware evaluation of LLMs' confidence calibration, offering guidance for ethical deployment. In addition, we introduce a new calibration metric, Gender-ECE, designed to measure gender disparities in resolution tasks.
- Abstract(参考訳): センシティブなドメインにおけるLarge Language Model(LLM)の利用の増加は、その信頼性スコアが公平さとバイアスにどのように対応するかに対する関心を高めます。
本研究は, LLM予測信頼度と有意差判定との整合性について検討した。
本研究は、性別バイアスに着目し、性別付き代名詞解決を含む文脈における確率信頼度校正について検討する。
予測信頼度に基づく校正基準がLLMの公平性に関する格差を効果的に捉えているかどうかを評価することが目的である。
その結果,6つの最先端モデルの中で,Gemma-2は男女差のベンチマークで最悪のキャリブレーションを示すことがわかった。
この研究の主な貢献は、LLMの信頼性校正の公平性に配慮した評価であり、倫理的展開のためのガイダンスを提供する。
さらに、解像度タスクにおける男女差を測定するために、新しい校正基準であるGender-ECEを導入する。
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Calibration Is Not Enough: Evaluating Confidence Estimation Under Language Variations [49.84786015324238]
信頼度推定(CE)は、大きな言語モデル(LLM)の回答がどれほど信頼性が高いかを示し、ユーザの信頼と意思決定に影響を与える可能性がある。
本稿では,CEの信頼性を3つの新しい側面で評価する総合評価フレームワークを提案する。
これには、急激な摂動に対する自信の堅牢性、意味論的に等価な答えに対する安定性、意味論的に異なる答えに対する感受性が含まれる。
論文 参考訳(メタデータ) (2026-01-12T23:16:50Z) - Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation [116.86965910589775]
対象物の10%だけをマスクしたり、背景が弱くぼやけたりといった、最小限の摂動でさえ、バイアススコアを劇的に変える可能性がある。
これは、現在のバイアス評価がモデル応答を、性別バイアスよりも刺激的な特徴に反映していることを示唆している。
論文 参考訳(メタデータ) (2025-09-09T11:14:11Z) - Measuring Bias or Measuring the Task: Understanding the Brittle Nature of LLM Gender Biases [2.9803250365852443]
本稿では, 課題評価の目的が, LLMの性別バイアスに与える影響について検討する。
ジェンダーバイアス(性偏見)の評価とより明確に一致していることが、ジェンダーの出力分布を区別する要因であることがわかった。
論文 参考訳(メタデータ) (2025-09-04T16:32:18Z) - Towards Fair Rankings: Leveraging LLMs for Gender Bias Detection and Measurement [6.92803536773427]
自然言語処理(NLP)と情報検索(IR)システムの社会的バイアスは、現在進行中の課題である。
我々は,大言語モデル(LLM)を利用して,通過ランクの性別バイアスを検出し,測定することで,この問題に対処することを目指している。
そこで我々は,既存の制約に対処するために,CWEx (Class-wise Weighted Exposure) という新しいジェンダーフェアネス尺度を導入する。
論文 参考訳(メタデータ) (2025-06-27T16:39:12Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。