論文の概要: Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs
- arxiv url: http://arxiv.org/abs/2505.23996v1
- Date: Thu, 29 May 2025 20:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.658031
- Title: Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs
- Title(参考訳): あなたのモデルは不確かか? LLMの不確かさを意識したフェアネス評価
- Authors: Yinong Oliver Wang, Nivedha Sivakumar, Falaah Arif Khan, Rin Metcalf Susa, Adam Golinski, Natalie Mackraz, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff,
- Abstract要約: モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
- 参考スコア(独自算出の注目度): 7.197702136906138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent rapid adoption of large language models (LLMs) highlights the critical need for benchmarking their fairness. Conventional fairness metrics, which focus on discrete accuracy-based evaluations (i.e., prediction correctness), fail to capture the implicit impact of model uncertainty (e.g., higher model confidence about one group over another despite similar accuracy). To address this limitation, we propose an uncertainty-aware fairness metric, UCerF, to enable a fine-grained evaluation of model fairness that is more reflective of the internal bias in model decisions compared to conventional fairness measures. Furthermore, observing data size, diversity, and clarity issues in current datasets, we introduce a new gender-occupation fairness evaluation dataset with 31,756 samples for co-reference resolution, offering a more diverse and suitable dataset for evaluating modern LLMs. We establish a benchmark, using our metric and dataset, and apply it to evaluate the behavior of ten open-source LLMs. For example, Mistral-7B exhibits suboptimal fairness due to high confidence in incorrect predictions, a detail overlooked by Equalized Odds but captured by UCerF. Overall, our proposed LLM benchmark, which evaluates fairness with uncertainty awareness, paves the way for developing more transparent and accountable AI systems.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)の急速な採用は、その公正性をベンチマークする上で重要な必要性を強調している。
離散的精度に基づく評価(すなわち予測精度)に焦点を当てた従来の公正度指標は、モデル不確実性の暗黙的な影響を捉えることができない(例えば、類似した精度にもかかわらず、あるグループに対する高いモデル信頼度)。
この制限に対処するために、従来の公平度測定法と比較してモデル決定における内部バイアスをより反映したモデル公正度をきめ細かな評価を可能にする、不確実性を考慮した公正度測定法UCerFを提案する。
さらに、現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、共同参照解決のための31,756個のサンプルを用いたジェンダー占有フェアネス評価データセットを導入し、より多様で適切なLLM評価データセットを提供する。
我々は,我々のメトリックとデータセットを用いてベンチマークを構築し,それを10個のオープンソースLCMの挙動評価に適用する。
例えば、Mistral-7Bは、不正予測の信頼性が高いため、最適でないフェアネスを示すが、これはEqualized Oddsによって見落とされたが、UCerFによって捉えられた詳細である。
全体として、不確実性を認識した公正性を評価するLLMベンチマークは、より透明で説明可能なAIシステムを開発するための道を開く。
関連論文リスト
- An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.297464655099034]
我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。
LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。
推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文 参考訳(メタデータ) (2025-02-15T07:45:20Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Simultaneous Improvement of ML Model Fairness and Performance by
Identifying Bias in Data [1.76179873429447]
トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理手法を提案する。
特に、類似した特徴を持つインスタンスが存在するが、保護属性の変動に起因するラベルが異なる問題設定では、固有のバイアスがデータセット内で引き起こされる、と主張する。
論文 参考訳(メタデータ) (2022-10-24T13:04:07Z) - Fairness by Explicability and Adversarial SHAP Learning [0.0]
本稿では,外部監査役の役割とモデル説明可能性を強調するフェアネスの新たな定義を提案する。
逆代理モデルのSHAP値から構築した正規化を用いてモデルバイアスを緩和するフレームワークを開発する。
合成データセット、UCIアダルト(国勢調査)データセット、実世界の信用評価データセットである。
論文 参考訳(メタデータ) (2020-03-11T14:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。