論文の概要: HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment
- arxiv url: http://arxiv.org/abs/2510.12217v2
- Date: Thu, 16 Oct 2025 08:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 14:17:28.09168
- Title: HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment
- Title(参考訳): HALF: デプロイに配慮したハームアウェア LLM フェアネス評価
- Authors: Ali Mekky, Omar El Herraoui, Preslav Nakov, Yuxia Wang,
- Abstract要約: HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
- 参考スコア(独自算出の注目度): 52.374772443536045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed across high-impact domains, from clinical decision support and legal analysis to hiring and education, making fairness and bias evaluation before deployment critical. However, existing evaluations lack grounding in real-world scenarios and do not account for differences in harm severity, e.g., a biased decision in surgery should not be weighed the same as a stylistic bias in text summarization. To address this gap, we introduce HALF (Harm-Aware LLM Fairness), a deployment-aligned framework that assesses model bias in realistic applications and weighs the outcomes by harm severity. HALF organizes nine application domains into three tiers (Severe, Moderate, Mild) using a five-stage pipeline. Our evaluation results across eight LLMs show that (1) LLMs are not consistently fair across domains, (2) model size or performance do not guarantee fairness, and (3) reasoning models perform better in medical decision support but worse in education. We conclude that HALF exposes a clear gap between previous benchmarking success and deployment readiness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、臨床決定のサポートや法的な分析から雇用と教育まで、デプロイが重要になる前に公平さとバイアス評価を行うなど、ハイインパクトな領域に展開する傾向が強まっている。
しかし、既存の評価では現実のシナリオでは根拠がなく、害の重大さの違いを考慮していない。
このギャップに対処するために、HALF(Harm-Aware LLM Fairness)という、現実的なアプリケーションにおけるモデルバイアスを評価し、重大さを損なう結果を評価するデプロイメント対応のフレームワークを紹介します。
HALFは9つのアプリケーションドメインを5段階のパイプラインを使用して3層(Severe, Moderate, Mild)に編成する。
その結果, 1) LLMはドメイン間で一貫して公平ではないこと, (2) モデルサイズや性能は公平性を保証すること,(3) 推論モデルは医学的意思決定支援において優れているが,教育面では劣ることがわかった。
HALFは以前のベンチマークの成功とデプロイメントの準備の整合性の間に明確なギャップを露呈する、と私たちは結論付けています。
関連論文リスト
- Accept or Deny? Evaluating LLM Fairness and Performance in Loan Approval across Table-to-Text Serialization Approaches [57.5863675268117]
大規模言語モデル(LLM)は、ローン承認などの高い意思決定タスクにますます採用されています。
我々は、ガーナ、ドイツ、アメリカ合衆国における融資承認データセットのシリアライズされたローン承認データセットにおけるLCMの性能と公正性を評価する。
論文 参考訳(メタデータ) (2025-08-29T10:51:41Z) - FairReason: Balancing Reasoning and Social Bias in MLLMs [54.26091556079722]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - Meta-Fair: AI-Assisted Fairness Testing of Large Language Models [2.9632404823837777]
公正さは人工知能(AI)システムの開発における中核的な原則である。
大規模言語モデル(LLM)におけるフェアネステストへの現在のアプローチは、手動評価、固定テンプレート、決定論、キュレートされたデータセットに依存していることが多い。
本研究は,LLMの公正性をテストするための,新しい自動化手法の基盤となることを目的としている。
論文 参考訳(メタデータ) (2025-07-03T11:20:59Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment [35.42539816648068]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (2023-08-10T06:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。