論文の概要: Counterfactual Fairness Evaluation of LLM-Based Contact Center Agent Quality Assurance System
- arxiv url: http://arxiv.org/abs/2602.14970v1
- Date: Mon, 16 Feb 2026 17:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.569057
- Title: Counterfactual Fairness Evaluation of LLM-Based Contact Center Agent Quality Assurance System
- Title(参考訳): LLMを用いたコンタクトセンターエージェント品質保証システムの実用的公正性評価
- Authors: Kawin Mayilvaghanan, Siddhant Gupta, Ayush Kumar,
- Abstract要約: 大きな言語モデル(LLM)は、エージェントのパフォーマンス評価とコーチングフィードバックを自動化するために、コンタクトセンタの品質保証(QA)にますますデプロイされています。
本稿では, LLMに基づくQAシステムにおいて, 同一性, コンテキスト, 行動スタイルの3つのカテゴリにまたがる13次元の正当性評価を行う。
- 参考スコア(独自算出の注目度): 2.5609209153559513
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in contact-center Quality Assurance (QA) to automate agent performance evaluation and coaching feedback. While LLMs offer unprecedented scalability and speed, their reliance on web-scale training data raises concerns regarding demographic and behavioral biases that may distort workforce assessment. We present a counterfactual fairness evaluation of LLM-based QA systems across 13 dimensions spanning three categories: Identity, Context, and Behavioral Style. Fairness is quantified using the Counterfactual Flip Rate (CFR), the frequency of binary judgment reversals, and the Mean Absolute Score Difference (MASD), the average shift in coaching or confidence scores across counterfactual pairs. Evaluating 18 LLMs on 3,000 real-world contact center transcripts, we find systematic disparities, with CFR ranging from 5.4% to 13.0% and consistent MASD shifts across confidence, positive, and improvement scores. Larger, more strongly aligned models show lower unfairness, though fairness does not track accuracy. Contextual priming of historical performance induces the most severe degradations (CFR up to 16.4%), while implicit linguistic identity cues remain a persistent bias source. Finally, we analyze the efficacy of fairness-aware prompting, finding that explicit instructions yield only modest improvements in evaluative consistency. Our findings underscore the need for standardized fairness auditing pipelines prior to deploying LLMs in high-stakes workforce evaluation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、エージェントのパフォーマンス評価とコーチングフィードバックを自動化するために、コンタクトセンタの品質保証(QA)にますますデプロイされています。
LLMは前例のないスケーラビリティとスピードを提供するが、Webスケールのトレーニングデータへの依存は、労働力評価を歪める可能性のある人口統計や行動バイアスに関する懸念を提起する。
本稿では, LLMに基づくQAシステムにおいて, 同一性, コンテキスト, 行動スタイルの3つのカテゴリにまたがる13次元の正当性評価を行う。
フェアネスは、対実フリップ率(CFR)、二分判定リバーサルの頻度、平均絶対スコア差(MASD)を用いて定量化される。
CFRは5.4%から13.0%まで,MASDは信頼性,肯定的,改善的スコアにわたって一貫した変化を示す。
より大きく、より強く整合したモデルでは、不公平さは低いが、公正さは正確さを追跡できない。
歴史的パフォーマンスの文脈プライミングは最も深刻な劣化を引き起こす(CFRは16.4%まで)が、暗黙的な言語的アイデンティティーの手がかりは永続的なバイアス源のままである。
最後に, 明瞭な指示が, 評価整合性において緩やかな改善しか得られないことを確かめ, 公平性に気付くプロンプトの有効性を分析した。
この結果から,LLM導入前における標準化された公正監査パイプラインの必要性が浮き彫りとなった。
関連論文リスト
- Uncertainty and Fairness Awareness in LLM-Based Recommendation Systems [3.937681476010311]
本稿では,不確実性と公平性の評価が大規模言語モデル(LLM)の精度,一貫性,信頼性に与える影響について検討する。
我々は(エントロピーを通じて)予測の不確実性を定量化し、Google DeepMindのGemini 1.5 Flashが特定の機密属性に対して体系的に不確実性を示すことを示した。
本稿では,RecLLMに対する新たな不確実性評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-31T17:18:13Z) - Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems [32.83708359216193]
大規模言語モデル(LLM)は、コミュニケーションシステムにおけるコンテンツの品質を自律的に評価するために、ますます使われている。
本稿では,2つのLLM-as-a-judgeモデルにおける判定バイアスをポイントワイド評価条件下で系統的に検討する。
我々は,実践的なコミュニケーションシナリオにおいて,公平かつ信頼性の高いAIを確保するための4つの潜在的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-10-14T12:52:29Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。