論文の概要: Understanding LLM Evaluator Behavior: A Structured Multi-Evaluator Framework for Merchant Risk Assessment
- arxiv url: http://arxiv.org/abs/2602.05110v1
- Date: Wed, 04 Feb 2026 22:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.656176
- Title: Understanding LLM Evaluator Behavior: A Structured Multi-Evaluator Framework for Merchant Risk Assessment
- Title(参考訳): LLM評価器の動作を理解する:Merchant Risk Assessmentのための構造化多評価器フレームワーク
- Authors: Liang Wang, Junpeng Wang, Chin-chia Michael Yeh, Yan Zheng, Jiarui Sun, Xiran Fan, Xin Dai, Yujie Fan, Yiwei Cai,
- Abstract要約: 大規模言語モデル(LLM)は、推論品質の評価手段としてますます使われていますが、その信頼性と支払いリスク設定の偏りはよく分かっていません。
本稿では,Merchant Category Code(MCC)に基づく商業リスク評価において,LCM推論を評価するための構造化マルチ評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.786161923794115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used as evaluators of reasoning quality, yet their reliability and bias in payments-risk settings remain poorly understood. We introduce a structured multi-evaluator framework for assessing LLM reasoning in Merchant Category Code (MCC)-based merchant risk assessment, combining a five-criterion rubric with Monte-Carlo scoring to evaluate rationale quality and evaluator stability. Five frontier LLMs generate and cross-evaluate MCC risk rationales under attributed and anonymized conditions. To establish a judge-independent reference, we introduce a consensus-deviation metric that eliminates circularity by comparing each judge's score to the mean of all other judges, yielding a theoretically grounded measure of self-evaluation and cross-model deviation. Results reveal substantial heterogeneity: GPT-5.1 and Claude 4.5 Sonnet show negative self-evaluation bias (-0.33, -0.31), while Gemini-2.5 Pro and Grok 4 display positive bias (+0.77, +0.71), with bias attenuating by 25.8 percent under anonymization. Evaluation by 26 payment-industry experts shows LLM judges assign scores averaging +0.46 points above human consensus, and that the negative bias of GPT-5.1 and Claude 4.5 Sonnet reflects closer alignment with human judgment. Ground-truth validation using payment-network data shows four models exhibit statistically significant alignment (Spearman rho = 0.56 to 0.77), confirming that the framework captures genuine quality. Overall, the framework provides a replicable basis for evaluating LLM-as-a-judge systems in payment-risk workflows and highlights the need for bias-aware protocols in operational financial settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論品質の評価手段としてますます使われていますが、その信頼性と支払いリスク設定の偏りはよく分かっていません。
本稿では,Merchant Category Code(MCC)に基づく商業リスク評価において,LCM推論を評価するための構造化マルチ評価フレームワークを提案する。
5つのフロンティアLSMは、属性付きおよび匿名化された条件下でMCCリスクの有理性を生成し、相互評価する。
判断非依存の基準を確立するために,各審査員のスコアを他の審査員のスコアの平均と比較することにより円度を排除し,理論的に根拠づけられた自己評価とモデル間の偏差を導出するコンセンサス-逸脱指標を導入する。
GPT-5.1とClaude 4.5 Sonnetは負の自己評価バイアス(-0.33,-0.31)を示し、Gemini-2.5 ProとGrok 4は正のバイアス(+0.77, +0.71)を示し、バイアスは匿名化下で25.8%減少する。
26人の業界の専門家による評価によると、LCMの審査員は平均点数+0.46点を人間の合意より上回っており、GPT-5.1とClaude 4.5 Sonnetの負のバイアスは人間の判断と密接に一致している。
4つのモデルが統計的に有意なアライメントを示す(Spearman rho = 0.56 - 0.77)。
全体として、このフレームワークは、支払いリスクのワークフローにおいてLLM-as-a-judgeシステムを評価するためのレプリカ可能な基盤を提供し、運用金融設定におけるバイアス対応プロトコルの必要性を強調している。
関連論文リスト
- Uncertainty and Fairness Awareness in LLM-Based Recommendation Systems [3.937681476010311]
本稿では,不確実性と公平性の評価が大規模言語モデル(LLM)の精度,一貫性,信頼性に与える影響について検討する。
我々は(エントロピーを通じて)予測の不確実性を定量化し、Google DeepMindのGemini 1.5 Flashが特定の機密属性に対して体系的に不確実性を示すことを示した。
本稿では,RecLLMに対する新たな不確実性評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-31T17:18:13Z) - No-Human in the Loop: Agentic Evaluation at Scale for Recommendation [11.764010898952677]
大規模言語モデル(LLM)を判断として評価することは、スケーラブルで信頼性の高い評価パイプラインを構築する上でますます重要になっている。
我々は、GPT、Gemini、Claude、Llamaを含む36のLLMを体系的に比較する大規模なベンチマーク研究であるScalingEvalを紹介する。
当社のマルチエージェントフレームワークは、パターン監査を集約し、スケーラブルな多数決投票を通じて、地味なラベルにコードを発行します。
論文 参考訳(メタデータ) (2025-11-04T22:49:39Z) - Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems [32.83708359216193]
大規模言語モデル(LLM)は、コミュニケーションシステムにおけるコンテンツの品質を自律的に評価するために、ますます使われている。
本稿では,2つのLLM-as-a-judgeモデルにおける判定バイアスをポイントワイド評価条件下で系統的に検討する。
我々は,実践的なコミュニケーションシナリオにおいて,公平かつ信頼性の高いAIを確保するための4つの潜在的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-10-14T12:52:29Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。