論文の概要: Beyond Pointwise Scores: Decomposed Criteria-Based Evaluation of LLM Responses
- arxiv url: http://arxiv.org/abs/2509.16093v1
- Date: Fri, 19 Sep 2025 15:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.232025
- Title: Beyond Pointwise Scores: Decomposed Criteria-Based Evaluation of LLM Responses
- Title(参考訳): ポイントワイドスコアを超えて:分解基準に基づくLCM応答の評価
- Authors: Fangyi Yu, Nabeel Seedat, Dasha Herrmannova, Frank Schilder, Jonathan Richard Schwarz,
- Abstract要約: DeCEは、精度(実際の精度と妥当性)とリコール(必要な概念のカバレッジ)を分離する分解LDM評価フレームワークである。
実世界の法定QAタスクにおいて,多変量推論と引用グラウンドを含む異なるLLMを評価するために,DeCEをインスタンス化する。
- 参考スコア(独自算出の注目度): 23.308803725940383
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating long-form answers in high-stakes domains such as law or medicine remains a fundamental challenge. Standard metrics like BLEU and ROUGE fail to capture semantic correctness, and current LLM-based evaluators often reduce nuanced aspects of answer quality into a single undifferentiated score. We introduce DeCE, a decomposed LLM evaluation framework that separates precision (factual accuracy and relevance) and recall (coverage of required concepts), using instance-specific criteria automatically extracted from gold answer requirements. DeCE is model-agnostic and domain-general, requiring no predefined taxonomies or handcrafted rubrics. We instantiate DeCE to evaluate different LLMs on a real-world legal QA task involving multi-jurisdictional reasoning and citation grounding. DeCE achieves substantially stronger correlation with expert judgments ($r=0.78$), compared to traditional metrics ($r=0.12$), pointwise LLM scoring ($r=0.35$), and modern multidimensional evaluators ($r=0.48$). It also reveals interpretable trade-offs: generalist models favor recall, while specialized models favor precision. Importantly, only 11.95% of LLM-generated criteria required expert revision, underscoring DeCE's scalability. DeCE offers an interpretable and actionable LLM evaluation framework in expert domains.
- Abstract(参考訳): 法律や医学などの高度な領域におけるロングフォームな回答の評価は、依然として根本的な課題である。
BLEUやROUGEのような標準的なメトリクスは意味的正当性を捉えず、現在のLLMベースの評価器は、答えの品質の微妙な側面を1つの未分化スコアに還元する。
金の回答要件から自動的に抽出されるインスタンス固有の基準を用いて、精度(実際の精度と妥当性)とリコール(必要概念のカバレッジ)を分離する分解LDM評価フレームワークであるDeCEを紹介する。
DeCEはモデルに依存しないドメインジェネラルであり、事前に定義された分類学や手作りのルーリックを必要としない。
実世界の法定QAタスクにおいて,多変量推論と引用グラウンドを含む異なるLLMを評価するために,DeCEをインスタンス化する。
DeCEは、従来の指標(r=0.12$)、ポイントワイドLCMスコア(r=0.35$)、現代の多次元評価器(r=0.48$)と比較して、専門家の判断(r=0.78$)と大きく相関している。
一般モデルではリコールが好まれ、専門モデルでは精度が好まれる。
重要なことに、LCMが生成した基準の11.95%しか専門的な修正を必要としておらず、DeCEのスケーラビリティを裏付けている。
DeCEは専門家ドメインで解釈可能で実行可能なLCM評価フレームワークを提供する。
関連論文リスト
- Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [2.186726107112913]
本稿では,モデルに基づく評価手法 TALEC を提案する。
ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。
TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文 参考訳(メタデータ) (2024-06-25T10:02:42Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。