論文の概要: MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs
- arxiv url: http://arxiv.org/abs/2506.15215v1
- Date: Wed, 18 Jun 2025 07:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.57836
- Title: MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs
- Title(参考訳): Minoseval: LLMを用いた開封QA評価のための消毒ファクトイドと非ファクトイド
- Authors: Yongqi Fan, Yating Wang, Guandong Wang, Jie Zhai, Jingping Liu, Qi Ye, Tong Ruan,
- Abstract要約: 大規模言語モデル(LLM)の能力を評価する上で,QA(Open-ended Question answering)が重要な課題である。
オープンな質問をまず識別し,候補回答をランク付けする新しい評価手法である textbfMinosEval を提案する。
- 参考スコア(独自算出の注目度): 15.278241998033822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-ended question answering (QA) is a key task for evaluating the capabilities of large language models (LLMs). Compared to closed-ended QA, it demands longer answer statements, more nuanced reasoning processes, and diverse expressions, making refined and interpretable automatic evaluation both crucial and challenging. Traditional metrics like ROUGE and BERTScore struggle to capture semantic similarities due to different patterns between model responses and reference answers. Current LLM-based evaluation approaches, such as pairwise or listwise comparisons of candidate answers, lack intuitive interpretability. While pointwise scoring of each response provides some descriptions, it fails to adapt across different question contents. Most notably, existing methods overlook the distinction between factoid and non-factoid questions. To address these challenges, we propose \textbf{MinosEval}, a novel evaluation method that first distinguishes open-ended questions and then ranks candidate answers using different evaluation strategies. For factoid questions, it applies an adaptive key-point scoring strategy, while for non-factoid questions, it uses an instance-aware listwise ranking strategy. Experiments on multiple open-ended QA datasets, including self-built ones with more candidate responses to complement community resources, show that MinosEval better aligns with human annotations and offers more interpretable results.
- Abstract(参考訳): オープンエンド質問応答(英: Open-ended Question answering, QA)は、大規模言語モデル(LLM)の機能を評価するための重要なタスクである。
クローズドエンドQAと比較すると、より長い回答文、よりニュアンスな推論プロセス、多種多様な表現が要求され、洗練され、解釈可能な自動評価が決定的かつ困難である。
ROUGEやBERTScoreといった従来のメトリクスは、モデル応答と参照応答のパターンが異なるため、セマンティックな類似性を捉えるのに苦労しています。
現在のLLMに基づく評価手法は、ペアワイズやリストワイズによる解答の比較など、直感的な解釈性に欠ける。
各応答のポイントワイドスコアはいくつかの説明を提供するが、異なる質問内容に適応できない。
最も顕著なのは、既存の手法がファクトイドと非ファクトイドの問題を区別している点である。
これらの課題に対処するために,まずオープンな質問を識別し,異なる評価戦略を用いて候補回答をランク付けする新しい評価手法である「textbf{MinosEval}」を提案する。
ファクトイドの質問に対しては適応的なキーポイントスコア戦略を適用し、非ファクトイドの質問に対しては、リストワイドランキング戦略を使用する。
複数のオープンエンドQAデータセットの実験は、コミュニティリソースを補完するために、より候補的なレスポンスを持つ自己構築型データセットを含む、人間のアノテーションとの整合性を高め、より解釈可能な結果を提供することを示す。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。
また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文 参考訳(メタデータ) (2024-02-17T01:56:19Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。