Fugu-MT 論文翻訳(概要): MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs

論文の概要: MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs

arxiv url: http://arxiv.org/abs/2506.15215v1
Date: Wed, 18 Jun 2025 07:49:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.57836
Title: MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs
Title（参考訳）: Minoseval: LLMを用いた開封QA評価のための消毒ファクトイドと非ファクトイド
Authors: Yongqi Fan, Yating Wang, Guandong Wang, Jie Zhai, Jingping Liu, Qi Ye, Tong Ruan,
Abstract要約: 大規模言語モデル(LLM)の能力を評価する上で,QA(Open-ended Question answering)が重要な課題である。オープンな質問をまず識別し,候補回答をランク付けする新しい評価手法である textbfMinosEval を提案する。
参考スコア（独自算出の注目度）: 15.278241998033822
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-ended question answering (QA) is a key task for evaluating the capabilities of large language models (LLMs). Compared to closed-ended QA, it demands longer answer statements, more nuanced reasoning processes, and diverse expressions, making refined and interpretable automatic evaluation both crucial and challenging. Traditional metrics like ROUGE and BERTScore struggle to capture semantic similarities due to different patterns between model responses and reference answers. Current LLM-based evaluation approaches, such as pairwise or listwise comparisons of candidate answers, lack intuitive interpretability. While pointwise scoring of each response provides some descriptions, it fails to adapt across different question contents. Most notably, existing methods overlook the distinction between factoid and non-factoid questions. To address these challenges, we propose \textbf{MinosEval}, a novel evaluation method that first distinguishes open-ended questions and then ranks candidate answers using different evaluation strategies. For factoid questions, it applies an adaptive key-point scoring strategy, while for non-factoid questions, it uses an instance-aware listwise ranking strategy. Experiments on multiple open-ended QA datasets, including self-built ones with more candidate responses to complement community resources, show that MinosEval better aligns with human annotations and offers more interpretable results.
Abstract（参考訳）: オープンエンド質問応答(英: Open-ended Question answering, QA)は、大規模言語モデル(LLM)の機能を評価するための重要なタスクである。クローズドエンドQAと比較すると、より長い回答文、よりニュアンスな推論プロセス、多種多様な表現が要求され、洗練され、解釈可能な自動評価が決定的かつ困難である。 ROUGEやBERTScoreといった従来のメトリクスは、モデル応答と参照応答のパターンが異なるため、セマンティックな類似性を捉えるのに苦労しています。現在のLLMに基づく評価手法は、ペアワイズやリストワイズによる解答の比較など、直感的な解釈性に欠ける。各応答のポイントワイドスコアはいくつかの説明を提供するが、異なる質問内容に適応できない。最も顕著なのは、既存の手法がファクトイドと非ファクトイドの問題を区別している点である。これらの課題に対処するために,まずオープンな質問を識別し,異なる評価戦略を用いて候補回答をランク付けする新しい評価手法である「textbf{MinosEval}」を提案する。ファクトイドの質問に対しては適応的なキーポイントスコア戦略を適用し、非ファクトイドの質問に対しては、リストワイドランキング戦略を使用する。複数のオープンエンドQAデータセットの実験は、コミュニティリソースを補完するために、より候補的なレスポンスを持つ自己構築型データセットを含む、人間のアノテーションとの整合性を高め、より解釈可能な結果を提供することを示す。

関連論文リスト

Answer Matching Outperforms Multiple Choice for Language Model Evaluation [35.90520208701438]
人気のあるベンチマークから選択した複数の質問が、その質問を見ることなく答えられることがよくあります。応答マッチングと呼ばれる手法による生成的評価について検討する。
論文参考訳（メタデータ） (2025-07-03T17:59:02Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文参考訳（メタデータ） (2024-09-23T06:42:21Z)
QUDSELECT: Selective Decoding for Questions Under Discussion Parsing [90.92351108691014]
Question Under Examination (QUD) は、暗黙の質問を用いて文間の会話関係を明らかにするための談話フレームワークである。本稿では,QUD基準を考慮したQUD依存構造を選択的に復号する共同学習フレームワークであるQUDSELECTを紹介する。提案手法は,人的評価において9%,自動評価において4%,最先端のベースラインモデルよりも優れていた。
論文参考訳（メタデータ） (2024-08-02T06:46:08Z)
Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文参考訳（メタデータ） (2024-05-26T21:33:27Z)
PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文参考訳（メタデータ） (2024-02-17T01:56:19Z)
SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文参考訳（メタデータ） (2023-09-21T16:51:30Z)
Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文参考訳（メタデータ） (2023-07-08T04:32:17Z)
Match$^2$: A Matching over Matching Model for Similar Question Identification [74.7142127303489]
コミュニティ質問回答(Community Question Answering, CQA)は,質問や回答の提出を自由に行う,知識獲得のための主要な手段となっている。類似した質問識別は、CQAの中核的なタスクとなり、新しい質問が尋ねられるたびに、アーカイブされたリポジトリから同様の質問を見つけることを目的としている。自然言語の固有のバリエーション、すなわち、同じ質問をしたり、同じ表現を共有する異なる質問をする方法があるため、この2つの質問の類似性を適切に測定することは、長い間困難であった。従来の手法では片側の使用が一般的であり、答えを拡張された表現として活用する。
論文参考訳（メタデータ） (2020-06-21T05:59:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。