論文の概要: Metric assessment protocol in the context of answer fluctuation on MCQ tasks
- arxiv url: http://arxiv.org/abs/2507.15581v1
- Date: Mon, 21 Jul 2025 13:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.399927
- Title: Metric assessment protocol in the context of answer fluctuation on MCQ tasks
- Title(参考訳): MCQタスクにおける回答変動の文脈におけるメトリックアセスメントプロトコル
- Authors: Ekaterina Goliakova, Xavier Renard, Marie-Jeanne Lesot, Thibault Laugel, Christophe Marsala, Marcin Detyniecki,
- Abstract要約: MCQ(Multiple-choice Question)は,LLM機能を効率的に評価するための標準となっている。
これまでの研究では、徹底的な評価は行われていない。
本稿では,評価手法を変動率との関係から分析する計量評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 4.453107218424601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using multiple-choice questions (MCQs) has become a standard for assessing LLM capabilities efficiently. A variety of metrics can be employed for this task. However, previous research has not conducted a thorough assessment of them. At the same time, MCQ evaluation suffers from answer fluctuation: models produce different results given slight changes in prompts. We suggest a metric assessment protocol in which evaluation methodologies are analyzed through their connection with fluctuation rates, as well as original performance. Our results show that there is a strong link between existing metrics and the answer changing, even when computed without any additional prompt variants. A novel metric, worst accuracy, demonstrates the highest association on the protocol.
- Abstract(参考訳): MCQ(Multiple-choice Question)は,LLM機能を効率的に評価するための標準となっている。
このタスクにはさまざまなメトリクスが使用できます。
しかし、これまでの研究では徹底的な評価は行われていない。
MCQの評価は答えの揺らぎに悩まされ、モデルが異なる結果を生み出す。
本稿では,評価手法を変動率と関係づけて分析し,その特性を推定する指標評価プロトコルを提案する。
以上の結果から,既存の指標と解答の相関が,追加のプロンプト変種を伴わずに計算された場合でも強い関係があることが示唆された。
新たな基準である最悪の精度は、プロトコル上の最も高い関連性を示す。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Evaluation of RAG Metrics for Question Answering in the Telecom Domain [0.650923326742559]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)が質問応答(QA)タスクを実行できるようにするために広く使われている。
この作業は、いくつかの指標(事実性、文脈関連性、回答関連性、回答正当性、回答類似性、事実正当性)に対して修正されたこのパッケージで、プロンプトの中間出力を提供する。
次に、修正されたRAGASパッケージの出力のエキスパート評価を分析し、通信領域で使用する際の課題を観察する。
論文 参考訳(メタデータ) (2024-07-15T17:40:15Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - DISTO: Evaluating Textual Distractors for Multi-Choice Questions using
Negative Sampling based Approach [5.033269502052902]
複数選択質問(MCQ)は、読解理解(RC)を評価するための効率的で一般的な方法である
ディトラクタ生成(DG)モデルが提案されており、その性能は一般的に機械翻訳(MT)メトリクスを用いて評価される。
生成した障害に対する最初の学習的評価基準であるdisTOを提案する。
論文 参考訳(メタデータ) (2023-04-10T22:03:00Z) - Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文 参考訳(メタデータ) (2022-04-21T15:43:45Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。