論文の概要: Answer Matching Outperforms Multiple Choice for Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2507.02856v1
- Date: Thu, 03 Jul 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.874413
- Title: Answer Matching Outperforms Multiple Choice for Language Model Evaluation
- Title(参考訳): 言語モデル評価のための複数選択の解答マッチング性能
- Authors: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping,
- Abstract要約: 人気のあるベンチマークから選択した複数の質問が、その質問を見ることなく答えられることがよくあります。
応答マッチングと呼ばれる手法による生成的評価について検討する。
- 参考スコア(独自算出の注目度): 35.90520208701438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple choice benchmarks have long been the workhorse of language model evaluation because grading multiple choice is objective and easy to automate. However, we show multiple choice questions from popular benchmarks can often be answered without even seeing the question. These shortcuts arise from a fundamental limitation of discriminative evaluation not shared by evaluations of the model's free-form, generative answers. Until recently, there appeared to be no viable, scalable alternative to multiple choice--but, we show that this has changed. We consider generative evaluation via what we call answer matching: Give the candidate model the question without the options, have it generate a free-form response, then use a modern language model with the reference answer to determine if the response matches the reference. To compare the validity of different evaluation strategies, we annotate MMLU-Pro and GPQA-Diamond to obtain human grading data, and measure the agreement of each evaluation approach. We find answer matching using recent models--even small ones--achieves near-perfect agreement, in the range of inter-annotator agreement. In contrast, both multiple choice evaluation and using LLM-as-a-judge without reference answers aligns poorly with human grading. Improving evaluations via answer matching is not merely a conceptual concern: the rankings of several models change significantly when evaluating their free-form responses with answer matching. In light of these findings, we discuss how to move the evaluation ecosystem from multiple choice to answer matching.
- Abstract(参考訳): 複数選択のベンチマークは、複数の選択のグラデーションが客観的で自動化が容易であるため、言語モデル評価のワークホースとして長く使われてきた。
しかし、人気のあるベンチマークから選択した複数の質問は、その質問を見ることなく答えられることが多い。
これらのショートカットは、モデルの自由形式、生成的回答の評価によって共有されない差別的評価の根本的な制限から生じる。
最近まで、複数の選択肢に代えて実現可能でスケーラブルな選択肢はありませんでした。
候補モデルに選択肢のない質問を与え、自由形式の応答を生成して、参照応答を伴う現代的な言語モデルを使用して、応答が参照と一致するかどうかを判断する。
評価手法の妥当性を比較するため,MMLU-ProとGPQA-Diamondに注釈を付け,評価手法の一致度を測定した。
近年のモデルである小さなモデルであっても,アノテータ間の合意の範囲内で,ほぼ完全な合意が得られた。
一方,LLM-as-a-judgeを基準回答のない複数選択評価と併用することは,ヒトの成績とよく一致しない。
回答マッチングによる評価を改善することは単なる概念的な問題ではなく、回答マッチングによる自由形式の応答を評価する際に、いくつかのモデルのランクが著しく変化する。
これらの知見を踏まえて、評価エコシステムを複数の選択肢から解答マッチングへ移行する方法について議論する。
関連論文リスト
- MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs [15.278241998033822]
大規模言語モデル(LLM)の能力を評価する上で,QA(Open-ended Question answering)が重要な課題である。
オープンな質問をまず識別し,候補回答をランク付けする新しい評価手法である textbfMinosEval を提案する。
論文 参考訳(メタデータ) (2025-06-18T07:49:13Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - "My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models [40.867655189493924]
言語生成のオープンな性質は、大規模言語モデル(LLM)の評価を困難にしている。
1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。
そこで本研究では,テキストの出力を数次元で評価する。
論文 参考訳(メタデータ) (2024-02-22T12:47:33Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。