論文の概要: Improving Score Reliability of Multiple Choice Benchmarks with Consistency Evaluation and Altered Answer Choices
- arxiv url: http://arxiv.org/abs/2511.21860v1
- Date: Wed, 26 Nov 2025 19:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.266781
- Title: Improving Score Reliability of Multiple Choice Benchmarks with Consistency Evaluation and Altered Answer Choices
- Title(参考訳): 整合性評価と修正アンサー選択による複数選択ベンチマークのスコア信頼性の向上
- Authors: Paulo Cavalin, Cassia Sanctos, Marcelo Grave, Claudio Pinhanez, Yago Primerano,
- Abstract要約: 本稿では,複数選択(MC)ベンチマークで計算したLarge Language Model(LLM)スコアの信頼性を向上させるため,CRA(Consistency-Re Balanced Accuracy)尺度を提案する。
提案手法では, LLMの応答整合性について検討し, 応答選択を改良した合成質問を利用して検討した。
- 参考スコア(独自算出の注目度): 0.013048920509133805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present the Consistency-Rebalanced Accuracy (CoRA) metric, improving the reliability of Large Language Model (LLM) scores computed on multiple choice (MC) benchmarks. Our metric explores the response consistency of the LLMs, taking advantage of synthetically-generated questions with altered answer choices. With two intermediate scores, i.e. Bare-Minimum-Consistency Accuracy (BMCA) and Consistency Index (CI), CoRA is computed by adjusting the multiple-choice question answering (MCQA) scores to better reflect the level of consistency of the LLM. We present evaluations in different benchmarks using diverse LLMs, and not only demonstrate that LLMs can present low response consistency even when they present high MCQA scores, but also that CoRA can successfully scale down the scores of inconsistent models.
- Abstract(参考訳): 本研究では,複数選択(MC)ベンチマークで計算した大規模言語モデル(LLM)スコアの信頼性を向上させるため,CRA(Consistency-Re Balanced Accuracy)尺度を提案する。
提案手法では, LLMの応答整合性について検討し, 応答選択を改良した合成質問を利用して検討した。
2つの中間スコア、すなわち、BMCA(Bare-Minimum-Consistency Accuracy)とCI(Consistency Index)で、MCQA(Multi-choice Question answering)スコアを調整することにより、LCMの一貫性のレベルをよりよく反映する。
多様なLCMを用いて異なるベンチマークで評価を行い、高いMCQAスコアを提示しても低応答整合性を示すだけでなく、CoRAが不整合モデルのスコアをスケールダウンできることを示す。
関連論文リスト
- JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文 参考訳(メタデータ) (2025-11-20T01:14:39Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - On Robustness and Reliability of Benchmark-Based Evaluation of LLMs [6.121856629864516]
LLM(Large Language Models)の有効性は通常、MMLU、ARC-C、HellaSwagなどのベンチマークによって評価される。
実世界のアプリケーションは言語的多様性を伴い、同じ質問やクエリの様々なリワードでモデルの有効性を維持する必要がある。
そこで我々は,LLMの頑健さをベンチマーク問題に言い換えて体系的に評価し,ベンチマークに基づく評価がモデル能力の信頼性を評価できるかどうかを検証した。
論文 参考訳(メタデータ) (2025-09-04T08:43:27Z) - Metric assessment protocol in the context of answer fluctuation on MCQ tasks [4.453107218424601]
MCQ(Multiple-choice Question)は,LLM機能を効率的に評価するための標準となっている。
これまでの研究では、徹底的な評価は行われていない。
本稿では,評価手法を変動率との関係から分析する計量評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-07-21T13:01:46Z) - CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。
LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文 参考訳(メタデータ) (2025-07-14T17:56:29Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。
LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。
しかし、この評価手法の堅牢性に関する懸念は続いている。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。