論文の概要: ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering
- arxiv url: http://arxiv.org/abs/2510.09351v1
- Date: Fri, 10 Oct 2025 13:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.002368
- Title: ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering
- Title(参考訳): ReTraceQA:commonsense Question Answeringにおける小言語モデルの推論トレースの評価
- Authors: Francesco Maria Molfese, Luca Moroni, Ciro Porcaro, Simone Conia, Roberto Navigli,
- Abstract要約: 本稿では,コモンセンス推論タスクのプロセスレベル評価を導入する新しいベンチマークであるReTraceQAを紹介する。
専門家が注釈を付けたデータセットでは、ほとんどのケース(14-24%)において、SLMは、欠点のある推論プロセスにもかかわらず、正しい最終回答を提供する。
- 参考スコア(独自算出の注目度): 38.045885431565345
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Small Language Models (SLMs) have demonstrated promising performance on an increasingly wide array of commonsense reasoning benchmarks, current evaluation practices rely almost exclusively on the accuracy of their final answers, neglecting the validity of the reasoning processes that lead to those answers. To address this issue, we introduce ReTraceQA, a novel benchmark that introduces process-level evaluation for commonsense reasoning tasks. Our expert-annotated dataset reveals that in a substantial portion of instances (14-24%), SLMs provide correct final answers despite flawed reasoning processes, suggesting that the capabilities of SLMs are often overestimated by evaluation metrics that focus only on comparing the final answer with the ground truth. Indeed, we show that when employing strong Large Language Models (LLMs) as automated judges for reasoning-aware evaluation rather than answer-only metrics, SLM performance drops significantly across all models and datasets, with scores decreasing by up to 25%.
- Abstract(参考訳): SLM(Small Language Models)は、より広範囲のコモンセンス推論ベンチマークで有望なパフォーマンスを示しているが、現在の評価プラクティスは最終的な回答の正確さにのみ依存しており、それらの答えにつながる推論プロセスの有効性を無視している。
本稿では,コモンセンス推論タスクのプロセスレベル評価を導入する新しいベンチマークであるReTraceQAを紹介する。
専門家が注釈付けしたデータセットから,SLMは欠点のある推論プロセスにもかかわらず,かなりの部分(14~24%)で正しい最終回答を提供しており,最終的な回答と基礎的真実を比較することのみに焦点を当てた評価指標によって,SLMの能力が過大評価されることが示唆された。
実際、回答のみのメトリクスではなく推論を意識した評価のために、強力なLarge Language Models(LLMs)を自動判断として採用する場合、SLMのパフォーマンスはすべてのモデルやデータセットで著しく低下し、スコアは最大25%低下する。
関連論文リスト
- SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models [36.10798324093408]
SAS-Benchは、大規模言語モデル(LLM)ベースのショートアンサースコーリングタスクのベンチマークである。
詳細な、段階的なスコアリング、専門家による注釈付きエラーカテゴリ、さまざまな質問タイプを提供する。
また,1030の質問と4,109人の学生回答を含むオープンソースデータセットも公開しています。
論文 参考訳(メタデータ) (2025-05-12T05:43:21Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。