論文の概要: Evaluating Mathematical Reasoning Beyond Accuracy
- arxiv url: http://arxiv.org/abs/2404.05692v2
- Date: Tue, 14 Jan 2025 05:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:25:46.404295
- Title: Evaluating Mathematical Reasoning Beyond Accuracy
- Title(参考訳): 正確性を超えた数学的推論の評価
- Authors: Shijie Xia, Xuefeng Li, Yixin Liu, Tongshuang Wu, Pengfei Liu,
- Abstract要約: 推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
- 参考スコア(独自算出の注目度): 50.09931172314218
- License:
- Abstract: The leaderboard of Large Language Models (LLMs) in mathematical tasks has been continuously updated. However, the majority of evaluations focus solely on the final results, neglecting the quality of the intermediate steps. This oversight can mask underlying problems, such as logical errors or unnecessary steps in the reasoning process. To measure reasoning beyond final-answer accuracy, we introduce ReasonEval, a new methodology for evaluating the quality of reasoning steps. ReasonEval employs validity and redundancy to characterize the reasoning quality, as well as accompanying LLMs to assess them automatically. We explore different design options for the LLM-based evaluators and empirically demonstrate that ReasonEval, when instantiated with base models possessing strong mathematical knowledge and trained with high-quality labeled data, consistently outperforms baseline methods in the meta-evaluation datasets. We also highlight the strong generalization capabilities of ReasonEval. By utilizing ReasonEval to evaluate LLMs specialized in math, we find that an increase in final-answer accuracy does not necessarily guarantee an improvement in the overall quality of the reasoning steps for challenging mathematical problems. Additionally, we observe that ReasonEval can play a significant role in data selection. We open-source the best-performing model, meta-evaluation script, and all evaluation results to facilitate future research.
- Abstract(参考訳): 数学タスクにおけるLLM(Large Language Models)のリーダーボードは継続的に更新されている。
しかし、ほとんどの評価は最終結果のみに焦点を合わせ、中間段階の品質を無視する。
この監視は、論理的誤りや推論プロセスの不必要なステップなど、根本的な問題を隠蔽する可能性がある。
最終回答精度を超えて推論を測定するために,推論ステップの品質を評価する新しい手法であるReasonEvalを紹介した。
ReasonEvalは、推論品質を特徴付けるために妥当性と冗長性を使用し、LLMを伴って自動的に評価する。
LLMに基づく評価器の異なる設計オプションを探索し、ReasonEvalが強力な数学的知識を持つベースモデルでインスタンス化され、高品質なラベル付きデータで訓練された場合、メタ評価データセットにおけるベースライン手法を一貫して上回っていることを実証的に示す。
ReasonEvalの強力な一般化機能についても強調する。
ReasonEval を用いて数学に特化した LLM の評価を行うことで、最終回答精度の向上が必ずしも数学問題に挑戦するための推論ステップの全体的な品質向上を保証するとは限らないことが分かる。
さらに、データ選択においてReasonEvalが重要な役割を果たすことを観察する。
我々は,最高の評価モデル,メタ評価スクリプト,および将来の研究を促進するためのすべての評価結果をオープンソース化する。
関連論文リスト
- ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - MalAlgoQA: Pedagogical Evaluation of Counterfactual Reasoning in Large Language Models and Implications for AI in Education [2.872215065231376]
本稿では,MalAlgoQAを提案する。MalAlgoQAは,大規模言語モデルの対実的推論能力を評価するために設計されたデータセットである。
MalAlgoQAの核心は、誤った答えの選択の裏にある、不完全で論理的に一貫性のある推論経路の理論的根拠である。
論文 参考訳(メタデータ) (2024-07-01T03:39:13Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification [41.53026834367054]
本稿では,マルチモーダル数学推論のための新しいベンチマークMM-MATHを提案する。
MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。
最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。
論文 参考訳(メタデータ) (2024-04-07T22:16:50Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Model Optimization in Imbalanced Regression [2.580765958706854]
不均衡なドメイン学習は、あまり表現されていないがドメインにとって最も重要であるインスタンスを予測するための正確なモデルを作成することを目的としている。
主な理由の1つは、極端な(まれな)値の誤差を最小限に抑えることができる損失関数の欠如である。
最近、評価指標が導入された: 正方形誤差関連領域(SERA)
このメトリクスは、極端な値で犯したエラーに重点を置いていると同時に、ターゲット変数全体のパフォーマンスも考慮している。
論文 参考訳(メタデータ) (2022-06-20T20:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。