論文の概要: Evaluating Mathematical Reasoning Beyond Accuracy
- arxiv url: http://arxiv.org/abs/2404.05692v1
- Date: Mon, 8 Apr 2024 17:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 13:26:22.831733
- Title: Evaluating Mathematical Reasoning Beyond Accuracy
- Title(参考訳): 正確性を超えた数学的推論の評価
- Authors: Shijie Xia, Xuefeng Li, Yixin Liu, Tongshuang Wu, Pengfei Liu,
- Abstract要約: 推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
- 参考スコア(独自算出の注目度): 50.09931172314218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The leaderboard of Large Language Models (LLMs) in mathematical tasks has been continuously updated. However, the majority of evaluations focus solely on the final results, neglecting the quality of the intermediate steps. This oversight can mask underlying problems, such as logical errors or unnecessary steps in the reasoning process. To measure reasoning beyond final-answer accuracy, we introduce ReasonEval, a new methodology for evaluating the quality of reasoning steps. ReasonEval employs $\textit{validity}$ and $\textit{redundancy}$ to characterize the reasoning quality, as well as accompanying LLMs to assess them automatically. Instantiated by base models that possess strong mathematical knowledge and trained with high-quality labeled data, ReasonEval achieves state-of-the-art performance on human-labeled datasets and can accurately detect different types of errors generated by perturbation. When applied to evaluate LLMs specialized in math, we find that an increase in final-answer accuracy does not necessarily guarantee an improvement in the overall quality of the reasoning steps for challenging mathematical problems. Additionally, we observe that ReasonEval can play a significant role in data selection. We release the best-performing model, meta-evaluation script, and all evaluation results at https://github.com/GAIR-NLP/ReasonEval.
- Abstract(参考訳): 数学タスクにおけるLLM(Large Language Models)のリーダーボードは継続的に更新されている。
しかし、ほとんどの評価は最終結果のみに焦点を合わせ、中間段階の品質を無視する。
この監視は、論理的誤りや推論プロセスの不必要なステップなど、根本的な問題を隠蔽する可能性がある。
最終回答精度を超えて推論を測定するために,推論ステップの品質を評価する新しい手法であるReasonEvalを紹介した。
ReasonEvalは、推論の品質を特徴付けるために$\textit{validity}$と$\textit{redundancy}$を使用し、それを自動的に評価するためにLLMを伴います。
強力な数学的知識を有し、高品質なラベル付きデータで訓練されたベースモデルによって、ReasonEvalは、人間のラベル付きデータセット上で最先端のパフォーマンスを実現し、摂動によって生成された様々なタイプのエラーを正確に検出することができる。
数学を専門とするLLMの評価に適用すると、最終回答精度の上昇は、数学問題に挑戦する推論ステップの全体的な品質向上を必ずしも保証していないことが分かる。
さらに、データ選択においてReasonEvalが重要な役割を果たすことを観察する。
我々は、最高のパフォーマンスモデル、メタ評価スクリプト、およびすべての評価結果をhttps://github.com/GAIR-NLP/ReasonEval.comでリリースします。
関連論文リスト
- ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - MalAlgoQA: Pedagogical Evaluation of Counterfactual Reasoning in Large Language Models and Implications for AI in Education [2.872215065231376]
本稿では,MalAlgoQAを提案する。MalAlgoQAは,大規模言語モデルの対実的推論能力を評価するために設計されたデータセットである。
MalAlgoQAの核心は、誤った答えの選択の裏にある、不完全で論理的に一貫性のある推論経路の理論的根拠である。
論文 参考訳(メタデータ) (2024-07-01T03:39:13Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification [41.53026834367054]
本稿では,マルチモーダル数学推論のための新しいベンチマークMM-MATHを提案する。
MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。
最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。
論文 参考訳(メタデータ) (2024-04-07T22:16:50Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Model Optimization in Imbalanced Regression [2.580765958706854]
不均衡なドメイン学習は、あまり表現されていないがドメインにとって最も重要であるインスタンスを予測するための正確なモデルを作成することを目的としている。
主な理由の1つは、極端な(まれな)値の誤差を最小限に抑えることができる損失関数の欠如である。
最近、評価指標が導入された: 正方形誤差関連領域(SERA)
このメトリクスは、極端な値で犯したエラーに重点を置いていると同時に、ターゲット変数全体のパフォーマンスも考慮している。
論文 参考訳(メタデータ) (2022-06-20T20:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。