論文の概要: An Investigation of Robustness of LLMs in Mathematical Reasoning: Benchmarking with Mathematically-Equivalent Transformation of Advanced Mathematical Problems
- arxiv url: http://arxiv.org/abs/2508.08833v1
- Date: Tue, 12 Aug 2025 10:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.397277
- Title: An Investigation of Robustness of LLMs in Mathematical Reasoning: Benchmarking with Mathematically-Equivalent Transformation of Advanced Mathematical Problems
- Title(参考訳): 数学的推論におけるLLMのロバスト性の検討:高度数学問題の数学的等価変換によるベンチマーク
- Authors: Yuren Hao, Xiang Wan, Chengxiang Zhai,
- Abstract要約: 我々は,LLMの数学的推論的ロバスト性を評価するための体系的枠組みを導入する。
我々は、数学的に等価だが言語的およびパラメトリックなバリエーションを持つ高度な数学問題に対して、それらをストレステストする。
この新たな評価手法を用いて,新しいベンチマークデータセットであるPatnamGAPを開発した。
- 参考スコア(独自算出の注目度): 44.60013595455852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a systematic framework beyond conventional method to assess LLMs' mathematical-reasoning robustness by stress-testing them on advanced math problems that are mathematically equivalent but with linguistic and parametric variation. These transformations allow us to measure the sensitivity of LLMs to non-mathematical perturbations, thereby enabling a more accurate evaluation of their mathematical reasoning capabilities. Using this new evaluation methodology, we created PutnamGAP, a new benchmark dataset with multiple mathematically-equivalent variations of competition-level math problems. With the new dataset, we evaluate multiple families of representative LLMs and examine their robustness. Across 18 commercial and open-source models we observe sharp performance degradation on the variants. OpenAI's flagship reasoning model, O3, scores 49 % on the originals but drops by 4 percentage points on surface variants, and by 10.5 percentage points on core-step-based variants, while smaller models fare far worse. Overall, the results show that the proposed new evaluation methodology is effective for deepening our understanding of the robustness of LLMs and generating new insights for further improving their mathematical reasoning capabilities.
- Abstract(参考訳): 本稿では,LLMが数学的に等価だが言語的・パラメトリックなバリエーションを持つ高度な数学問題に対して,ストレステストを行うことにより,従来の手法を超えて,LLMの数学的推論ロバスト性を評価するための体系的枠組みを提案する。
これらの変換により、LLMの非数学的摂動に対する感度を測定することができ、数学的推論能力をより正確に評価することができる。
この新たな評価手法を用いて、競合レベルの数学問題の数学的に等価なバリエーションを持つ新しいベンチマークデータセットPatnamGAPを開発した。
新たなデータセットを用いて,代表LLMの複数のファミリーを評価し,その堅牢性を検証した。
商用およびオープンソースモデル18種類にわたって、我々はこの変種に対する急激な性能劣化を観察する。
OpenAIのフラッグシップモデルであるO3は、原型では49 %、表面変種では4 %、コアステップベースの変種では10.5 %、小型モデルはずっと悪い。
その結果, 提案手法は, LLMの堅牢性に対する理解を深め, 数学的推論能力を向上するための新たな洞察を生み出すのに有効であることが示唆された。
関連論文リスト
- Data Diversification Methods In Alignment Enhance Math Performance In LLMs [32.04990280074816]
好み最適化におけるデータ多様化戦略は,大規模言語モデルの数学的推論能力をいかに向上させるかを検討する。
以上の結果から,戦略的に多様化した嗜好データにより,モデルが数学的推論性能を大幅に向上させることができることが示唆された。
論文 参考訳(メタデータ) (2025-07-02T22:12:03Z) - DeepMath-Creative: A Benchmark for Evaluating Mathematical Creativity of Large Language Models [22.050241159312307]
DeepMathチームはオープンな数学的LLMの開発を目的としたオープンソースイニシアチブを立ち上げた。
本稿は、このイニシアチブの初期の貢献を示す。
論文 参考訳(メタデータ) (2025-05-13T16:58:05Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - LLMs for Mathematical Modeling: Towards Bridging the Gap between Natural and Mathematical Languages [14.04286044600141]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて高い性能を示している。
しかし、数学的推論の習熟度は依然として重要な課題である。
LLMの数学的モデル構築能力を評価するためのプロセス指向フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-21T18:29:54Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Controlling Equational Reasoning in Large Language Models with Prompt Interventions [3.9735602856280132]
本稿では,Large Language Models (LLMs) における幻覚率を,シンボルデータ生成フレームワークを用いて制御する方法を検討する。
シンボルエンジンを用いて導出タスクのデータを生成し、数学的導出の特徴を摂動させるために目的の介入を適用する。
次に、細調整されたT5モデル、GPTモデル、LLaMaモデルを含む、様々なLLMに対する迅速な介入の効果を評価する。
論文 参考訳(メタデータ) (2023-07-19T14:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。