論文の概要: Unmasking Reasoning Processes: A Process-aware Benchmark for Evaluating Structural Mathematical Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2602.00564v1
- Date: Sat, 31 Jan 2026 07:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.257565
- Title: Unmasking Reasoning Processes: A Process-aware Benchmark for Evaluating Structural Mathematical Reasoning in LLMs
- Title(参考訳): 未知の推論過程:LLMにおける構造的数学的推論の評価のためのプロセス認識ベンチマーク
- Authors: Xiang Zheng, Weiqi Zhai, Wei Wang, Boyu Yang, Wenbo Li, Ruixiang Luo, Haoxiang Sun, Yucheng Wang, Zhengze Li, Meng Wang, Yuetian Du, Guojie Lin, Yaxuan Wang, Xiaoxiao Xu, Yanhu Mo, Xuan Ren, Hu Wei, Ze Xu,
- Abstract要約: 最近の大規模言語モデル (LLM) は、多くの確立された数学的推論ベンチマークにおいて、ほぼ飽和の精度を達成している。
この飽和はテンプレートベースの計算と浅い算術分解の優位性に起因している。
本稿ではReasoningMath-Plusについて紹介する。
- 参考スコア(独自算出の注目度): 20.82580343824728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) achieve near-saturation accuracy on many established mathematical reasoning benchmarks, raising concerns about their ability to diagnose genuine reasoning competence. This saturation largely stems from the dominance of template-based computation and shallow arithmetic decomposition in existing datasets, which underrepresent reasoning skills such as multi-constraint coordination, constructive logical synthesis, and spatial inference. To address this gap, we introduce ReasoningMath-Plus, a benchmark of 150 carefully curated problems explicitly designed to evaluate structural reasoning. Each problem emphasizes reasoning under interacting constraints, constructive solution formation, or non-trivial structural insight, and is annotated with a minimal reasoning skeleton to support fine-grained process-level evaluation. Alongside the dataset, we introduce HCRS (Hazard-aware Chain-based Rule Score), a deterministic step-level scoring function, and train a Process Reward Model (PRM) on the annotated reasoning traces. Empirically, while leading models attain relatively high final-answer accuracy (up to 5.8/10), HCRS-based holistic evaluation yields substantially lower scores (average 4.36/10, best 5.14/10), showing that answer-only metrics can overestimate reasoning robustness.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、多くの確立された数学的推論のベンチマークでほぼ飽和の精度を達成し、真の推論能力の診断能力に関する懸念を提起している。
この飽和は、テンプレートベースの計算の優位性と、マルチ制約調整、構成論理合成、空間推論といった推論のスキルを過小評価する既存のデータセットの浅い算術分解に起因している。
このギャップに対処するために、構造的推論を評価するために明示的に設計された150個の慎重に計算された問題のベンチマークであるReasoningMath-Plusを紹介する。
それぞれの問題は、相互作用する制約、構成的ソリューション形成、あるいは非自明な構造的洞察の下での推論を強調し、微粒なプロセスレベルの評価をサポートするために最小限の推論スケルトンで注釈付けされる。
このデータセットに加えて、決定論的ステップレベルスコア関数であるHCRS(Hazard-aware Chain-based Rule Score)を導入し、注釈付き推論トレース上でProcess Reward Model(PRM)をトレーニングする。
実験的に、先導的なモデルが比較的高い最終回答精度(最大5.8/10)を達成する一方で、HCRSに基づく全体評価は、かなり低いスコア(平均4.36/10、ベスト5.14/10)を得る。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts [19.518525241726916]
Encode-Think-Decode (ETD) は、トレーニング中の推論関連レイヤの小さなサブセットを反復するようにトレーニングすることで、ベースモデルの推論能力を向上する手法である。
ETDモデルは、GSM8Kで+28.4%、OLMo-2 1Bベースモデルで+36%の相対精度の改善を含む17の推論ベンチマークで大幅に向上した。
論文 参考訳(メタデータ) (2025-10-08T15:58:35Z) - PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models [6.312798900093575]
大規模言語モデル (LLM) は複雑な数学的ベンチマークでは優れた性能を得るが、基本的な数学的推論では失敗することがある。
本稿では,正確さと過度に考えることの基本的なトレードオフに焦点を当てる。
本研究は,総合モデル評価のための高精度とトークン効率を組み合わせた調和平均計量であるOverthinking Scoreを紹介する。
論文 参考訳(メタデータ) (2025-07-05T12:31:17Z) - Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures [21.390740746718947]
DSR-Benchは,大規模言語モデルの構造的推論を体系的に評価する最初のベンチマークである。
ベンチマークは、20のデータ構造、35の操作、および、最小限の汚染で合成生成された4,140の問題インスタンスにまたがる。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。