論文の概要: VAR-MATH: Probing True Mathematical Reasoning in Large Language Models via Symbolic Multi-Instance Benchmarks
- arxiv url: http://arxiv.org/abs/2507.12885v1
- Date: Thu, 17 Jul 2025 08:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.400691
- Title: VAR-MATH: Probing True Mathematical Reasoning in Large Language Models via Symbolic Multi-Instance Benchmarks
- Title(参考訳): VAR-MATH:記号型マルチインスタンスベンチマークによる大規模言語モデルにおける真の数学的推論の提案
- Authors: Jian Yao, Ran Cheng, Kay Chen Tan,
- Abstract要約: Emphbenchmarkの汚染は テスト問題の公開によって発生します
評価の脆弱さは、単一インスタンスの評価に依存することに起因する。
IME-MATHは、真の推論能力を調査するために設計されたシンボリック評価フレームワークである。
- 参考スコア(独自算出の注目度): 25.295071827427677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning (RL) have led to substantial improvements in the mathematical reasoning abilities of large language models (LLMs), as measured by standard benchmarks. However, these gains often persist even when models are trained with flawed signals, such as random or inverted rewards, raising a fundamental question: do such improvements reflect true reasoning, or are they merely artifacts of overfitting to benchmark-specific patterns? To address this question, we take an evaluation-centric perspective and identify two critical shortcomings in existing protocols. First, \emph{benchmark contamination} arises from the public availability of test problems, increasing the risk of data leakage. Second, \emph{evaluation fragility} stems from the reliance on single-instance assessments, which are highly sensitive to stochastic outputs and fail to capture reasoning consistency. To overcome these limitations, we introduce {VAR-MATH}, a symbolic evaluation framework designed to probe genuine reasoning ability. By converting fixed numerical problems into symbolic templates and requiring models to solve multiple instantiations of each, VAR-MATH enforces consistent reasoning across structurally equivalent variants, thereby mitigating contamination and improving evaluation robustness. We apply VAR-MATH to transform two popular benchmarks, AMC23 and AIME24, into their symbolic counterparts, VAR-AMC23 and VAR-AIME24. Experimental results reveal substantial performance drops for RL-trained models on the variabilized versions, especially for smaller models, with average declines of 48.0\% on AMC23 and 58.3\% on AIME24. These findings suggest that many existing RL methods rely on superficial heuristics and fail to generalize beyond specific numerical forms. Overall, VAR-MATH offers a principled, contamination-resistant evaluation paradigm for mathematical reasoning.
- Abstract(参考訳): 近年の強化学習(RL)の進歩は、標準ベンチマークによって測定された大規模言語モデル(LLM)の数学的推論能力を大幅に向上させた。
しかし、このような改善は真の推論を反映しているか、それとも単にベンチマーク固有のパターンに過度に適合する人工物なのか、という根本的な疑問を提起する。
この問題に対処するため、評価中心の視点で既存のプロトコルにおける2つの重要な欠点を識別する。
第一に、emph{benchmark contamination} はテスト問題の公開により発生し、データ漏洩のリスクが増大する。
第二に、'emph{evaluation fragility' は、確率的出力に非常に敏感であり、推論整合性を捉えることができない単一インスタンス評価に依存することに由来する。
これらの制約を克服するために,真の推論能力の探索を目的とした記号的評価フレームワークである {VAR-MATH} を導入する。
固定数値問題をシンボリックテンプレートに変換し、各モデルの複数のインスタンス化を要求することで、VAR-MATHは構造的に等価な変種間の一貫した推論を強制し、汚染を緩和し、評価ロバスト性を向上させる。
AMC23とAIME24の2つのベンチマークをVAR-AMC23とVAR-AIME24に変換するためにVAR-MATHを適用した。
実験の結果、特に小型モデルでは、RCLをトレーニングしたモデルでは、AMC23では48.0\%、AIME24では58.3\%の低下が見られた。
これらの結果は、既存のRL法の多くは表面的ヒューリスティックに依存しており、特定の数値形式を超えて一般化することができないことを示唆している。
全体として、VAR-MATHは数学的推論のための原則付き、汚染耐性評価パラダイムを提供する。
関連論文リスト
- REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once [33.049237516125146]
REST(Reasoning Evaluation through Simultaneous Testing)は、大規模推論モデルを複数の問題に同時に公開するストレステストフレームワークである。
DeepSeek-R1のような最先端(SOTA)モデルでさえ、ストレステストにおいてかなりの性能低下を示します。
論文 参考訳(メタデータ) (2025-07-14T17:58:47Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [68.54308967669795]
Qwen2.5は強力な数学的推論性能を示すが、大規模ウェブコーパスでの事前学習はデータ汚染に弱いことを示す。
我々は任意の長さと難易度を持つ完全合成算術問題を生成するジェネレータを導入し、RandomCalculationと呼ばれるクリーンなデータセットを生成する。
これらの漏洩のないデータセットを用いて、ノイズや誤った信号がなければ、精度の高い報酬信号のみが継続的に性能を改善することを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation [15.205635488139043]
大規模言語モデル(LLM)における推論能力の階層構造を特徴付けるフレームワークであるRE-IMAGINEを紹介する。
中間記号表現における問題を変更することにより、RE-IMAGINEは暗記だけでは解けない多くの問題を任意に生成する。
提案手法は, LLM の複数のファミリーを評価するために広く利用されている4つのベンチマークで実証し, モデルに問題ばらつきがある場合の性能低下を観察する。
論文 参考訳(メタデータ) (2025-06-18T13:35:47Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility [29.437125712259046]
Reasoningは、言語モデル(LM)の次の主要フロンティアとして登場した。
我々は総合的な実証的研究を行い、現在の数学的推論ベンチマークは微妙な実装選択に対して非常に敏感であることがわかった。
本稿では,ベストプラクティスと報告基準を明確に定義した標準化された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-09T17:58:17Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。