論文の概要: VAR-MATH: Probing True Mathematical Reasoning in LLMS via Symbolic Multi-Instance Benchmarks
- arxiv url: http://arxiv.org/abs/2507.12885v2
- Date: Thu, 02 Oct 2025 05:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 21:54:12.764295
- Title: VAR-MATH: Probing True Mathematical Reasoning in LLMS via Symbolic Multi-Instance Benchmarks
- Title(参考訳): VAR-MATH:シンボリックマルチインスタンスベンチマークによるLLMSにおける真の数学的推論の提案
- Authors: Jian Yao, Ran Cheng, Kay Chen Tan,
- Abstract要約: 近年の強化学習の進歩により,LLMの数学的推論能力は大幅に向上した。
これらの利得は、ランダムや逆の報酬のような欠陥のある信号で訓練されたモデルであっても、しばしば持続する。
このような改善は真の推論を反映しているのか、それとも単にベンチマーク固有のパターンに過度に適合した成果物なのか?
固定数値問題をパラメータ化テンプレートに変換するシンボル評価フレームワークであるVAR-MATHを提案する。
- 参考スコア(独自算出の注目度): 29.3214384382719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning (RL) have led to substantial improvements in the mathematical reasoning abilities of LLMs, as measured by standard benchmarks. Yet these gains often persist even when models are trained with flawed signals, such as random or inverted rewards. This raises a fundamental question: do such improvements reflect genuine reasoning, or are they merely artifacts of overfitting to benchmark-specific patterns? To answer this question, we adopt an evaluation-centric perspective and highlight two critical shortcomings in existing protocols. First, benchmark contamination arises because test problems are publicly available, thereby increasing the risk of data leakage. Second, evaluation fragility results from reliance on single-instance assessments, which are sensitive to stochastic outputs and fail to capture reasoning consistency. These limitations suggest the need for a new evaluation paradigm that can probe reasoning ability beyond memorization and one-off success. As response, we propose VAR-MATH, a symbolic evaluation framework that converts fixed numerical problems into parameterized templates and requires models to solve multiple instantiations of each. This design enforces consistency across structurally equivalent variants, mitigates contamination, and enhances robustness through bootstrapped metrics. We apply VAR-MATH to transform three popular benchmarks, AMC23, AIME24, and AIME25, into their symbolic counterparts, VAR-AMC23, VAR-AIME24, and VAR-AIME25. Experimental results show substantial performance drops for RL-trained models on these variabilized benchmarks, especially for smaller models, with average declines of 47.9\% on AMC23, 58.8\% on AIME24, and 72.9\% on AIME25. These findings indicate that some existing RL methods rely on superficial heuristics and fail to generalize beyond specific numerical forms.
- Abstract(参考訳): 近年の強化学習 (RL) の進歩により, LLMの数学的推論能力は大幅に向上した。
しかし、これらの利得は、ランダムや逆の報酬のような欠陥のある信号で訓練されたモデルであっても、しばしば持続する。
このような改善は真の推論を反映しているのか、それとも単にベンチマーク固有のパターンに過度に適合した成果物なのか?
この質問に答えるために、評価中心の視点を採用し、既存のプロトコルにおける2つの重要な欠点を強調します。
第一に、テスト問題が公開されており、データ漏洩のリスクが増大するため、ベンチマーク汚染が発生する。
第二に、評価の脆弱性は、確率的出力に敏感であり、推論一貫性の獲得に失敗する単一インスタンス評価に依存することから生じる。
これらの制限は、記憶以上の推論能力と1対1の成功を調査できる新しい評価パラダイムの必要性を示唆している。
そこで本研究では,固定数値問題をパラメータ化テンプレートに変換するシンボル評価フレームワークであるVAR-MATHを提案する。
この設計は、構造的に等価な変種間の一貫性を強制し、汚染を緩和し、ブートストラップされたメトリクスを通して堅牢性を高める。
AMC23, AIME24, AIME25の3つのベンチマークをVAR-AMC23, VAR-AIME24, VAR-AIME25に変換する。
実験結果から、これらの可変化ベンチマークでは、特に小型モデルでは、AMC23では47.9倍、AIME24では58.8倍、AIME25では72.9倍の低下が見られた。
これらの結果から,既存のRL法は表面的ヒューリスティックに頼っており,特定の数値形式を超越して一般化できないことが示唆された。
関連論文リスト
- REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once [33.049237516125146]
REST(Reasoning Evaluation through Simultaneous Testing)は、大規模推論モデルを複数の問題に同時に公開するストレステストフレームワークである。
DeepSeek-R1のような最先端(SOTA)モデルでさえ、ストレステストにおいてかなりの性能低下を示します。
論文 参考訳(メタデータ) (2025-07-14T17:58:47Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [68.54308967669795]
Qwen2.5は強力な数学的推論性能を示すが、大規模ウェブコーパスでの事前学習はデータ汚染に弱いことを示す。
我々は任意の長さと難易度を持つ完全合成算術問題を生成するジェネレータを導入し、RandomCalculationと呼ばれるクリーンなデータセットを生成する。
これらの漏洩のないデータセットを用いて、ノイズや誤った信号がなければ、精度の高い報酬信号のみが継続的に性能を改善することを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation [15.205635488139043]
大規模言語モデル(LLM)における推論能力の階層構造を特徴付けるフレームワークであるRE-IMAGINEを紹介する。
中間記号表現における問題を変更することにより、RE-IMAGINEは暗記だけでは解けない多くの問題を任意に生成する。
提案手法は, LLM の複数のファミリーを評価するために広く利用されている4つのベンチマークで実証し, モデルに問題ばらつきがある場合の性能低下を観察する。
論文 参考訳(メタデータ) (2025-06-18T13:35:47Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility [29.437125712259046]
Reasoningは、言語モデル(LM)の次の主要フロンティアとして登場した。
我々は総合的な実証的研究を行い、現在の数学的推論ベンチマークは微妙な実装選択に対して非常に敏感であることがわかった。
本稿では,ベストプラクティスと報告基準を明確に定義した標準化された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-09T17:58:17Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。