論文の概要: Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity
- arxiv url: http://arxiv.org/abs/2512.00552v1
- Date: Sat, 29 Nov 2025 16:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.291682
- Title: Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity
- Title(参考訳): 数学の忠実さで推論するモデルがいかに小さいか
- Authors: Subramanyam Sahoo, Vinija Jain, Saanidhya Vats, Siddharth Mohapatra, Rui Min, Aman Chadha, Divya Chaudhary,
- Abstract要約: 表面パターンマッチングと実際の数学的推論を区別する診断フレームワークを提案する。
我々は表面性能と推論忠実度の間に顕著な不一致を明らかにした。
私たちの診断では、従来の精度メトリクスには見えない推論の失敗を明らかにします。
- 参考スコア(独自算出の注目度): 15.774418410083515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluation of mathematical reasoning in language models relies primarily on answer accuracy, potentially masking fundamental failures in logical computation. We introduce a diagnostic framework that distinguishes genuine mathematical reasoning from superficial pattern matching through four complementary axes: forward-backward consistency, transitivity coverage, counterfactual sensitivity, and perturbation robustness. Through a case study applying this framework to Qwen3-0.6B on the MenatQA dataset, we reveal a striking disconnect between surface performance and reasoning fidelity. While the model achieves reasonable answer accuracy (70%+), it demonstrates poor backward consistency (15%), limited transitivity coverage (32.2%), and brittle sensitivity to perturbations. Our diagnostics expose reasoning failures invisible to traditional accuracy metrics, suggesting that this small model relies heavily on pattern matching rather than genuine logical computation. While our empirical findings are based on a single 600M-parameter model, the diagnostic framework itself is model-agnostic and generalizable. We release our evaluation protocols to enable the research community to assess reasoning fidelity across different model scales and architectures, moving beyond surface-level accuracy toward verifiable mathematical reasoning.
- Abstract(参考訳): 言語モデルにおける数学的推論の現在の評価は、主に解の精度に依存し、論理計算における基本的な失敗を隠蔽する可能性がある。
本稿では,前向きの整合性,推移性カバレッジ,反ファクト感,摂動堅牢性という4つの相補的軸を通した表面的パターンマッチングと真の数学的推論を区別する診断枠組みを提案する。
MenatQAデータセット上のQwen3-0.6Bにこのフレームワークを適用したケーススタディにより、表面性能と推論忠実度の間に顕著な不一致が明らかとなった。
このモデルは妥当な解答精度(70%以上)を達成するが、後方整合性(15%)、遷移率の制限(32.2%)、摂動に対する不安定な感度を示す。
我々の診断では、従来の精度の指標には見えない推論の失敗が露呈しており、この小さなモデルは真の論理計算よりもパターンマッチングに大きく依存していることを示唆している。
経験的発見は1つの600Mパラメータモデルに基づいているが、診断フレームワーク自体はモデルに依存しず、一般化可能である。
我々は,評価プロトコルを公開し,研究コミュニティが様々なモデルスケールとアーキテクチャをまたいだ推論の忠実さを評価できるようにし,表面レベルの精度を超えて検証可能な数学的推論へと移行する。
関連論文リスト
- The Catastrophic Paradox of Human Cognitive Frameworks in Large Language Model Evaluation: A Comprehensive Empirical Analysis of the CHC-LLM Incompatibility [0.0]
平均的な人間のIQスコアを達成するモデルは、結晶化された知識タスクにおいてゼロに近づいた二分精度を同時に示す。
この切断は、結晶化されたインテリジェンス領域において最も強く現れる。
人工知能の非人間性を認識するネイティブマシン認識アセスメントを開発するための枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-23T05:49:57Z) - From Black-box to Causal-box: Towards Building More Interpretable Models [57.23201263629627]
本稿では, 因果解釈可能性の概念を導入し, 特定のモデルのクラスから対実的クエリを評価できるときの形式化について述べる。
我々は、与えられたモデルアーキテクチャが与えられた偽物クエリをサポートするかどうかを決定する完全なグラフィカルな基準を導出する。
論文 参考訳(メタデータ) (2025-10-24T20:03:18Z) - Systematic Diagnosis of Brittle Reasoning in Large Language Models [1.14219428942199]
人工知能における中心的な問題は、機械学習モデルが数学を理解する範囲である。
本稿では,特定の故障点を診断するために,標準ベンチマークを超えて数学的推論を計測する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-10-05T21:40:09Z) - Mathematical Proof as a Litmus Test: Revealing Failure Modes of Advanced Large Reasoning Models [11.250861762443801]
RFMDataset(Reveal Failure Modes)は200種類の数学的証明問題の集合である。
先進モデルの性能を徹底的に評価する。
解析により,現在の大規模推論モデルの基本的制約を示す10種類のきめ細かい誤差型が明らかになった。
論文 参考訳(メタデータ) (2025-06-20T16:14:18Z) - Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。