論文の概要: The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic
- arxiv url: http://arxiv.org/abs/2605.28700v1
- Date: Wed, 27 May 2026 16:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.211244
- Title: The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic
- Title(参考訳): 統計的アーネストの重要性:GSM-シンボリックの批判的再評価
- Authors: Dominika Agnieszka Długosz, Arlindo Oliveira, Natalia Díaz Rodríguez,
- Abstract要約: GSM-Symbolicベンチマークでは、25の大規模言語モデルで一貫したパフォーマンス低下が報告されている。
この結論は、不安定な統計的根拠に基づいていると我々は主張する。
我々は、変数バインディング、算術制限、デュアルタスク干渉を含む、モデル固有の障害プロファイルを識別する。
- 参考スコア(独自算出の注目度): 0.5161531917413708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested on template-generated variants of GSM8K problems, concluding that the models lack genuine reasoning capabilities. We argue that this conclusion rests on shaky statistical ground. Re-evaluating 20 open-weight models using Generalised Linear Mixed Models with per-question random effects, we find that only half exhibit statistically significant performance changes under the original prompt format. Moreover, we identify a previously unacknowledged factor: the main GSM-Symbolic dataset contains a systematically shifted distribution of larger integers in problem texts relative to GSM-Base (K-S statistic = 0.12, p < 0.001), contradicting the original authors' claims. Controlling for this large number effect accounts for significance in roughly half the remaining cases. Among models with statistically significant performance deltas, we identify distinct, model-specific failure profiles - including fragility of variable binding, arithmetic limitations, and dual-task interference - underscoring that blanket claims about LLM reasoning are both statistically premature and mechanistically misleading.
- Abstract(参考訳): GSM-Symbolicベンチマーク(Mirzadeh et al , 2025)では、GSM8K問題のテンプレート生成版でテストすると、25大言語モデル(LLM)で一貫した性能低下が報告された。
この結論は、不安定な統計的根拠に基づいていると我々は主張する。
一般線形混合モデルを用いた20個のオープンウェイトモデルの再評価を行った結果、従来のプロンプト形式で統計的に有意な性能変化を示すものはわずかであることがわかった。
主GSM-シンボリックデータセットは、GSM-Base(K-S statistic = 0.12, p < 0.001)に対する問題テキストにおいて、体系的にシフトした大きな整数の分布を含む。
この多数の効果の制御は、残りの約半数のケースで重要である。
統計的に有意なパフォーマンスデルタを持つモデルでは、変数バインディングの脆弱性、算術的制限、デュアルタスク干渉など、モデル固有の障害プロファイルを識別する。
関連論文リスト
- STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.573055530800853]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。
このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文 参考訳(メタデータ) (2024-05-01T05:52:05Z) - CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias [7.28980829208179]
言語モデル(CALM)の包括的評価は、普遍的に関連する2種類の社会デマログラフバイアス、性別、人種の頑健な測定である。
実験により,CALMのバイアススコアは,テンプレートの摂動に対する従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
論文 参考訳(メタデータ) (2023-08-24T03:53:55Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。