論文の概要: Numerical Sensitivity and Robustness: Exploring the Flaws of Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.08022v1
- Date: Wed, 12 Nov 2025 01:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.602847
- Title: Numerical Sensitivity and Robustness: Exploring the Flaws of Mathematical Reasoning in Large Language Models
- Title(参考訳): 数値感度とロバスト性:大規模言語モデルにおける数学的推論の欠陥を探る
- Authors: Zhishen Sun, Guang Dai, Ivor Tsang, Haishan Ye,
- Abstract要約: LLMは数学的推論の分野で大きな進歩を遂げてきたが、それらが真の数学的理解能力を持っているかどうかはいまだに議論の余地がある。
複雑な環境下でのLLMの推論能力を評価するために,意味論的に無関係な摂動文を注入する新しい摂動フレームワークを提案する。
モデルは数値情報による摂動に敏感であり,無関係な数値情報に邪魔された場合,誤った回答が得られやすい。
- 参考スコア(独自算出の注目度): 26.56418042157031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have made significant progress in the field of mathematical reasoning, but whether they have true the mathematical understanding ability is still controversial. To explore this issue, we propose a new perturbation framework to evaluate LLMs' reasoning ability in complex environments by injecting additional semantically irrelevant perturbation sentences and gradually increasing the perturbation intensity. At the same time, we use an additional perturbation method: core questioning instruction missing, to further analyze the LLMs' problem-solving mechanism. The experimental results show that LLMs perform stably when facing perturbation sentences without numbers, but there is also a robustness boundary. As the perturbation intensity increases, the performance exhibits varying degrees of decline; when facing perturbation sentences with numbers, the performance decreases more significantly, most open source models with smaller parameters decrease by nearly or even more than 10%, and further increasing with the enhancement of perturbation intensity, with the maximum decrease reaching 51.55%. Even the most advanced commercial LLMs have seen a 3%-10% performance drop. By analyzing the reasoning process of LLMs in detail, We find that models are more sensitive to perturbations with numerical information and are more likely to give incorrect answers when disturbed by irrelevant numerical information. The higher the perturbation intensity, the more obvious these defects are. At the same time, in the absence of core questioning instruction, models can still maintain an accuracy of 20%-40%, indicating that LLMs may rely on memory templates or pattern matching to complete the task, rather than logical reasoning. In general, our work reveals the shortcomings and limitations of current LLMs in their reasoning capabilities, which is of great significance for the further development of LLMs.
- Abstract(参考訳): LLMは数学的推論の分野で大きな進歩を遂げてきたが、それらが真の数学的理解能力を持っているかどうかはいまだに議論の余地がある。
そこで本研究では, 複雑な環境下でのLLMの推論能力を評価するために, 意味論的に無関係な摂動文を注入し, 摂動強度を徐々に高める新しい摂動フレームワークを提案する。
同時に、LLMの問題解決メカニズムをさらに解析するために、コア質問命令の欠如という新たな摂動法を用いる。
実験の結果, LLMは数字のない摂動文に対して安定に機能することがわかったが, 頑健性の境界もある。
摂動強度の増大に伴い, 数値を伴う摂動文に直面すると, 性能が著しく低下し, パラメータが小さいほとんどのオープンソースモデルは10%以上減少し, さらに摂動強度の増大に伴い最大値が51.55%に達する。
もっとも先進的な商用LLMでさえ、3%-10%のパフォーマンス低下を経験している。
LLMの推論過程を詳細に分析することにより、モデルは数値情報による摂動に敏感であり、無関係な数値情報に乱された場合、誤った答えを与える可能性が高くなることがわかった。
摂動強度が高いほど、これらの欠陥はより明らかになる。
同時に、コア質問命令がなければ、モデルは20%-40%の精度を維持することができ、LLMは論理的推論よりもメモリテンプレートやパターンマッチングに頼っている可能性があることを示している。
概して,本研究は,LLMのさらなる発展に大きく寄与する推理能力において,現在のLLMの欠点と限界を明らかにするものである。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Unveiling Over-Memorization in Finetuning LLMs for Reasoning Tasks [10.807620342718309]
事前訓練された大言語モデル (LLM) はラベル付きデータで微調整され、人間の値に適合する。
本研究では,LLMファインタニングの学習ダイナミクスを推論タスクで研究し,その過記憶現象を明らかにする。
この効果を緩和するために,チェックポイントマージやメモリ化対応リウェイトといった手法を提案する。
論文 参考訳(メタデータ) (2025-08-06T06:34:12Z) - WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [34.350505059394536]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - Smaller = Weaker? Benchmarking Robustness of Quantized LLMs in Code Generation [7.262231066394782]
大規模言語モデル(LLM)を圧縮する主流手法として量子化が登場した
コード生成タスクにおいて,量子化がLLMのロバスト性に与える影響について,最初の系統的研究を行った。
本研究は,LLMの量子化が実精度よりも優れた強靭性を示すことを示すことによって,従来の知恵に挑戦する。
論文 参考訳(メタデータ) (2025-06-28T06:32:25Z) - Revisiting LLMs as Zero-Shot Time-Series Forecasters: Small Noise Can Break Large Models [32.30528039193554]
大規模言語モデル(LLM)は、ドメイン固有のトレーニングなしで、様々なタスクにまたがる顕著なパフォーマンスを示している。
近年の研究では、LLMは予測に固有の効果を欠いていることが示唆されている。
実験の結果,LLMベースのゼロショット予測器はノイズに敏感なため,高い精度を達成するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-31T08:24:01Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。