論文の概要: Syntactic Blind Spots: How Misalignment Leads to LLMs Mathematical Errors
- arxiv url: http://arxiv.org/abs/2510.01831v1
- Date: Thu, 02 Oct 2025 09:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.072649
- Title: Syntactic Blind Spots: How Misalignment Leads to LLMs Mathematical Errors
- Title(参考訳): シンタクティック・ブラインド・スポット:ミスアライメントがLLMの数学的エラーにどのように影響するか
- Authors: Dane Williamson, Yangfeng Ji, Matthew Dwyer,
- Abstract要約: 大規模言語モデル(LLM)は、強力な数学的問題解決能力を示すが、しばしば訓練分布から構文的に逸脱する問題に失敗する。
モデルがセマンティックに単純だが、不慣れな方法で言い換えられるような問題に対して、慣れ親しんだ推論戦略を誤って適用する、系統的な障害モード、統語的盲点を識別する。
以上の結果から,多くの推論誤差は概念的困難というよりも構造的不整合に起因することが示唆され,構文認識による介入がこれらの帰納的障害を明らかにし緩和する可能性が示唆された。
- 参考スコア(独自算出の注目度): 11.169118114200307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate strong mathematical problem-solving abilities but frequently fail on problems that deviate syntactically from their training distribution. We identify a systematic failure mode, syntactic blind spots, in which models misapply familiar reasoning strategies to problems that are semantically straightforward but phrased in unfamiliar ways. These errors are not due to gaps in mathematical competence, but rather reflect a brittle coupling between surface form and internal representation. To test this, we rephrase incorrectly answered questions using syntactic templates drawn from correct examples. These rephrasings, which preserve semantics while reducing structural complexity, often lead to correct answers. We quantify syntactic complexity using a metric based on Dependency Locality Theory (DLT), and show that higher DLT scores are associated with increased failure rates across multiple datasets. Our findings suggest that many reasoning errors stem from structural misalignment rather than conceptual difficulty, and that syntax-aware interventions can reveal and mitigate these inductive failures.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強力な数学的問題解決能力を示すが、しばしば訓練分布から構文的に逸脱する問題に失敗する。
モデルがセマンティックに単純だが、不慣れな方法で言い換えられるような問題に対して、慣れ親しんだ推論戦略を誤って適用する、系統的な障害モード、統語的盲点を識別する。
これらの誤りは、数学的能力の差によるものではなく、むしろ表面形式と内部表現の間の脆い結合を反映している。
これをテストするために, 正しい例から抽出した構文テンプレートを用いて, 誤った回答を言い換える。
これらの言い換えは、構造的な複雑さを減らしながら意味を保存し、しばしば正しい答えをもたらす。
依存局所性理論 (DLT) に基づく計量を用いて, 合成複雑性を定量化し, 高いDLTスコアが複数のデータセットにまたがる故障率の増加と関連していることを示す。
以上の結果から,多くの推論誤差は概念的困難というよりも構造的不整合に起因することが示唆され,構文認識による介入がこれらの帰納的障害を明らかにし緩和する可能性が示唆された。
関連論文リスト
- Ineq-Comp: Benchmarking Human-Intuitive Compositional Reasoning in Automated Theorem Proving on Inequalities [45.8704193793732]
LLMベースの形式的証明アシスタント(例:リーン)は、数学的発見の自動化を大いに約束する。
これらのシステムは、人間と同じように数学的構造を本当に理解していますか?
この問題を数学的不等式のレンズを用いて検討する。
論文 参考訳(メタデータ) (2025-05-19T03:56:05Z) - Large Language and Reasoning Models are Shallow Disjunctive Reasoners [15.56445409535547]
大規模言語モデル(LLM)は、体系的な推論に苦慮している。
本稿では,定性的空間的および時間的推論のための体系的関係合成を必要とするタスクに焦点をあてる。
ゼロショット LRM はシングルパス推論タスクでは LLM よりも優れていますが,マルチパス設定では苦労しています。
論文 参考訳(メタデータ) (2025-03-30T15:41:55Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
MathGAPは、それらの算術的証明構造に関する仕様に従って、問題文と連鎖推論トレースを生成する。
MathGAP を用いて, LLM はより深く, より広くなるにつれて, 性能が著しく低下することがわかった。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。
我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。
我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-28T12:04:28Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。