論文の概要: SenseMath: Do LLMs Have Number Sense? Evaluating Shortcut Use, Judgment, and Generation
- arxiv url: http://arxiv.org/abs/2604.01988v1
- Date: Thu, 02 Apr 2026 12:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.791894
- Title: SenseMath: Do LLMs Have Number Sense? Evaluating Shortcut Use, Judgment, and Generation
- Title(参考訳): SenseMath:LLMはナンバーセンスを持っているか? ショートカットの使用、判断、生成を評価する
- Authors: Haomin Zhuang, Xiangqi Wang, Yili Shen, Ying Cheng, Xiangliang Zhang,
- Abstract要約: 大規模な言語モデルは、効率的な数値的ショートカットが利用可能であっても、ステップバイステップの計算にデフォルトとなることが多い。
これは基本的な疑問を提起する。人間のような行動感覚で数感覚を示すのか?
LLMにおける構造に敏感な数値推論を評価するためのベンチマークであるSenseMathを紹介する。
- 参考スコア(独自算出の注目度): 21.945468909808923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often default to step-by-step computation even when efficient numerical shortcuts are available. This raises a basic question: do they exhibit number sense in a human-like behavioral sense, i.e., the ability to recognize numerical structure, apply shortcuts when appropriate, and avoid them when they are not? We introduce SenseMath, a controlled benchmark for evaluating structure-sensitive numerical reasoning in LLMs. SenseMath contains 4,800 items spanning eight shortcut categories and four digit scales, with matched strong-shortcut, weak-shortcut, and control variants. It supports three evaluation settings of increasing cognitive demand: Shortcut Use (whether models can apply shortcuts on shortcut-amenable problems); Applicability Judgment (whether they can recognize when a shortcut is appropriate or misleading); and Problem Generation (whether they can generate new problem items that correctly admit a given type of shortcut). Our evaluation across five LLMs, ranging from GPT-4o-mini to Llama-3.1-8B, shows a consistent pattern: when explicitly prompted, models readily adopt shortcut strategies and achieve substantial accuracy gains on shortcut-amenable items (up to 15%), yet under standard chain-of-thought prompting they spontaneously employ such strategies in fewer than 40% of cases, even when they demonstrably possess the requisite capability. Moreover, this competence is confined to the Use level; models systematically over-generalise shortcuts to problems where they do not apply, and fail to generate valid shortcut-bearing problems from scratch. Together, these results suggest that current LLMs exhibit procedural shortcut fluency without the structural understanding of when and why shortcuts work that underlies human number sense.
- Abstract(参考訳): 大規模な言語モデルは、効率的な数値的ショートカットが利用可能であっても、ステップバイステップの計算にデフォルトとなることが多い。
つまり、数値構造を認識し、適切であればショートカットを適用し、そうでない場合は避けることができるのか?
LLMにおける構造感応的な数値推論を評価するための制御ベンチマークであるSenseMathを紹介する。
SenseMathには、8つのショートカットカテゴリと4桁のスケールにまたがる4,800のアイテムがあり、マッチしたストロングショートカット、弱いショートカット、コントロールのバリエーションがある。
ショートカットの使用(モデルがショートカット可能な問題にショートカットを適用することができるかどうか)、適用可能性判断(ショートカットが適切か誤解を招くかを認識できるかどうか)、問題生成(与えられた種類のショートカットを正しく受け入れる新しい問題項目を生成することができるかどうか)の3つの評価設定をサポートする。
GPT-4o-mini から Llama-3.1-8B までの 5 つの LLM の評価は一貫したパターンを示している: 明示的刺激を受けると、モデルは容易にショートカット戦略を採用し、ショートカット可能な項目(最大15%)でかなりの精度を得られる。
さらに、この能力はUseレベルに限定されており、モデルは、適用されない問題にショートカットを体系的に過大に一般化し、スクラッチから有効なショートカットを持つ問題を生成することができない。
これらの結果から,現在のLLMは,人為的意味の根底にあるショートカットがいつ,なぜ機能するのかという構造的理解を伴わずに,手続き的ショートカット流速を示すことが示唆された。
関連論文リスト
- Mitigating Shortcut Reasoning in Language Models: A Gradient-Aware Training Approach [31.233459232809608]
Shortcut-Aware Reasoning Training (SART)は、ショートカットプロモーションサンプルを検出し緩和する勾配対応フレームワークである。
本手法は, 評価目標と解答点濃度を併用して, 勾配補正によるショートカット信号の同定を行う。
論文 参考訳(メタデータ) (2026-03-21T18:17:17Z) - The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning [54.67958855362658]
複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2026-03-11T19:51:33Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models [9.854718405054589]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示している。
本稿では,LLMの性能に及ぼすショートカットの影響を評価するためのテストスイートであるShortcut Suiteを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:52:52Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Break the Chain: Large Language Models Can be Shortcut Reasoners [18.047917626825548]
CoT(Chain-of-Thought)推論は複雑なモジュールを利用するが、高いトークン消費、適用可能性の制限、思考上の課題によって妨げられる。
本稿では、複雑な論理的および常識的推論タスクを含む算術を超えて、CoTプロンプトの批判的評価を行う。
そこで我々は,「チェーンを破る」戦略を通じて,人型やショートカットを言語モデル(LM)に統合することを提案する。
論文 参考訳(メタデータ) (2024-06-04T14:02:53Z) - Large Language Models Can be Lazy Learners: Analyze Shortcuts in
In-Context Learning [28.162661418161466]
大規模言語モデル(LLM)は、最近、コンテキスト内学習に大きな可能性を示している。
本稿では,ショートカットやプロンプト内のスプリアス相関に対するLDMsの依存度について検討する。
より大規模なモデルでは、推論中にプロンプトでショートカットを利用する可能性が高くなるという驚くべき発見が明らかになった。
論文 参考訳(メタデータ) (2023-05-26T20:56:30Z) - Which Shortcut Solution Do Question Answering Models Prefer to Learn? [38.36299280464046]
質問応答(QA)モデルは、QAデータセットが意図したソリューションではなく、ショートカットソリューションを学ぶ傾向がある。
抽出および複数選択QAにおいて,回答位置と単語ラベル相関を利用したショートカットが優先的に学習されていることを示す。
我々は,ショートカットの学習性を利用して効果的なQA学習セットを構築することを実験的に示す。
論文 参考訳(メタデータ) (2022-11-29T13:57:59Z) - Why Machine Reading Comprehension Models Learn Shortcuts? [56.629192589376046]
トレーニングデータにおけるショートカットの質問の大部分が、モデルが過度にショートカットのトリックに依存している、と私たちは主張する。
徹底的な実証分析により、MRCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向が示されている。
論文 参考訳(メタデータ) (2021-06-02T08:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。