論文の概要: StreetMath: Study of LLMs' Approximation Behaviors
- arxiv url: http://arxiv.org/abs/2510.25776v1
- Date: Mon, 27 Oct 2025 05:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.473285
- Title: StreetMath: Study of LLMs' Approximation Behaviors
- Title(参考訳): ストリートマス:LLMの近似挙動に関する研究
- Authors: Chiung-Yi Tseng, Somshubhra Roy, Maisha Thasin, Danyang Zhang, Blessing Effiong,
- Abstract要約: 実世界の近似シナリオ下でのモデルの近似能力を評価するために設計されたベンチマークであるStreetMathを紹介する。
我々の分析によると、LLMは一般に近似を求めるタスクにおいても、正確な値や外部ツールを計算しようと試みている。
我々は、LLMは、人間が街路数学の設定で行うのと同じように、認知的ミスを示さないと論じる。
- 参考スコア(独自算出の注目度): 1.4119508208285607
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There is a substantial body of literature examining the mathematical reasoning capabilities of large language models (LLMs), particularly their performance on precise arithmetic operations in autoregressive architectures. However, their ability to perform approximate reasoning in informal, fast-paced mathematical operations has received far less attention, especially among non-autoregressive decoder models. Our work addresses this gap by introducing StreetMath, a benchmark designed to evaluate models' approximation abilities under real-world approximation scenarios. We conduct extensive evaluations across different LLM architectures: Qwen3-4B-Instruct-2507, Qwen3-4B-Thinking-2507, Dream-v0-Instruct-7B, Falcon-Mamba-7B-Instruct, and Mamba-GPT-3B. Furthermore, we apply mechanistic interpretability techniques to probe their internal computational states. Our analysis reveals that LLMs generally attempt to compute exact values or invoke external tools even in tasks that call for approximation. Moreover, while models sometimes reach the correct answer in early layers or steps, they still consume more tokens when solving approximation tasks. Additional experiments indicate that exact and approximate arithmetic operations rely on largely separate neural components. Drawing upon research on cognitive psychology, we argue that LLMs do not exhibit cognitive miserliness in the same way humans do in street math settings. We open source our work https://github.com/ctseng777/StreetMath
- Abstract(参考訳): 大規模言語モデル(LLM)の数学的推論能力、特に自己回帰的アーキテクチャにおける正確な算術演算の性能について、かなりの量の文献がある。
しかし、非自己回帰デコーダモデルにおいて、非公式で高速な数学的操作で近似推論を行う能力は、はるかに低い注目を集めている。
我々の研究は、実世界の近似シナリオ下でモデルの近似能力を評価するために設計されたベンチマークであるStreetMathを導入することで、このギャップに対処する。
Qwen3-4B-Instruct-2507, Qwen3-4B-Thinking-2507, Dream-v0-Instruct-7B, Falcon-Mamba-7B-Instruct, Mamba-GPT-3B。
さらに, 内部計算状態の探索に機械的解釈可能性技術を適用した。
我々の分析によると、LLMは一般に、近似を求めるタスクにおいても、正確な値の計算や外部ツールの呼び出しを試みている。
さらに、モデルが初期のレイヤやステップで正しい答えに達する場合もありますが、近似タスクを解決する際には、より多くのトークンを消費します。
さらなる実験により、正確な近似演算は、大まかに異なる神経成分に依存することが示されている。
認知心理学の研究に基づき,LLMは人間が街路数学で行うのと同じように,認知的ミスを示さないと論じる。
https://github.com/ctseng777/StreetMath.com/
関連論文リスト
- Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [2.8311048083168657]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。
LLMは可換性や恒等性などの代数的構造を捉えることによって算術を学習する。
論文 参考訳(メタデータ) (2024-11-25T10:23:11Z) - AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。
このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。
ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-06T15:20:30Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。