論文の概要: StreetMath: Study of LLMs' Approximation Behaviors
- arxiv url: http://arxiv.org/abs/2510.25776v1
- Date: Mon, 27 Oct 2025 05:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.473285
- Title: StreetMath: Study of LLMs' Approximation Behaviors
- Title(参考訳): ストリートマス:LLMの近似挙動に関する研究
- Authors: Chiung-Yi Tseng, Somshubhra Roy, Maisha Thasin, Danyang Zhang, Blessing Effiong,
- Abstract要約: 実世界の近似シナリオ下でのモデルの近似能力を評価するために設計されたベンチマークであるStreetMathを紹介する。
我々の分析によると、LLMは一般に近似を求めるタスクにおいても、正確な値や外部ツールを計算しようと試みている。
我々は、LLMは、人間が街路数学の設定で行うのと同じように、認知的ミスを示さないと論じる。
- 参考スコア(独自算出の注目度): 1.4119508208285607
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There is a substantial body of literature examining the mathematical reasoning capabilities of large language models (LLMs), particularly their performance on precise arithmetic operations in autoregressive architectures. However, their ability to perform approximate reasoning in informal, fast-paced mathematical operations has received far less attention, especially among non-autoregressive decoder models. Our work addresses this gap by introducing StreetMath, a benchmark designed to evaluate models' approximation abilities under real-world approximation scenarios. We conduct extensive evaluations across different LLM architectures: Qwen3-4B-Instruct-2507, Qwen3-4B-Thinking-2507, Dream-v0-Instruct-7B, Falcon-Mamba-7B-Instruct, and Mamba-GPT-3B. Furthermore, we apply mechanistic interpretability techniques to probe their internal computational states. Our analysis reveals that LLMs generally attempt to compute exact values or invoke external tools even in tasks that call for approximation. Moreover, while models sometimes reach the correct answer in early layers or steps, they still consume more tokens when solving approximation tasks. Additional experiments indicate that exact and approximate arithmetic operations rely on largely separate neural components. Drawing upon research on cognitive psychology, we argue that LLMs do not exhibit cognitive miserliness in the same way humans do in street math settings. We open source our work https://github.com/ctseng777/StreetMath
- Abstract(参考訳): 大規模言語モデル(LLM)の数学的推論能力、特に自己回帰的アーキテクチャにおける正確な算術演算の性能について、かなりの量の文献がある。
しかし、非自己回帰デコーダモデルにおいて、非公式で高速な数学的操作で近似推論を行う能力は、はるかに低い注目を集めている。
我々の研究は、実世界の近似シナリオ下でモデルの近似能力を評価するために設計されたベンチマークであるStreetMathを導入することで、このギャップに対処する。
Qwen3-4B-Instruct-2507, Qwen3-4B-Thinking-2507, Dream-v0-Instruct-7B, Falcon-Mamba-7B-Instruct, Mamba-GPT-3B。
さらに, 内部計算状態の探索に機械的解釈可能性技術を適用した。
我々の分析によると、LLMは一般に、近似を求めるタスクにおいても、正確な値の計算や外部ツールの呼び出しを試みている。
さらに、モデルが初期のレイヤやステップで正しい答えに達する場合もありますが、近似タスクを解決する際には、より多くのトークンを消費します。
さらなる実験により、正確な近似演算は、大まかに異なる神経成分に依存することが示されている。
認知心理学の研究に基づき,LLMは人間が街路数学で行うのと同じように,認知的ミスを示さないと論じる。
https://github.com/ctseng777/StreetMath.com/
関連論文リスト
- AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文 参考訳(メタデータ) (2025-10-14T02:17:54Z) - ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark [0.0]
大規模言語モデル(LLM)は、大学レベルの記号数学において、急速に熟練度に近づいている。
本稿では,記号操作に特化した新しい評価フレームワークであるASyMOBを紹介する。
論文 参考訳(メタデータ) (2025-05-28T23:11:14Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [2.8311048083168657]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。
LLMは可換性や恒等性などの代数的構造を捉えることによって算術を学習する。
論文 参考訳(メタデータ) (2024-11-25T10:23:11Z) - Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines [7.695524275630717]
大規模言語モデル(LLM)は、広範囲の自然言語処理と推論タスクで顕著な機能を示している。
チューリングマシンをエミュレートすることで,LCMがステップバイステップの計算を実行することを学べる構成可能な算術演算フレームワーク(CAEF)を提案する。
評価では, LLaMA 3.1-8B モデル上での7つの一般的な数学的操作に対して, CAEF は100%近い精度を達成している。
論文 参考訳(メタデータ) (2024-10-10T13:23:49Z) - AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。
このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。
ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-06T15:20:30Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。