論文の概要: Can LLMs Reason Abstractly Over Math Word Problems Without CoT? Disentangling Abstract Formulation From Arithmetic Computation
- arxiv url: http://arxiv.org/abs/2505.23701v1
- Date: Thu, 29 May 2025 17:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.042655
- Title: Can LLMs Reason Abstractly Over Math Word Problems Without CoT? Disentangling Abstract Formulation From Arithmetic Computation
- Title(参考訳): LLMは、CoTのない数学用語問題に対して抽象的に論じられるか? 算術計算から抽象的定式化を遠ざける
- Authors: Ziling Cheng, Meng Cao, Leila Pishdad, Yanshuai Cao, Jackie Chi Kit Cheung,
- Abstract要約: ファイナルアンサーベースのメトリクスは、数学の単語問題に対する大規模言語モデル(LLM)の評価に一般的に使用される。
計算ステップにより,CoTを含まないLlama-3とQwen2.5(1B-32B)の問合せ精度が圧倒的にボトルネックとなることを示す。
メカニカルには、これらの2つのスキルは、推論ステップなしで、1つのフォワードパスにおいてさえ共役的に構成されていることが示される。
- 参考スコア(独自算出の注目度): 39.50584137093401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Final-answer-based metrics are commonly used for evaluating large language models (LLMs) on math word problems, often taken as proxies for reasoning ability. However, such metrics conflate two distinct sub-skills: abstract formulation (capturing mathematical relationships using expressions) and arithmetic computation (executing the calculations). Through a disentangled evaluation on GSM8K and SVAMP, we find that the final-answer accuracy of Llama-3 and Qwen2.5 (1B-32B) without CoT is overwhelmingly bottlenecked by the arithmetic computation step and not by the abstract formulation step. Contrary to the common belief, we show that CoT primarily aids in computation, with limited impact on abstract formulation. Mechanistically, we show that these two skills are composed conjunctively even in a single forward pass without any reasoning steps via an abstract-then-compute mechanism: models first capture problem abstractions, then handle computation. Causal patching confirms these abstractions are present, transferable, composable, and precede computation. These behavioural and mechanistic findings highlight the need for disentangled evaluation to accurately assess LLM reasoning and to guide future improvements.
- Abstract(参考訳): ファイナルアンサーベースのメトリクスは、しばしば推論能力のプロキシとして用いられる数学の単語問題において、大きな言語モデル(LLM)を評価するために一般的に使用される。
しかしながら、これらのメトリクスは、抽象的な定式化(式を用いた数学的関係のキャプチャ)と算術計算(計算の実行)の2つの異なるサブスキルを詳述している。
GSM8K と SVAMP のアンタングル評価により,Llama-3 と Qwen2.5 (1B-32B) の CoT を含まない最終回答精度は算術演算のステップによって圧倒的にボトルネックとなり,抽象的な定式化ステップによっては無視できないことがわかった。
一般的な信念とは対照的に、CoTは主に計算に役立ち、抽象的な定式化に限られた影響を与えている。
機械学的には、これらの2つのスキルは1つの前方通過において、抽象的テーマ計算機構を介さずに共役的に構成されることが示される:モデルがまず問題抽象化をキャプチャし、次に計算を処理する。
因果パッチングは、これらの抽象化は存在、転送可能、構成可能、計算に先立つものであることを確認した。
これらの行動学的および機械学的知見は、LCM推論を正確に評価し、将来の改善を導くために、不整合評価の必要性を浮き彫りにしている。
関連論文リスト
- Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - Quantum Many-Body Physics Calculations with Large Language Models [7.679615503214482]
大規模言語モデル(LLM)は、複数のドメインで複雑なタスクを実行する前例のない能力を示している。
我々は、量子物理学において広く用いられている近似法、Hartree-Fock法に焦点をあてる。
解析計算を標準化されたステップに分解する多段階プロンプトテンプレートを設計する。
我々は過去10年間の15の研究論文の計算におけるGPT-4の性能を評価した。
論文 参考訳(メタデータ) (2024-03-05T17:47:22Z) - Efficient Computation of Counterfactual Bounds [44.4263314637532]
我々は,構造因果モデルのサブクラスにおけるクレダルネットのアルゴリズムを用いて,正確な反ファクト境界を計算する。
近似の精度を信頼性のある間隔で評価する。
論文 参考訳(メタデータ) (2023-07-17T07:59:47Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Learning Multi-Step Reasoning by Solving Arithmetic Tasks [6.398022050054328]
本研究では,比較的小さな言語モデルを多段階推論の能力に組み込む方法について検討する。
我々は,合成データセットMsAT上でLMを継続的に事前学習することにより,そのような能力を注入することを提案する。
提案手法の有効性を示す4つの数学単語問題データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-06-02T17:29:22Z) - Does entity abstraction help generative Transformers reason? [8.159805544989359]
本稿では,事前学習したトランスフォーマーにエンティティ型抽象化を組み込むことの有用性について検討する。
論理的推論の異なる4つのNLPタスクに対して,これらの手法を検証した。
論文 参考訳(メタデータ) (2022-01-05T19:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。