論文の概要: Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions
- arxiv url: http://arxiv.org/abs/2605.26414v1
- Date: Tue, 26 May 2026 00:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.516092
- Title: Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions
- Title(参考訳): 推論, コード, あるいはその両方? 数学問題における大規模言語モデルの扱い方
- Authors: Matthew Kutakh,
- Abstract要約: 本研究は,GSM-Symbolicデータセットから1000問題に対する3つのアプローチを評価する。
これら3機は、クロード・ハイク4.5を使用して、オリジナルと修正された2台で実行された。
CoTは最も堅牢な方法であり、精度は1.3%低下し、問題の1.8%は摂動で壊れた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) achieve impressive accuracy on mathematical reasoning benchmarks, yet their performance drops when problems are modified with simple changes like different names or numbers. Code execution methods, which let models generate and run Python code instead of reasoning in natural language, have been proposed as a solution, but their effect on reasoning robustness (the ability to maintain accuracy across problem variations) has not been systematically tested. This study evaluates three approaches on 1,000 problems from the GSM-Symbolic dataset: pure reasoning using chain-of-thought (CoT) prompting, single-shot code execution using Program-Aided Language models (PAL), and iterative code execution using Step-by-Step Coding (SBSC). All three were run on paired original and modified problems using Claude Haiku 4.5. CoT was the most robust method, with an accuracy drop of 1.3 percentage points and 1.8% of problems breaking under perturbation. PAL was the least robust at 1.7 percentage points and 3.1% broke, with SBSC falling in between. Although these differences were not statistically significant ($p = .096$), the directional trend was consistent across all measures, suggesting that code execution, whether single-shot or iterative, does not improve reasoning robustness on grade-school-level problem variations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論ベンチマークにおいて印象的な精度を達成するが、異なる名前や数のような単純な変更で問題が修正されると性能が低下する。
自然言語で推論するのではなく、モデルがPythonコードを生成、実行できるようにするコード実行メソッドがソリューションとして提案されているが、そのロバスト性(問題バリエーションの正確性を維持する能力)に対する影響は体系的にテストされていない。
本研究は,GSM-Symbolicデータセットから得られた1000件の課題に対する3つのアプローチについて評価する。これは,チェーン・オブ・シンクレット(CoT)による純粋推論,プログラム支援言語モデル(PAL)を用いた単発コード実行,ステップ・バイ・ステップ・コーディング(SBSC)を用いた反復コード実行である。
これら3機は、クロード・ハイク4.5を使用して、オリジナルと修正された2台で実行された。
CoTは最も堅牢な方法であり、精度は1.3%低下し、問題の1.8%は摂動で壊れた。
PALは1.7ポイントが最も頑丈で、3.1%が故障し、SBSCは間に落ち込んだ。
これらの違いは統計的に有意ではないが(p = .096$)、方向性の傾向はすべての尺度で一貫しており、単発でも反復でも、小学校レベルの問題の違いに対する推論の堅牢性は改善していないことを示唆している。
関連論文リスト
- Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations [2.5782420501870296]
CoT(Chain-of-Thought)プロンプトは,Large Language Models(LLMs)から推論を引き出す基礎技術として登場した。
本稿は,5種類のCoT摂動型に対するロバスト性に関する総合的な実証的評価を示す: textitMathError, UnitConversion, Sycophancy, SkippedSteps, textitExtraSteps。
論文 参考訳(メタデータ) (2026-02-11T03:11:30Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving [0.0]
本研究は,MATHデータセットを用いて10大言語モデル(LLM)を70億から80億のパラメータで評価する。
焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。
論文 参考訳(メタデータ) (2025-01-28T17:11:36Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - How Do Humans Write Code? Large Models Do It the Same Way Too [14.954886191356342]
Program-of-Thought(PoT)は、自然言語ベースのChain-of-Thought(CoT)を、大規模言語モデルにおいて最も一般的な方法として置き換える。
PoTを使用すると、CoTと比較して、不正な公式や欠陥論理などの推論エラーがより多く導入される。
本稿では,PoTとCoTの統合を支援する一連の戦略を活用するHTL(Human-Think Language)を提案する。
論文 参考訳(メタデータ) (2024-02-24T05:40:01Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement [50.62461749446111]
Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。
SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。