Fugu-MT 論文翻訳(概要): Demystifying Errors in LLM Reasoning Traces: An Empirical Study of Code Execution Simulation

論文の概要: Demystifying Errors in LLM Reasoning Traces: An Empirical Study of Code Execution Simulation

arxiv url: http://arxiv.org/abs/2512.00215v1
Date: Fri, 28 Nov 2025 21:29:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-02 19:46:34.116429
Title: Demystifying Errors in LLM Reasoning Traces: An Empirical Study of Code Execution Simulation
Title（参考訳）: LLM推論トレースにおけるデミスティフィケーションエラー:コード実行シミュレーションの実証的研究
Authors: Mohammad Abdollahi, Khandaker Rifah Tasnia, Soumit Kanti Saha, Jinqiu Yang, Song Wang, Hadi Hemmati,
Abstract要約: 大規模言語モデル(LLM)を用いた実行時の振る舞い推定に関する最初の実証的研究を行う。我々は4つの最先端推論LCMを評価し,9つの推論誤差の分類法を開発した。計算カテゴリの障害をケーススタディとして,本手法が58%の誤差を補正することを示す。
参考スコア（独自算出の注目度）: 7.377446354867118
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding a program's runtime reasoning behavior, meaning how intermediate states and control flows lead to final execution results, is essential for reliable code generation, debugging, and automated reasoning. Although large language models (LLMs) can accurately predict program outputs, most prior work has focused on output accuracy and performance, treating reasoning as a black box. As a result, little is known about the structure or failure modes of their reasoning traces. To address this gap, we conduct the first empirical study on runtime behavior inference with reasoning LLMs, aiming to uncover and characterize errors in their reasoning traces. We curate a benchmark from HumanEval Plus and LiveCodeBench, containing 427 code snippets. For each snippet, we test three input types: regular, edge, and invalid. Twelve input values are selected per snippet, each paired with its ground-truth execution result. We evaluate four state-of-the-art reasoning LLMs. Our results show that these models reach accuracies between 85 percent and 98 percent across input types. We also analyze the produced reasoning traces and develop a taxonomy with nine categories of inference errors. Finally, we explore tool-augmented reasoning. Using failures in the Computation Errors category as a case study, our experiments show that this approach corrects 58 percent of such errors, demonstrating the potential of tool support for improving LLM reasoning.
Abstract（参考訳）: プログラムの実行時の推論動作を理解することは、中間状態と制御フローが最終的な実行結果をもたらすことを意味し、信頼性の高いコード生成、デバッグ、自動推論に不可欠である。大規模言語モデル(LLM)はプログラムの出力を正確に予測できるが、これまでの作業のほとんどは出力の精度と性能に重点を置いており、推論をブラックボックスとして扱う。結果として、彼らの推論トレースの構造や障害モードについてはほとんど分かっていない。このギャップに対処するため,我々は,LLMの推論による実行時の動作推定に関する最初の実証的研究を行い,それらの推論トレースの誤りを発見し,特徴付けることを目的とした。我々は、HumanEval PlusとLiveCodeBenchから427のコードスニペットを含むベンチマークをキュレートする。スニペットごとに、正規、エッジ、無効の3つの入力タイプをテストします。スニペット毎に12の入力値が選択され、それぞれが、そのグランドトゥルース実行結果とペアリングされる。我々は4つの最先端の推理LSMを評価した。以上の結果から,これらのモデルは入力タイプで85%から98%の精度で到達していることがわかった。また、生成した推論トレースを分析し、推論エラーの9つのカテゴリで分類する。最後に、ツール強化推論について検討する。計算エラーカテゴリの障害をケーススタディとして,本手法は58%の誤りを補正し,LSM推論を改善するためのツールサポートの可能性を示した。

関連論文リスト

LLM Reasoning Predicts When Models Are Right: Evidence from Coding Classroom Discourse [0.18268488712787334]
大規模言語モデル(LLM)は、大規模に教育対話を自動的にラベル付けし分析するために、ますます多くデプロイされている。本研究では,LLMが生成した推論がモデル自身の予測の正確性を予測するのに有効かどうかを検討する。授業の対話から30,300人の教師の発話を分析し,複数の最先端LPMでラベル付けし,指導的移動構造とそれに伴う推論を行った。
論文参考訳（メタデータ） (2026-02-10T14:38:13Z)
Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文参考訳（メタデータ） (2025-10-28T11:01:10Z)
Assessing Coherency and Consistency of Code Execution Reasoning by Large Language Models [5.692204231573854]
本稿では,プログラム実行をシミュレーションし,その推論をプログラミングタスクで活用する上で,LLMの能力を評価するタスクであるCESを提案する。 CESでは、シミュレーションがコモンセンスの実行ロジックに準拠するかどうかを判断するために、コヒーレンスの概念を紹介している。 CESはまた、スペクトルにおいて同じまたは異なる素路カバレッジを持つテスト間での推論整合性を測定するための新しいメトリクスも導入している。
論文参考訳（メタデータ） (2025-10-16T18:48:12Z)
Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code [29.382261465478248]
コードや数学の問題を通した因果推論を運用するフレームワークである実行可能逆ファクトアルを導入する。その結果,o4-mini や Claude-4-Sonnet などの SOTA モデルでは,介入による精度 (25-40%) の低下が認められた。また、コードで訓練されたモデルが、反実数ワード問題に一般化するかどうかを検証した。
論文参考訳（メタデータ） (2025-10-02T00:26:35Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。