論文の概要: Assessing Coherency and Consistency of Code Execution Reasoning by Large Language Models
- arxiv url: http://arxiv.org/abs/2510.15079v1
- Date: Thu, 16 Oct 2025 18:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.360904
- Title: Assessing Coherency and Consistency of Code Execution Reasoning by Large Language Models
- Title(参考訳): 大規模言語モデルによるコード実行推論の一貫性と一貫性の評価
- Authors: Changshu Liu, Yang Chen, Reyhaneh Jabbarvand,
- Abstract要約: 本稿では,プログラム実行をシミュレーションし,その推論をプログラミングタスクで活用する上で,LLMの能力を評価するタスクであるCESを提案する。
CESでは、シミュレーションがコモンセンスの実行ロジックに準拠するかどうかを判断するために、コヒーレンスの概念を紹介している。
CESはまた、スペクトルにおいて同じまたは異なる素路カバレッジを持つテスト間での推論整合性を測定するための新しいメトリクスも導入している。
- 参考スコア(独自算出の注目度): 5.692204231573854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes CES, a task to evaluate the abilities of LLMs in simulating program execution and using that reasoning in programming tasks. Besides measuring the correctness of variable predictions during execution simulation, CES introduces the notion of coherence to determine whether the simulation complies with commonsense execution logic, even if the predicted values along the simulations are incorrect. This enables CES to rule out suspiciously correct output predictions due to reasoning shortcuts, hallucinations, or potential data leakage. CES also introduces a novel metric to measure reasoning consistency across tests with the same or different prime path coverage in a spectrum: strong, weak, and random. Evaluating 16 LLMs (including three reasoning LLMs) using CES indicates 81.42% coherent execution simulation on HumanEval, 46.92% and 53.08% of which result in correct and incorrect output predictions. Frontier LLMs such as GPT-4 and DeepSeek-R1 have the most incoherent execution reasoning, mostly due to natural language shortcuts. Despite relatively coherent execution simulation, LLMs' reasoning performance across different tests is inconsistent, mostly random (48.87%) or weak (45.37%), potentially explaining their weakness in programming tasks that require path-sensitive program analysis to succeed. We also compare CES with bug prediction/localization/repair, which intuitively requires control- and data-flow awareness. We observe that LLMs barely incorporate execution reasoning into their analysis for bug-related tasks, and their success is primarily due to inherent abilities in pattern matching or natural language shortcuts, if not data leakage. Without reasoning, there is a threat to the generalizability of LLMs in dealing with unseen bugs or patterns in different contexts. CES can be used to vet the suspicious success of LLMs in these tasks systematically.
- Abstract(参考訳): 本稿では,プログラム実行をシミュレーションし,その推論をプログラミングタスクで活用する上で,LLMの能力を評価するタスクであるCESを提案する。
実行シミュレーションにおける変数予測の正確性の測定に加えて、CESではコヒーレンスの概念を導入して、シミュレーションがコモンセンス実行ロジックに準拠するかどうかを判断する。
これにより、CESはショートカットや幻覚、潜在的なデータ漏洩の理由から、不審に正確な出力予測を除外できる。
CESはまた、スペクトルにおいて同じまたは異なる素路カバレッジを持つテスト間での推論整合性を測定するための新しいメトリクスも導入している。
CESによる16個のLLM(3つのLCMを含む)の評価は、HumanEval上でのコヒーレントな実行シミュレーションが81.42%、46.92%、そして53.08%であり、正しい出力予測と誤った出力予測をもたらすことを示している。
GPT-4やDeepSeek-R1のような最前線のLCMは、主に自然言語のショートカットのため、最も非一貫性な実行推論を持つ。
比較的コヒーレントな実行シミュレーションにもかかわらず、異なるテスト間でのLCMの推論性能は不整合であり、ほとんどランダム(48.87%)または弱(45.37%)であり、パスに敏感なプログラム分析を必要とするプログラミングタスクの弱点を説明する可能性がある。
われわれはCESを、直感的に制御とデータフローの認識を必要とするバグ予測/ローカライゼーション/リペアと比較した。
LLMは、バグ関連タスクの分析に実行推論をほとんど組み込んでおらず、その成功は主にパターンマッチングや自然言語のショートカットに固有の能力があるためである。
推論なしでは、異なるコンテキストで目に見えないバグやパターンを扱う際に、LCMの一般化可能性に対する脅威があります。
CESは、これらのタスクにおけるLLMの不審な成功をシステム的に検証するために使用することができる。
関連論文リスト
- SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [7.210032327838313]
大規模言語モデル(LLM)がコード実行予測の代理モデルとして機能するかどうかを検討する。
オープンソースおよびプロプライエタリ LLM の広範な分析を通じて,スケーリング法則,データ効率,予測精度について検討する。
計算機処理における効率的なサロゲートとしてのLCMの実現可能性に関する重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-16T15:38:19Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - Code Simulation Challenges for Large Language Models [6.970495767499435]
この研究は、LLM(Large Language Models)がいかにコーディングやアルゴリズムのタスクをシミュレートできるかを研究する。
我々は、直線プログラムのベンチマーク、クリティカルパスを含むコード、近似命令および冗長命令を導入する。
本稿では,コンパイラのパターンを行/フォローすることで,LLMにコード実行行をシミュレートするように指示する,OFFプロンプト手法であるChain of Simulation(CoSm)を提案する。
論文 参考訳(メタデータ) (2024-01-17T09:23:59Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。