論文の概要: CoRE: A Fine-Grained Code Reasoning Benchmark Beyond Output Prediction
- arxiv url: http://arxiv.org/abs/2604.25399v1
- Date: Tue, 28 Apr 2026 09:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.789364
- Title: CoRE: A Fine-Grained Code Reasoning Benchmark Beyond Output Prediction
- Title(参考訳): CoRE: アウトプット予測を超えてベンチマークを推論する細粒度のコード
- Authors: Jun Gao, Yun Peng, Qian Qiao, Changhai Zhou, Yuhua Zhou, Shiyang Zhang, Shichao Weng, Zhenchang Xing, Xiaoxue Ren,
- Abstract要約: 大規模言語モデル(LLM)が実際にコード実行を理由付けているかどうかは不明だ。
既存のコード推論ベンチマークは、単一の標準実装の下で最終的な出力の正確性を評価する。
コード推論を評価する textbfCode textbfReasoning ベンチマークである textbfCoRE を導入する。
- 参考スコア(独自算出の注目度): 19.001016903165738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite strong performance on code generation tasks, it remains unclear whether large language models (LLMs) genuinely reason about code execution. Existing code reasoning benchmarks primarily evaluate final output correctness under a single canonical implementation, leaving two critical aspects underexplored: (1) whether LLMs can maintain consistency to functionally equivalent implementations, and (2) whether LLMs can accurately reason about intermediate execution states. We introduce \textbf{CoRE}, a \textbf{Co}de \textbf{Re}asoning benchmark that evaluates code reasoning through \textbf{implementation invariance} and \textbf{process transparency}. Extensive evaluations on eight frontier LLMs reveal two fundamental limitations. First, models exhibit a substantial \textbf{robustness gap}, with performance varying significantly across equivalent implementations. Second, we observe \textbf{superficial execution}, where models arrive at correct final outputs without correctly reasoning about intermediate execution states. Together, these findings demonstrate that output-only evaluations are insufficient for assessing code reasoning and position CoRE as a necessary benchmark for evaluating robust and faithful code reasoning.\footnote{Data and code are available at https://github.com/ZJUSig/CoRE.}
- Abstract(参考訳): コード生成タスクのパフォーマンスは高いが、大規模言語モデル(LLM)が実際にコード実行を理由付けているかどうかは不明だ。
既存のコード推論ベンチマークは、1つの標準実装の下で最終的な出力の正当性を評価し、(1)LLMが機能的に等価な実装との整合性を維持することができるかどうか、(2)LLMが中間実行状態を正確に推論できるかどうかの2つの重要な側面を未検討のまま残している。
本稿では, {textbf{Co}de \textbf{Re}asoning ベンチマークである \textbf{CoRE} を紹介する。
8つのフロンティア LLM の広範囲な評価は、2つの基本的な限界を明らかにしている。
第一に、モデルには相当な \textbf{robustness gap} があり、同等の実装間で性能が著しく異なる。
第二に、モデルが中間実行状態を正しく推論することなく、正しい最終出力に到達する、 \textbf{superficial execution} を観察します。
これらの結果から,コーレをロバストかつ忠実なコード推論評価に必要なベンチマークとして評価するには,出力のみの評価が不十分であることが示唆された。
\footnote{Dataとコードはhttps://github.com/ZJUSig/CoRE.comで入手できる。
※
関連論文リスト
- CodeSpecBench: Benchmarking LLMs for Executable Behavioral Specification Generation [49.30536937161147]
本稿では,実行ベース評価プロトコルの下で実行可能な動作仕様生成のためのベンチマークであるCodeSpecBenchを紹介する。
CodeSpecBenchは関数レベルとリポジトリレベルのタスクの両方をサポートし、仕様を実行可能なPython関数としてエンコードする。
リポジトリレベルのタスクでは、最高のモデルが20.2%のパス率しか達成できないため、パフォーマンスが大幅に低下するのを観察します。
論文 参考訳(メタデータ) (2026-04-14T04:31:45Z) - DuET: Dual Execution for Test Output Prediction with Generated Code and Pseudocode [56.14374797825548]
よりエラー耐性の高い擬似コードに基づいて予測を行うLLMベースの擬似コード実行を提案する。
両手法を機能的多数決で組み合わせた二重実行フレームワークであるDuETを提案する。
LiveCodeBenchでは、DuETは最先端のパフォーマンスを実現し、Pass@1を13.6ppで改善した。
論文 参考訳(メタデータ) (2026-04-13T14:18:58Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility [36.41073880422337]
RoundTripCodeEval(RTCE)は、4つの異なるコード実行推論タスクからなる包括的なベンチマークである。
ゼロショットプロンプト、実行トレースの教師付き微調整、自己回帰機構を用いて、最先端のコード-LLMを体系的に評価する。
RTCEは、既存のI/O予測、実行推論、ラウンドトリップの自然言語ベンチマークによって捉えられていない、これまで測定されていなかったいくつかの新しい洞察を表面化している。
論文 参考訳(メタデータ) (2026-01-19T21:09:48Z) - \texttt{ReMind}: Understanding Deductive Code Reasoning in LLMs [6.918479033945452]
大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な進歩を遂げた。
彼らはまだ、プログラム実行プロセスについて推論する能力である暗黙のコード推論に苦戦しています。
textttReMindは,textttMutator, textttExecutor, textttInspectorで構成されるマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-01T10:42:40Z) - CLEVER: A Curated Benchmark for Formally Verified Code Generation [53.5486188696892]
$rm Csmall LEVER$は、リーンにおけるエンドツーエンドのコード生成のための161の問題を、高品質でキュレートしたベンチマークである。
それぞれの問題は、(1)堅実な仕様と一致する仕様を生成するタスク、(2)この仕様を確実に満足するリーン実装を生成するタスクで構成されています。
論文 参考訳(メタデータ) (2025-05-20T05:15:47Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。
本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。