論文の概要: An Execution-Verified Multi-Language Benchmark for Code Semantic Reasoning
- arxiv url: http://arxiv.org/abs/2605.11006v1
- Date: Sun, 10 May 2026 07:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.294094
- Title: An Execution-Verified Multi-Language Benchmark for Code Semantic Reasoning
- Title(参考訳): コードセマンティック推論のための実行検証多言語ベンチマーク
- Authors: Yikun Li, Jinfeng Jiang, Ting Zhang, Chengran Yang, Chenxing Zhong, Yin Yide, Leow Wen Bin, Eng Lieh Ouh, Lwin Khin Shar, David Lo,
- Abstract要約: TraceEvalは、コードセマンティック推論のための最初の実行検証されたマルチ言語ベンチマークである。
TraceEvalは、Python、JavaScript、Javaにまたがる1,600以上のオープンソースリポジトリから抽出された10,583の現実世界プログラムで構成されている。
最も強いClaude-Opus-4.6は、3つの言語で平均72.9%のF1に達する。
- 参考スコア(独自算出の注目度): 10.815335026032377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating whether large language models (LLMs) can recover execution-relevant program structure, rather than only produce code that passes tests, remains an open problem. Existing code benchmarks emphasize test-passing outputs, from standalone programming tasks (HumanEval, MBPP, LiveCodeBench) to repository repair (SWE-Bench); this is useful, but offers limited diagnostic signal about which program semantics a model can recover from source. We introduce TraceEval, to our knowledge the first execution-verified, multi-language benchmark for code semantic reasoning: recovering a program's runtime call structure from source code. Unlike prior call-graph benchmarks that rely on static-tool output or hand-annotated ground truth, every positive edge in TraceEval is mechanically witnessed by validation execution, eliminating annotator disagreement and label noise for observed behavior. TraceEval consists of (i) 10,583 real-world programs (2,129 test, 8,454 train) extracted from 1,600+ open-source repositories across Python, JavaScript, and Java via an LLM-assisted harness-generation pipeline with tracer validation; and (ii) a reproducible pipeline that converts any open-source repository into new verified benchmark instances. We evaluate 10 LLMs at zero-shot on the held-out test split. The strongest model, Claude-Opus-4.6, reaches an average F1 of 72.9% across the three languages. To demonstrate the train split's utility as a supervision substrate, we fine-tune the Qwen2.5-Coder family on it: lifts of up to +55.6 F1 bring tuned Qwen2.5-Coder-32B to 71.2%, within 1.7 F1 of zero-shot Claude-Opus-4.6. We release the benchmark, pipeline, baselines, and a datasheet at https://github.com/yikun-li/TraceEva
- Abstract(参考訳): 大規模な言語モデル(LLM)が、テストに合格するコードだけを生成するのではなく、実行関連プログラム構造を復元できるかどうかを評価することは、未解決の問題である。
既存のコードベンチマークでは、スタンドアロンプログラミングタスク(HumanEval、MBPP、LiveCodeBench)からリポジトリ修復(SWE-Bench)までテストパス出力を強調している。
ソースコードからプログラムのランタイムコール構造を復元する,コードセマンティック推論のための,最初の実行検証されたマルチベンチマークであるTraceEvalを紹介した。
静的ツール出力や手書きの接地真理に依存する以前のコールグラフベンチマークとは異なり、TraceEvalのすべての正のエッジは、検証の実行によって機械的に目撃され、観測された振る舞いに対するアノテータの不一致とラベルノイズが排除される。
TraceEval は
(i) LLMによるトレーサバリデーションを備えたハーネス生成パイプラインを通じて,Python,JavaScript,Javaにまたがる1,600以上のオープンソースリポジトリから抽出された実世界のプログラム(2,129件,8,454件)
(ii)任意のオープンソースリポジトリを新しい検証済みベンチマークインスタンスに変換する再現可能なパイプライン。
ホールドアウトテストスプリットにおいて,ゼロショットで10個のLDMを評価した。
最も強いClaude-Opus-4.6は、3つの言語で平均72.9%のF1に達する。
Qwen2.5-Coderファミリーを55.6 F1のリフトで調整したQwen2.5-Coder-32Bを71.2%まで微調整し、ゼロショットClaude-Opus-4.6の1.7 F1内に配置する。
ベンチマーク、パイプライン、ベースライン、データシートはhttps://github.com/yikun-li/TraceEvaで公開しています。
関連論文リスト
- CrackMeBench: Binary Reverse Engineering for Agents [3.93181912653522]
CrackMeBenchは、言語モデルエージェントを教育のリバースエンジニアリングタスクで評価するためのベンチマークである。
v0ベンチマークでは、8つのパブリックキャリブレーションCrackMesと、シードされたC、Rust、Goテンプレートから構築された12のメインスコアタスクを組み合わせる。
CrackMeBenchは pass@1 と pass@3 を記録し、リクエスト、ウォールクロック時間、コマンドトレース、ツールカテゴリ、プロバイダがレポートしたトークンの使用状況、推定コスト、定性的な障害ラベルを記録している。
論文 参考訳(メタデータ) (2026-05-11T14:01:36Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - SemGuard: Real-Time Semantic Evaluator for Correcting LLM-Generated Code [46.20378145112059]
ポストホック修復パイプラインは、実行後にのみそのような障害を検出する。
本稿では,実時間で行レベルのセマンティック監視を行うセマンティック評価フレームワークSemGuardを紹介する。
論文 参考訳(メタデータ) (2025-09-29T09:21:32Z) - ThrowBench: Benchmarking LLMs by Predicting Runtime Exceptions [4.852619858744873]
大規模言語モデル(LLM)は、コード理解と合成の驚くべき能力を示している。
4つの異なるプログラミング言語で書かれた2,400以上の短いユーザ記述プログラムからなるベンチマークであるThrowBenchを紹介する。
我々は6つの最先端コードLLMのベンチマーク評価を行い、19~38%(F1スコア)の適度なパフォーマンスを確認した。
論文 参考訳(メタデータ) (2025-03-06T09:22:23Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust [50.65321080814249]
RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。
複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
論文 参考訳(メタデータ) (2024-11-21T10:00:52Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。