論文の概要: CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks
- arxiv url: http://arxiv.org/abs/2507.05269v1
- Date: Thu, 03 Jul 2025 01:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.167971
- Title: CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks
- Title(参考訳): CORE: 静的解析タスクによるLLMコードの推論能力のベンチマーク
- Authors: Danning Xie, Mingwei Zheng, Xuwei Liu, Jiannan Wang, Chengpeng Wang, Lin Tan, Xiangyu Zhang,
- Abstract要約: 大規模言語モデル(LLM)は様々なソフトウェア工学領域で広く採用されている。
これらのアプリケーションは、表面レベルのコードパターン以上の理解を必要とします。
既存のベンチマークは、コードが正しく修正されるか、生成されたかといったエンドツーエンドの結果を主に評価する。
- 参考スコア(独自算出の注目度): 12.465309397733249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been widely adopted across diverse software engineering domains, such as code generation, program repair, and vulnerability detection. These applications require understanding beyond surface-level code patterns: value propagation, control flow, and interdependence between program elements. However, existing benchmarks primarily evaluate end-to-end outcomes, such as whether code is correctly repaired or generated, leaving the models ability for program semantic reasoning underexplored. This work presents CoRe, a high-quality, human-verified benchmark designed to evaluate LLMs on fundamental static analysis tasks. CoRe includes 12,553 task instances spanning data dependency, control dependency, and information flow across programs written in C/C++, Java, and Python. To ensure semantic diversity and reasoning complexity, we propose a semantics-aware diverse sampling strategy that selects targets and task instances based on structural coverage and dependency depth. We evaluate 10 mainstream LLMs and show that, while they perform well at identifying dependencies, models still struggle with tasks that require deeper semantic understanding and multi-step reasoning. We further conduct qualitative analyses to uncover key challenges, such as complex control structures and backward dependency patterns, offering insights into improving LLMs code reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成、プログラム修復、脆弱性検出など、様々なソフトウェアエンジニアリング領域で広く採用されている。
これらのアプリケーションは、値の伝搬、制御フロー、プログラム要素間の相互依存といった、表面レベルのコードパターン以上の理解を必要とします。
しかし、既存のベンチマークでは、コードが正しく修正されるか生成されるかといったエンドツーエンドの結果を主に評価し、プログラムのセマンティック推論の能力は過小評価されている。
この研究は、基本的な静的解析タスク上でLLMを評価するために設計された、高品質で人間認証されたベンチマークであるCoReを提示する。
CoReには、C/C++、Java、Pythonで書かれたプログラムにまたがるデータ依存、制御依存、情報フローにまたがる12,553のタスクインスタンスが含まれている。
セマンティックな多様性と推論の複雑さを保証するため、構造的カバレッジと依存性の深さに基づいてターゲットとタスクインスタンスを選択するセマンティックス対応の多様なサンプリング戦略を提案する。
我々は10の主要なLCMを評価し、依存性を特定するのに優れている一方で、モデルが深いセマンティック理解とマルチステップ推論を必要とするタスクに苦戦していることを示す。
さらに、複雑な制御構造や後方依存性パターンなどの重要な課題を明らかにするための定性的な分析を行い、LLMのコード推論機能の改善に関する洞察を提供する。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。
ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文 参考訳(メタデータ) (2025-05-21T04:59:44Z) - BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - SymbolicAI: A framework for logic-based approaches combining generative models and solvers [9.841285581456722]
生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。
我々は,大規模言語モデル(LLM)を,自然言語命令と形式言語命令の両方に基づいてタスクを実行する意味的解決器として扱う。
論文 参考訳(メタデータ) (2024-02-01T18:50:50Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。