論文の概要: CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks
- arxiv url: http://arxiv.org/abs/2507.05269v1
- Date: Thu, 03 Jul 2025 01:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.167971
- Title: CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks
- Title(参考訳): CORE: 静的解析タスクによるLLMコードの推論能力のベンチマーク
- Authors: Danning Xie, Mingwei Zheng, Xuwei Liu, Jiannan Wang, Chengpeng Wang, Lin Tan, Xiangyu Zhang,
- Abstract要約: 大規模言語モデル(LLM)は様々なソフトウェア工学領域で広く採用されている。
これらのアプリケーションは、表面レベルのコードパターン以上の理解を必要とします。
既存のベンチマークは、コードが正しく修正されるか、生成されたかといったエンドツーエンドの結果を主に評価する。
- 参考スコア(独自算出の注目度): 12.465309397733249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been widely adopted across diverse software engineering domains, such as code generation, program repair, and vulnerability detection. These applications require understanding beyond surface-level code patterns: value propagation, control flow, and interdependence between program elements. However, existing benchmarks primarily evaluate end-to-end outcomes, such as whether code is correctly repaired or generated, leaving the models ability for program semantic reasoning underexplored. This work presents CoRe, a high-quality, human-verified benchmark designed to evaluate LLMs on fundamental static analysis tasks. CoRe includes 12,553 task instances spanning data dependency, control dependency, and information flow across programs written in C/C++, Java, and Python. To ensure semantic diversity and reasoning complexity, we propose a semantics-aware diverse sampling strategy that selects targets and task instances based on structural coverage and dependency depth. We evaluate 10 mainstream LLMs and show that, while they perform well at identifying dependencies, models still struggle with tasks that require deeper semantic understanding and multi-step reasoning. We further conduct qualitative analyses to uncover key challenges, such as complex control structures and backward dependency patterns, offering insights into improving LLMs code reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成、プログラム修復、脆弱性検出など、様々なソフトウェアエンジニアリング領域で広く採用されている。
これらのアプリケーションは、値の伝搬、制御フロー、プログラム要素間の相互依存といった、表面レベルのコードパターン以上の理解を必要とします。
しかし、既存のベンチマークでは、コードが正しく修正されるか生成されるかといったエンドツーエンドの結果を主に評価し、プログラムのセマンティック推論の能力は過小評価されている。
この研究は、基本的な静的解析タスク上でLLMを評価するために設計された、高品質で人間認証されたベンチマークであるCoReを提示する。
CoReには、C/C++、Java、Pythonで書かれたプログラムにまたがるデータ依存、制御依存、情報フローにまたがる12,553のタスクインスタンスが含まれている。
セマンティックな多様性と推論の複雑さを保証するため、構造的カバレッジと依存性の深さに基づいてターゲットとタスクインスタンスを選択するセマンティックス対応の多様なサンプリング戦略を提案する。
我々は10の主要なLCMを評価し、依存性を特定するのに優れている一方で、モデルが深いセマンティック理解とマルチステップ推論を必要とするタスクに苦戦していることを示す。
さらに、複雑な制御構造や後方依存性パターンなどの重要な課題を明らかにするための定性的な分析を行い、LLMのコード推論機能の改善に関する洞察を提供する。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - SV-TrustEval-C: Evaluating Structure and Semantic Reasoning in Large Language Models for Source Code Vulnerability Analysis [39.229080120880774]
SV-TrustEval-Cは,C言語で記述されたコードの脆弱性解析のための大規模言語モデルの能力を評価するためのベンチマークである。
以上の結果から,現在のLLMは複雑なコード関係を理解するのに十分ではないことが示され,その脆弱性分析はロバストな論理的推論よりもパターンマッチングに頼っている。
論文 参考訳(メタデータ) (2025-05-27T02:16:27Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。
ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文 参考訳(メタデータ) (2025-05-21T04:59:44Z) - BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。
このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。
Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文 参考訳(メタデータ) (2025-03-22T23:59:17Z) - Oracular Programming: A Modular Foundation for Building LLM-Enabled Software [5.294604210205507]
大規模な言語モデルは、少数の例から幅広いタスクを解くのに驚くほど効果的であることが証明されている。
信頼性とモジュラリティの欠如は、多くの推論ステップを必要とする大きな問題に対処する能力を制限する。
ドメインの専門家が未解決の選択ポイントを持つプログラムとして高レベルな問題解決戦略を表現できるように、LLM対応アプリケーションを構築するための基礎パラダイムである分子プログラミングを提案する。
論文 参考訳(メタデータ) (2025-02-07T20:24:43Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - SymbolicAI: A framework for logic-based approaches combining generative models and solvers [9.841285581456722]
生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。
我々は,大規模言語モデル(LLM)を,自然言語命令と形式言語命令の両方に基づいてタスクを実行する意味的解決器として扱う。
論文 参考訳(メタデータ) (2024-02-01T18:50:50Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。