論文の概要: CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning
- arxiv url: http://arxiv.org/abs/2506.00750v1
- Date: Sat, 31 May 2025 23:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.516925
- Title: CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning
- Title(参考訳): CodeSense: コードセマンティック推論のための実世界のベンチマークとデータセット
- Authors: Monoshi Kumar Roy, Simin Chen, Benjamin Steenhoek, Jinjun Peng, Gail Kaiser, Baishakhi Ray, Wei Le,
- Abstract要約: 私たちはCodeSenseという,一連のきめ細かいコード推論タスクを利用できる最初のベンチマークを提案しています。
この結果から,モデルが微粒な推論処理を行う場合の性能差が明らかとなった。
当社の作業では,詳細なSE推論タスクに対して,真理を簡単に収集することのできる実行トレースフレームワークとツールセットを作成しました。
- 参考スコア(独自算出の注目度): 20.06743818187144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and reasoning about code semantics is essential for enhancing code LLMs' abilities to solve real-world software engineering (SE) tasks. Although several code reasoning benchmarks exist, most rely on synthetic datasets or educational coding problems and focus on coarse-grained reasoning tasks such as input/output prediction, limiting their effectiveness in evaluating LLMs in practical SE contexts. To bridge this gap, we propose CodeSense, the first benchmark that makes available a spectrum of fine-grained code reasoning tasks concerned with the software engineering of real-world code. We collected Python, C and Java software projects from real-world repositories. We executed tests from these repositories, collected their execution traces, and constructed a ground truth dataset for fine-grained semantic reasoning tasks. We then performed comprehensive evaluations on state-of-the-art LLMs. Our results show a clear performance gap for the models to handle fine-grained reasoning tasks. Although prompting techniques such as chain-of-thought and in-context learning helped, the lack of code semantics in LLMs fundamentally limit models' capabilities of code reasoning. Besides dataset, benchmark and evaluation, our work produced an execution tracing framework and tool set that make it easy to collect ground truth for fine-grained SE reasoning tasks, offering a strong basis for future benchmark construction and model post training. Our code and data are located at https://codesense-bench.github.io/.
- Abstract(参考訳): コードセマンティクスに関する理解と推論は、実世界のソフトウェア工学(SE)タスクを解決するためのLLMの能力を高めるために不可欠である。
いくつかのコード推論ベンチマークが存在するが、ほとんどの場合、合成データセットや教育的なコーディング問題に頼り、入力/出力予測のような粗粒度の推論タスクに重点を置いており、実用的なSEコンテキストにおけるLLMの評価の有効性を制限している。
このギャップを埋めるために、私たちはCodeSenseという、現実世界のコードのソフトウェア工学に関わるタスクを、きめ細かいコード推論のスペクトルとして利用できる最初のベンチマークを提案します。
実世界のリポジトリからPython、C、Javaのソフトウェアプロジェクトを収集しました。
これらのリポジトリからテストを実行し、それらの実行トレースを収集し、きめ細かいセマンティック推論タスクのための基底真理データセットを構築しました。
次に,最先端LCMの総合評価を行った。
この結果から,モデルが微粒な推論処理を行う場合の性能差が明らかとなった。
チェーン・オブ・イン・コンテクスト・ラーニング(英語版)やイン・コンテクスト・ラーニング(英語版)といった技法の推進は役立ったが、LLMにおけるコードセマンティクスの欠如は、基本的にはコード推論のモデルの能力を制限した。
データセット、ベンチマーク、評価に加えて、我々の研究は実行トレースフレームワークとツールセットを作成し、詳細なSE推論タスクの真理を簡単に収集し、将来のベンチマーク構築とモデルポストトレーニングの強力な基盤を提供します。
私たちのコードとデータはhttps://codesense-bench.github.io/にあります。
関連論文リスト
- Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models [36.266383541354294]
まず、DA-Code内のタスクは本質的に困難で、従来のコード生成タスクとは分離されています。
次に、DA-Codeの例は、すべて実データと多種多様なデータに基づいており、幅広い複雑なデータラングリングと分析タスクをカバーしている。
第三に、これらの課題を解決するためには、複雑なデータサイエンスプログラミング言語を使用し、複雑なデータ処理を実行し、答えを導出する必要がある。
論文 参考訳(メタデータ) (2024-10-09T18:00:05Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。
本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。