論文の概要: Predicting Code Coverage without Execution
- arxiv url: http://arxiv.org/abs/2307.13383v1
- Date: Tue, 25 Jul 2023 10:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 17:36:58.480947
- Title: Predicting Code Coverage without Execution
- Title(参考訳): 実行せずにコードカバレッジを予測する
- Authors: Michele Tufano, Shubham Chandel, Anisha Agarwal, Neel Sundaresan,
Colin Clement
- Abstract要約: コードカバレッジは、テスト中にステートメントやブランチなどのプログラム要素が実行される範囲を定量化するために広く使用されるメトリクスである。
本稿では,Large Language Models (LLM) のためのコードカバレッジ予測という新しいベンチマークタスクを提案する。
このタスクを形式化し、与えられたテストケースと入力によってメソッドのどの行が実行されるかを決定することで、コード実行のLLMの能力を評価する。
OpenAI の GPT-4 や GPT-3.5-Turbo, Google の BARD, An など,コード関連タスクに使用されている4つの最先端 LLM の性能について報告する。
- 参考スコア(独自算出の注目度): 8.611200125985887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code coverage is a widely used metric for quantifying the extent to which
program elements, such as statements or branches, are executed during testing.
Calculating code coverage is resource-intensive, requiring code building and
execution with additional overhead for the instrumentation. Furthermore,
computing coverage of any snippet of code requires the whole program context.
Using Machine Learning to amortize this expensive process could lower the cost
of code coverage by requiring only the source code context, and the task of
code coverage prediction can be a novel benchmark for judging the ability of
models to understand code. We propose a novel benchmark task called Code
Coverage Prediction for Large Language Models (LLMs). We formalize this task to
evaluate the capability of LLMs in understanding code execution by determining
which lines of a method are executed by a given test case and inputs. We curate
and release a dataset we call COVERAGEEVAL by executing tests and code from the
HumanEval dataset and collecting code coverage information. We report the
performance of four state-of-the-art LLMs used for code-related tasks,
including OpenAI's GPT-4 and GPT-3.5-Turbo, Google's BARD, and Anthropic's
Claude, on the Code Coverage Prediction task. Finally, we argue that code
coverage as a metric and pre-training data source are valuable for overall LLM
performance on software engineering tasks.
- Abstract(参考訳): コードカバレッジは、テスト中にステートメントやブランチなどのプログラム要素が実行される範囲を定量化するために広く使用されるメトリクスである。
コードカバレッジの計算はリソース集約的であり、計測には追加のオーバーヘッドを伴うコードの構築と実行が必要となる。
さらに、コードスニペットの計算カバレッジには、プログラム全体のコンテキストが必要である。
機械学習を使ってこの高価なプロセスを償却することで、ソースコードのコンテキストのみを必要とすることで、コードカバレッジのコストを下げることができ、コードカバレッジ予測のタスクは、コードを理解するモデルの能力を評価するための新しいベンチマークになり得る。
本稿では,Large Language Models (LLM) のためのコードカバレッジ予測という新しいベンチマークタスクを提案する。
このタスクを形式化し、与えられたテストケースと入力によってメソッドのどの行が実行されるかを決定することで、コード実行のLLMの能力を評価する。
我々は、HumanEvalデータセットからテストとコードを実行し、コードカバレッジ情報を収集することで、COVERAGEEVALと呼ぶデータセットをキュレートしてリリースします。
コードカバレッジ予測タスクにおいて,OpenAI の GPT-4 と GPT-3.5-Turbo,Google の BARD と Anthropic の Claude を含む,コード関連タスクに使用されている4つの最先端 LLM の性能を報告する。
最後に、メトリクスおよび事前学習データソースとしてのコードカバレッジは、ソフトウェアエンジニアリングタスクにおけるLLMの全体的なパフォーマンスに価値があると論じる。
関連論文リスト
- CoCoP: Enhancing Text Classification with LLM through Code Completion Prompt [3.2047924365529026]
本稿では,テキスト分類問題をコード補完タスクに変換するCode Completion Prompt (CoCoP)法を提案する。
CoCoPは、LLMのコード補完機能を利用することで、多様なデータセット間でのテキスト分類性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-13T19:12:02Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。