Fugu-MT 論文翻訳(概要): Predicting Code Coverage without Execution

論文の概要: Predicting Code Coverage without Execution

arxiv url: http://arxiv.org/abs/2307.13383v1
Date: Tue, 25 Jul 2023 10:07:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-26 17:36:58.480947
Title: Predicting Code Coverage without Execution
Title（参考訳）: 実行せずにコードカバレッジを予測する
Authors: Michele Tufano, Shubham Chandel, Anisha Agarwal, Neel Sundaresan, Colin Clement
Abstract要約: コードカバレッジは、テスト中にステートメントやブランチなどのプログラム要素が実行される範囲を定量化するために広く使用されるメトリクスである。本稿では,Large Language Models (LLM) のためのコードカバレッジ予測という新しいベンチマークタスクを提案する。このタスクを形式化し、与えられたテストケースと入力によってメソッドのどの行が実行されるかを決定することで、コード実行のLLMの能力を評価する。 OpenAI の GPT-4 や GPT-3.5-Turbo, Google の BARD, An など,コード関連タスクに使用されている4つの最先端 LLM の性能について報告する。
参考スコア（独自算出の注目度）: 8.611200125985887
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code coverage is a widely used metric for quantifying the extent to which program elements, such as statements or branches, are executed during testing. Calculating code coverage is resource-intensive, requiring code building and execution with additional overhead for the instrumentation. Furthermore, computing coverage of any snippet of code requires the whole program context. Using Machine Learning to amortize this expensive process could lower the cost of code coverage by requiring only the source code context, and the task of code coverage prediction can be a novel benchmark for judging the ability of models to understand code. We propose a novel benchmark task called Code Coverage Prediction for Large Language Models (LLMs). We formalize this task to evaluate the capability of LLMs in understanding code execution by determining which lines of a method are executed by a given test case and inputs. We curate and release a dataset we call COVERAGEEVAL by executing tests and code from the HumanEval dataset and collecting code coverage information. We report the performance of four state-of-the-art LLMs used for code-related tasks, including OpenAI's GPT-4 and GPT-3.5-Turbo, Google's BARD, and Anthropic's Claude, on the Code Coverage Prediction task. Finally, we argue that code coverage as a metric and pre-training data source are valuable for overall LLM performance on software engineering tasks.
Abstract（参考訳）: コードカバレッジは、テスト中にステートメントやブランチなどのプログラム要素が実行される範囲を定量化するために広く使用されるメトリクスである。コードカバレッジの計算はリソース集約的であり、計測には追加のオーバーヘッドを伴うコードの構築と実行が必要となる。さらに、コードスニペットの計算カバレッジには、プログラム全体のコンテキストが必要である。機械学習を使ってこの高価なプロセスを償却することで、ソースコードのコンテキストのみを必要とすることで、コードカバレッジのコストを下げることができ、コードカバレッジ予測のタスクは、コードを理解するモデルの能力を評価するための新しいベンチマークになり得る。本稿では,Large Language Models (LLM) のためのコードカバレッジ予測という新しいベンチマークタスクを提案する。このタスクを形式化し、与えられたテストケースと入力によってメソッドのどの行が実行されるかを決定することで、コード実行のLLMの能力を評価する。我々は、HumanEvalデータセットからテストとコードを実行し、コードカバレッジ情報を収集することで、COVERAGEEVALと呼ぶデータセットをキュレートしてリリースします。コードカバレッジ予測タスクにおいて,OpenAI の GPT-4 と GPT-3.5-Turbo,Google の BARD と Anthropic の Claude を含む,コード関連タスクに使用されている4つの最先端 LLM の性能を報告する。最後に、メトリクスおよび事前学習データソースとしてのコードカバレッジは、ソフトウェアエンジニアリングタスクにおけるLLMの全体的なパフォーマンスに価値があると論じる。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning [8.571111167616165]
LLM(Large Language Model)が生成するコードは、セキュリティ、知的財産権、学術的完全性に影響を及ぼす。ゼロショットLLM生成符号検出における条件付き確率分布の役割について検討する。与えられたコードスニペットを生成するのに使用される元のタスクを近似する新しいゼロショット検出手法を提案する。
論文参考訳（メタデータ） (2025-06-06T13:23:37Z)
CoCoP: Enhancing Text Classification with LLM through Code Completion Prompt [3.2047924365529026]
本稿では,テキスト分類問題をコード補完タスクに変換するCode Completion Prompt (CoCoP)法を提案する。 CoCoPは、LLMのコード補完機能を利用することで、多様なデータセット間でのテキスト分類性能を大幅に改善する。
論文参考訳（メタデータ） (2024-11-13T19:12:02Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
本稿では,大言語モデル(LLM)と文埋め込みモデルを用いて,新たなゼロショット手法であるzsLLMCodeを提案する。その結果,最先端の教師なしアプローチに対する提案手法の有効性と優位性を実証した。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文参考訳（メタデータ） (2024-09-20T14:49:51Z)
CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文参考訳（メタデータ） (2024-02-15T02:24:46Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-10-16T05:09:58Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。