論文の概要: FixEval: Execution-based Evaluation of Program Fixes for Programming
Problems
- arxiv url: http://arxiv.org/abs/2206.07796v4
- Date: Thu, 30 Mar 2023 14:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 18:20:30.921000
- Title: FixEval: Execution-based Evaluation of Program Fixes for Programming
Problems
- Title(参考訳): FixEval: プログラミング問題に対するプログラム修正の実行ベースの評価
- Authors: Md Mahim Anjum Haque and Wasi Uddin Ahmad and Ismini Lourentzou and
Chris Brown
- Abstract要約: FixEvalは、競合するプログラミング問題とそれに対応する修正に対して、バグの多いコードを提出するベンチマークです。
FixEvalは、モデル生成プログラム修正の正確性を評価するために、ユニットテストの広範なコレクションを提供する。
実験の結果,マッチングに基づくメトリクスは,モデル生成プログラムの修正を正確に反映しないことがわかった。
- 参考スコア(独自算出の注目度): 23.987104440395576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The complexity of modern software has led to a drastic increase in the time
and cost associated with detecting and rectifying software bugs. In response,
researchers have explored various methods to automatically generate fixes for
buggy code. However, due to the large combinatorial space of possible fixes for
any given bug, few tools and datasets are available to evaluate model-generated
fixes effectively. To address this issue, we introduce FixEval, a benchmark
comprising of buggy code submissions to competitive programming problems and
their corresponding fixes. FixEval offers an extensive collection of unit tests
to evaluate the correctness of model-generated program fixes and assess further
information regarding time, memory constraints, and acceptance based on a
verdict. We consider two Transformer language models pretrained on programming
languages as our baseline and compare them using match-based and
execution-based evaluation metrics. Our experiments show that match-based
metrics do not reflect model-generated program fixes accurately. At the same
time, execution-based methods evaluate programs through all cases and scenarios
designed explicitly for that solution. Therefore, we believe FixEval provides a
step towards real-world automatic bug fixing and model-generated code
evaluation. The dataset and models are open-sourced at
https://github.com/mahimanzum/FixEval.
- Abstract(参考訳): 現代のソフトウェアの複雑さは、ソフトウェアバグの検出と修正に関連する時間とコストを大幅に増加させました。
これに対し、研究者たちはバグのあるコードの修正を自動的に生成する様々な方法を模索した。
しかしながら、特定のバグに対する修正の可能な大きな組み合わせスペースのため、モデル生成の修正を効果的に評価するツールやデータセットは少ない。
この問題に対処するため,我々は,競合するプログラミング問題に対するバグの多いコード投稿とその修正からなるベンチマークであるfixevalを紹介する。
FixEvalは、モデル生成プログラム修正の正確性を評価し、判断に基づいて時間、メモリ制約、受け入れに関するさらなる情報を評価するために、ユニットテストの広範なコレクションを提供する。
プログラミング言語上で事前訓練された2つのトランスフォーマー言語モデルをベースラインとして、マッチベースおよび実行ベース評価指標を用いて比較する。
実験の結果,マッチングに基づくメトリクスは,モデル生成プログラムの修正を正確に反映しないことがわかった。
同時に、実行ベースのメソッドは、そのソリューションのために明示的に設計されたすべてのケースとシナリオを通してプログラムを評価する。
したがって、FixEvalは実際の自動バグ修正とモデル生成コード評価へのステップを提供すると思います。
データセットとモデルはhttps://github.com/mahimanzum/FixEval.comで公開されている。
関連論文リスト
- RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。
モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。
6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文 参考訳(メタデータ) (2024-08-07T03:06:57Z) - Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。
競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。
本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-08T18:23:59Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Fully Autonomous Programming with Large Language Models [0.9558392439655015]
LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
論文 参考訳(メタデータ) (2023-04-20T16:12:05Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。