論文の概要: FixEval: Execution-based Evaluation of Program Fixes for Competitive
Programming Problems
- arxiv url: http://arxiv.org/abs/2206.07796v1
- Date: Wed, 15 Jun 2022 20:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 19:02:57.802920
- Title: FixEval: Execution-based Evaluation of Program Fixes for Competitive
Programming Problems
- Title(参考訳): FixEval: 競合プログラミング問題に対するプログラム修正の実行に基づく評価
- Authors: Md Mahim Anjum Haque and Wasi Uddin Ahmad and Ismini Lourentzou and
Chris Brown
- Abstract要約: モデル生成プログラム修正の正確性を評価し評価するベンチマークであるFixEvalを紹介する。
プログラミング言語上で事前訓練された2つのトランスフォーマー言語モデルをベースラインとして、マッチベースおよび実行ベース評価指標を用いて比較する。
実験の結果,一致したメトリクスはモデル生成プログラムの修正を正確に反映しないが,実行ベースの手法は,そのソリューション用に特別に設計されたすべてのケースやシナリオを通じてプログラムを評価することがわかった。
- 参考スコア(独自算出の注目度): 23.987104440395576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Source code repositories consist of large codebases, often containing
error-prone programs. The increasing complexity of software has led to a
drastic rise in time and costs for identifying and fixing these defects.
Various methods exist to automatically generate fixes for buggy code. However,
due to the large combinatorial space of possible solutions for a particular
bug, there are not many tools and datasets available to evaluate generated code
effectively. In this work, we introduce FixEval, a benchmark comprising buggy
code submissions to competitive programming problems and their respective
fixes. We introduce a rich test suite to evaluate and assess the correctness of
model-generated program fixes. We consider two Transformer language models
pretrained on programming languages as our baselines, and compare them using
match-based and execution-based evaluation metrics. Our experiments show that
match-based metrics do not reflect model-generated program fixes accurately,
while execution-based methods evaluate programs through all cases and scenarios
specifically designed for that solution. Therefore, we believe FixEval provides
a step towards real-world automatic bug fixing and model-generated code
evaluation.
- Abstract(参考訳): ソースコードリポジトリは大きなコードベースで構成されており、しばしばエラーを起こしやすいプログラムを含んでいる。
ソフトウェアの複雑さの増大は、これらの欠陥を特定し修正するための時間とコストの大幅な増加につながった。
バギーコードの修正を自動的に生成する様々な方法が存在する。
しかしながら、特定のバグに対するソリューションの大規模な組み合わせスペースのため、生成されたコードを効果的に評価するためのツールやデータセットは多くない。
本稿では,競合プログラミング問題に対するバギーコード提出とその修正を含むベンチマークであるfixevalを紹介する。
我々は,モデル生成プログラム修正の正確性を評価し評価するためのリッチテストスイートを提案する。
プログラミング言語上で事前訓練された2つのトランスフォーマー言語モデルをベースラインとして、マッチベースおよび実行ベース評価指標を用いて比較する。
提案実験では,マッチベースメトリクスはモデル生成プログラムの修正を正確に反映しないが,実行ベースの手法では,そのソリューション用に特別に設計されたすべてのケースとシナリオを通してプログラムを評価する。
したがって、FixEvalは実際の自動バグ修正とモデル生成コード評価へのステップを提供すると思います。
関連論文リスト
- RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。
モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。
6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文 参考訳(メタデータ) (2024-08-07T03:06:57Z) - Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。
競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。
本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-08T18:23:59Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Fully Autonomous Programming with Large Language Models [0.9558392439655015]
LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
論文 参考訳(メタデータ) (2023-04-20T16:12:05Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。