Fugu-MT 論文翻訳(概要): RepairBench: Leaderboard of Frontier Models for Program Repair

論文の概要: RepairBench: Leaderboard of Frontier Models for Program Repair

arxiv url: http://arxiv.org/abs/2409.18952v1
Date: Fri, 27 Sep 2024 17:52:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 07:41:44.855656
Title: RepairBench: Leaderboard of Frontier Models for Program Repair
Title（参考訳）: repairBench: プログラム修復のためのフロンティアモデルのリーダーボード
Authors: André Silva, Martin Monperrus,
Abstract要約: AI駆動のプログラム修復は、パッチを作成することによってバグの多いソフトウェアを修復するためにAIモデルを使用する。本稿では,AI駆動型プログラム修復のための新しいリーダーボードであるRe repairBenchを提案する。
参考スコア（独自算出の注目度）: 8.508198765617196
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI-driven program repair uses AI models to repair buggy software by producing patches. Rapid advancements in AI surely impact state-of-the-art performance of program repair. Yet, grasping this progress requires frequent and standardized evaluations. We propose RepairBench, a novel leaderboard for AI-driven program repair. The key characteristics of RepairBench are: 1) it is execution-based: all patches are compiled and executed against a test suite, 2) it assesses frontier models in a frequent and standardized way. RepairBench leverages two high-quality benchmarks, Defects4J and GitBug-Java, to evaluate frontier models against real-world program repair tasks. We publicly release the evaluation framework of RepairBench. We will update the leaderboard as new frontier models are released.
Abstract（参考訳）: AI駆動のプログラム修復は、パッチを作成することによってバグの多いソフトウェアを修復するためにAIモデルを使用する。 AIの急速な進歩は、確実にプログラム修復の最先端のパフォーマンスに影響を与える。しかし、この進捗を把握するには、頻繁で標準化された評価が必要である。本稿では,AI駆動型プログラム修復のための新しいリーダーボードであるRe repairBenchを提案する。 repairBenchの主な特徴は次のとおりである。すべてのパッチはコンパイルされ、テストスイートに対して実行される。 2)フロンティアモデルを頻繁で標準化された方法で評価する。 repairBenchは2つの高品質なベンチマークであるDefects4JとGitBug-Javaを活用して、実際のプログラムの修復タスクに対するフロンティアモデルを評価する。 repairBenchの評価フレームワークを公開しています。新しいフロンティアモデルのリリースに合わせて、リーダーボードを更新します。

関連論文リスト

RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文参考訳（メタデータ） (2025-06-02T17:54:04Z)
Towards Practical and Useful Automated Program Repair for Debugging [4.216808129651161]
PracAPRは統合開発環境(IDE)で動作する対話型修復システムである PracAPRはテストスイートやプログラムの再実行を必要としない。
論文参考訳（メタデータ） (2024-07-12T03:19:54Z)
On The Effectiveness of Dynamic Reduction Techniques in Automated Program Repair [1.7767466724342067]
本稿では,大規模バグ修正プログラムを効果的に処理するプログラム修復フレームワークについて述べる。このフレームワークは、プログラムスライシングの形式でプログラムの削減を利用して、修正中のバグとは無関係にコードの一部を除去する。広く使用されているDefects4Jデータセットに対する実験結果から,修復品質の劣化を伴わずに,大幅な性能向上が達成できることが判明した。
論文参考訳（メタデータ） (2024-06-23T21:35:07Z)
PruningBench: A Comprehensive Benchmark of Structural Pruning [50.23493036025595]
textitPruningBenchと呼ばれる、構造的プルーニングのための最初の包括的なベンチマークを提示する。 PruningBenchは、多様な構造的プルーニング技術の有効性を評価するために、統一的で一貫したフレームワークを使用している。将来の刈り取り方法の実装を容易にするための実装が容易なインターフェースを提供し、その後の研究者が自身の作業をリーダボードに組み込めるようにします。
論文参考訳（メタデータ） (2024-06-18T06:37:26Z)
A Novel Approach for Automatic Program Repair using Round-Trip Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文参考訳（メタデータ） (2024-01-15T22:36:31Z)
RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program Repair [8.321263361036808]
そこで我々は,APRの最適なコード表現を微調整モデルで識別する新しいプログラム修復手法であるRe repairLLaMAを提案する。これにより、AIでバグを修正するのに非常に効果的なプログラム修復アダプタが提供される。全体として、Re repairLLaMAは144のDefects4J v2と109のHumanEval-Javaバグを正しく修正し、すべてのベースラインを上回っている。
論文参考訳（メタデータ） (2023-12-25T11:39:46Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。 InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文参考訳（メタデータ） (2022-09-27T12:26:05Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)
Benchopt: Reproducible, efficient and collaborative optimization benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文参考訳（メタデータ） (2022-06-27T16:19:24Z)
FixEval: Execution-based Evaluation of Program Fixes for Programming Problems [23.987104440395576]
FixEvalは、競合するプログラミング問題とそれに対応する修正に対して、バグの多いコードを提出するベンチマークです。 FixEvalは、モデル生成プログラム修正の正確性を評価するために、ユニットテストの広範なコレクションを提供する。実験の結果,マッチングに基づくメトリクスは,モデル生成プログラムの修正を正確に反映しないことがわかった。
論文参考訳（メタデータ） (2022-06-15T20:18:43Z)
Graph-based, Self-Supervised Program Repair from Diagnostic Feedback [108.48853808418725]
本稿では,ソースコードの修復や診断フィードバックに関連するシンボルを結合するプログラムフィードバックグラフを提案する。次に、推論プロセスのモデル化にグラフニューラルネットワークを適用します。オンラインで利用可能なラベルのないプログラムを活用するプログラム修復のための自己指導型学習パラダイムを提案する。
論文参考訳（メタデータ） (2020-05-20T07:24:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。