Fugu-MT 論文翻訳(概要): ConDefects: A New Dataset to Address the Data Leakage Concern for LLM-based Fault Localization and Program Repair

論文の概要: ConDefects: A New Dataset to Address the Data Leakage Concern for LLM-based Fault Localization and Program Repair

arxiv url: http://arxiv.org/abs/2310.16253v1
Date: Wed, 25 Oct 2023 00:06:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 17:39:51.849216
Title: ConDefects: A New Dataset to Address the Data Leakage Concern for LLM-based Fault Localization and Program Repair
Title（参考訳）: Condefects: LLMに基づくフォールトローカライゼーションとプログラム修復のためのデータ漏洩問題に対処する新しいデータセット
Authors: Yonghao Wu, Zheng Li, Jie M. Zhang, Yong Liu
Abstract要約: 欠陥(Condefects)は、このような重複をなくすために慎重にキュレートされた、真断層の新しいデータセットである。には1,254のJavaの欠陥プログラムと1,625のPythonの欠陥プログラムが含まれている。障害位置と対応するコードバージョンとをペアにすることで、障害のローカライゼーションとプログラムの修正関連研究に適したものにします。
参考スコア（独自算出の注目度）: 22.342625625700908
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the growing interest on Large Language Models (LLMs) for fault localization and program repair, ensuring the integrity and generalizability of the LLM-based methods becomes paramount. The code in existing widely-adopted benchmarks for these tasks was written before the the bloom of LLMs and may be included in the training data of existing popular LLMs, thereby suffering from the threat of data leakage, leading to misleadingly optimistic performance metrics. To address this issue, we introduce "ConDefects", a novel dataset of real faults meticulously curated to eliminate such overlap. ConDefects contains 1,254 Java faulty programs and 1,625 Python faulty programs. All these programs are sourced from the online competition platform AtCoder and were produced between October 2021 and September 2023. We pair each fault with fault locations and the corresponding repaired code versions, making it tailored for in fault localization and program repair related research. We also provide interfaces for selecting subsets based on different time windows and coding task difficulties. While inspired by LLM-based tasks, ConDefects can be adopted for benchmarking ALL types of fault localization and program repair methods. The dataset is publicly available, and a demo video can be found at https://www.youtube.com/watch?v=22j15Hj5ONk.
Abstract（参考訳）: フォールトローカライゼーションとプログラム修復に対するLLM(Large Language Models)への関心が高まり、LLMベースの手法の整合性と一般化性が最重要となる。これらのタスクに対する既存の広く評価されたベンチマークのコードは、LLMの出現前に書かれており、既存のLLMのトレーニングデータに含まれる可能性があるため、データ漏洩の脅威に悩まされ、誤った楽観的なパフォーマンス指標がもたらされた。この問題に対処するために、このような重複を排除するために慎重にキュレートされた実断層の新しいデータセットである"Condefects"を紹介します。 Condefectsには1,254のJava障害プログラムと1,625のPython障害プログラムが含まれている。これらのプログラムはすべて、オンラインコンペティションプラットフォームのatcoderから提供され、2021年10月から2023年9月まで生産された。それぞれの障害を障害箇所と対応する修正コードバージョンとをペアにすることで,障害のローカライズとプログラム修復関連の研究に合わせたものです。また、異なる時間ウィンドウとコーディングタスクの難しさに基づいてサブセットを選択するインターフェイスも提供します。 LLMベースのタスクにインスパイアされたConDefectsは、allタイプの障害ローカライゼーションとプログラム修復メソッドのベンチマークに使用できる。データセットは公開されており、デモビデオはhttps://www.youtube.com/watch? v=22j15Hj5ONK。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。 SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文参考訳（メタデータ） (2025-05-07T19:44:09Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
Counterexample Guided Program Repair Using Zero-Shot Learning and MaxSAT-based Fault Localization [0.0]
導入プログラミング課題(IPAs)のための自動プログラム修復(APR)は、多数の学生の参加によって動機付けられている。本稿では,FMに基づく障害局所化とLarge Language Models(LLMs)の長所を組み合わせた新しいアプローチを提案する。提案手法では,MaxSATに基づく障害位置定位法を用いて,プログラムのバグ部分を特定し,これらのバグ文を欠いたプログラムスケッチをLLMに提示する。
論文参考訳（メタデータ） (2024-12-19T12:08:44Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。 LLMはコード生成時にエラーの蓄積に影響を受けやすい。コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文参考訳（メタデータ） (2024-11-11T16:39:13Z)
Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection [8.22737389683156]
大規模言語モデル(LLM)は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。 LLM4FL は,SBFL ランキングと配当戦略を統合した新しい LLM4FL の故障局所化手法である。以上の結果から,LLM4FLはTop-1の精度でAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回っていることがわかった。
論文参考訳（メタデータ） (2024-09-20T16:47:34Z)
Open-domain Implicit Format Control for Large Language Model Generation [52.83173553689678]
大規模言語モデル(LLM)における制御生成のための新しいフレームワークを提案する。本研究では、LLMがオープンドメイン、ワンショット制約に従う能力と、サンプル回答の形式を再現する能力について検討する。また、出力品質を劣化させることなく、LLMのオープンドメインフォーマット制御を強化する教師付き微調整のためのデータセット収集手法を開発した。
論文参考訳（メタデータ） (2024-08-08T11:51:45Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Aligning LLMs for FL-free Program Repair [14.935596175148586]
本稿では,大規模言語モデル (LLM) をプログラム修復に適用するための新しいアプローチについて検討する。我々の中核的な洞察は、LLMのAPR能力は、単にトレーニング目標に出力を合わせるだけで大幅に改善できるということです。この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。
論文参考訳（メタデータ） (2024-04-13T02:36:40Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
A Novel Approach for Automatic Program Repair using Round-Trip Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文参考訳（メタデータ） (2024-01-15T22:36:31Z)
The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。 LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文参考訳（メタデータ） (2023-10-20T02:37:44Z)
Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。 5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文参考訳（メタデータ） (2023-10-03T01:26:39Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。