論文の概要: ConDefects: A New Dataset to Address the Data Leakage Concern for
LLM-based Fault Localization and Program Repair
- arxiv url: http://arxiv.org/abs/2310.16253v1
- Date: Wed, 25 Oct 2023 00:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:39:51.849216
- Title: ConDefects: A New Dataset to Address the Data Leakage Concern for
LLM-based Fault Localization and Program Repair
- Title(参考訳): Condefects: LLMに基づくフォールトローカライゼーションとプログラム修復のためのデータ漏洩問題に対処する新しいデータセット
- Authors: Yonghao Wu, Zheng Li, Jie M. Zhang, Yong Liu
- Abstract要約: 欠陥(Condefects)は、このような重複をなくすために慎重にキュレートされた、真断層の新しいデータセットである。
には1,254のJavaの欠陥プログラムと1,625のPythonの欠陥プログラムが含まれている。
障害位置と対応するコードバージョンとをペアにすることで、障害のローカライゼーションとプログラムの修正関連研究に適したものにします。
- 参考スコア(独自算出の注目度): 22.342625625700908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing interest on Large Language Models (LLMs) for fault
localization and program repair, ensuring the integrity and generalizability of
the LLM-based methods becomes paramount. The code in existing widely-adopted
benchmarks for these tasks was written before the the bloom of LLMs and may be
included in the training data of existing popular LLMs, thereby suffering from
the threat of data leakage, leading to misleadingly optimistic performance
metrics. To address this issue, we introduce "ConDefects", a novel dataset of
real faults meticulously curated to eliminate such overlap. ConDefects contains
1,254 Java faulty programs and 1,625 Python faulty programs. All these programs
are sourced from the online competition platform AtCoder and were produced
between October 2021 and September 2023. We pair each fault with fault
locations and the corresponding repaired code versions, making it tailored for
in fault localization and program repair related research. We also provide
interfaces for selecting subsets based on different time windows and coding
task difficulties. While inspired by LLM-based tasks, ConDefects can be adopted
for benchmarking ALL types of fault localization and program repair methods.
The dataset is publicly available, and a demo video can be found at
https://www.youtube.com/watch?v=22j15Hj5ONk.
- Abstract(参考訳): フォールトローカライゼーションとプログラム修復に対するLLM(Large Language Models)への関心が高まり、LLMベースの手法の整合性と一般化性が最重要となる。
これらのタスクに対する既存の広く評価されたベンチマークのコードは、LLMの出現前に書かれており、既存のLLMのトレーニングデータに含まれる可能性があるため、データ漏洩の脅威に悩まされ、誤った楽観的なパフォーマンス指標がもたらされた。
この問題に対処するために、このような重複を排除するために慎重にキュレートされた実断層の新しいデータセットである"Condefects"を紹介します。
Condefectsには1,254のJava障害プログラムと1,625のPython障害プログラムが含まれている。
これらのプログラムはすべて、オンラインコンペティションプラットフォームのatcoderから提供され、2021年10月から2023年9月まで生産された。
それぞれの障害を障害箇所と対応する修正コードバージョンとをペアにすることで,障害のローカライズとプログラム修復関連の研究に合わせたものです。
また、異なる時間ウィンドウとコーディングタスクの難しさに基づいてサブセットを選択するインターフェイスも提供します。
LLMベースのタスクにインスパイアされたConDefectsは、allタイプの障害ローカライゼーションとプログラム修復メソッドのベンチマークに使用できる。
データセットは公開されており、デモビデオはhttps://www.youtube.com/watch?
v=22j15Hj5ONK。
関連論文リスト
- Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That? [70.90792645587449]
命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。
LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。
本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging
Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。
LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。
このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文 参考訳(メタデータ) (2023-10-20T02:37:44Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - A Preliminary Evaluation of LLM-Based Fault Localization [14.390580776549866]
本稿では,単一障害テストのみを必要とする自動障害ローカライゼーション手法であるAutoFLについて述べる。
我々の結果は、広く使われているDefects4Jベンチマークにおいて、AutoFLは、以前の作業から比較したすべてのスタンドアロン技術よりも、最初の試行で失敗するメソッドを特定することができることを示している。
論文 参考訳(メタデータ) (2023-08-10T10:26:55Z) - Can Large Language Models Infer Causation from Correlation? [80.38419293391397]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Towards Generating Functionally Correct Code Edits from Natural Language
Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。
本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文 参考訳(メタデータ) (2023-04-07T18:58:33Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。