論文の概要: Can we learn from developer mistakes? Learning to localize and repair
real bugs from real bug fixes
- arxiv url: http://arxiv.org/abs/2207.00301v1
- Date: Fri, 1 Jul 2022 09:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 20:57:33.253089
- Title: Can we learn from developer mistakes? Learning to localize and repair
real bugs from real bug fixes
- Title(参考訳): 開発者のミスから学ぶことはできますか?
本当のバグフィックスから本当のバグのローカライズと修復を学ぶ
- Authors: Cedric Richter and Heike Wehrheim
- Abstract要約: 私たちは、実際のバグ修正から実際のバグをローカライズし、修正する学習のための、事前訓練と微調整のアプローチであるRealiTを紹介します。
RealiTを使った実際のバグ修正のトレーニングは、実際のバグに対して既存のモデルのローカライズ性能をほぼ倍にすることで、経験的に強力であることが分かりました。
- 参考スコア(独自算出の注目度): 0.5330240017302619
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Real bug fixes found in open source repositories seem to be the perfect
source for learning to localize and repair real bugs. However, the absence of
large scale bug fix collections has made it difficult to effectively exploit
real bug fixes in the training of larger neural models in the past. In
contrast, artificial bugs -- produced by mutating existing source code -- can
be easily obtained at a sufficient scale and are therefore often preferred in
the training of existing approaches. Still, localization and repair models that
are trained on artificial bugs usually underperform when faced with real bugs.
This raises the question whether bug localization and repair models trained on
real bug fixes are more effective in localizing and repairing real bugs.
We address this question by introducing RealiT, a pre-train-and-fine-tune
approach for effectively learning to localize and repair real bugs from real
bug fixes. RealiT is first pre-trained on a large number of artificial bugs
produced by traditional mutation operators and then fine-tuned on a smaller set
of real bug fixes. Fine-tuning does not require any modifications of the
learning algorithm and hence can be easily adopted in various training
scenarios for bug localization or repair (even when real training data is
scarce). In addition, we found that training on real bug fixes with RealiT is
empirically powerful by nearly doubling the localization performance of an
existing model on real bugs while maintaining or even improving the repair
performance.
- Abstract(参考訳): オープンソースのリポジトリにある本当のバグフィックスは、本当のバグをローカライズして修復する学習のための完璧なソースのようだ。
しかし、大規模なバグ修正コレクションがないため、大規模なニューラルネットワークモデルのトレーニングにおいて、実際のバグ修正を効果的に活用することは困難になっている。
対照的に、既存のソースコードを変更によって生成される人工的なバグは、十分な規模で簡単に得ることができ、そのため既存のアプローチのトレーニングでしばしば好まれる。
それでも、人工的なバグに基づいてトレーニングされたローカライゼーションと修復モデルは、実際のバグに直面した場合、通常はパフォーマンスが低下する。
これは、実際のバグ修正で訓練されたバグローカライゼーションと修復モデルが実際のバグのローカライズと修復に効果的かどうかという疑問を提起する。
realitは、実際のバグフィックスから実際のバグをローカライズし、修復する方法を効果的に学習するための、事前トレーニングと微調整のアプローチです。
realitはまず、従来のミュータントオペレータが生成する多数の人工バグを事前にトレーニングし、その後、より小さなバグフィックスセットで微調整する。
微調整は学習アルゴリズムの変更を必要としないため、バグのローカライゼーションや修復(実際のトレーニングデータが不足している場合でも)のためのさまざまなトレーニングシナリオに容易に適用することができる。
さらに、RealiTによる実際のバグ修正のトレーニングは、実際のバグに対する既存のモデルのローカライズ性能をほぼ2倍にし、修復性能の維持や改善を行ないます。
関連論文リスト
- Towards Understanding the Challenges of Bug Localization in Deep
Learning Systems [2.9312156642007294]
我々は、ディープラーニングシステムにおけるバグのローカライズに関する課題をより深く理解するために、大規模な実証的研究を行っている。
まず,ディープラーニングシステムの2,365バグと,従来のソフトウェアによる2,913バグを用いて,既存の4つのテクニックのバグローカライズ性能を判定する。
第2に,ディープラーニングシステムにおけるバグタイプの違いが,バグのローカライゼーションに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-01T21:17:42Z) - Automated Bug Generation in the era of Large Language Models [6.0770779409377775]
BugFarmは任意のコードを複数の複雑なバグに変換する。
BUGFARMが生成した1.9万以上の変異株から435k以上のバグを総合的に評価する。
論文 参考訳(メタデータ) (2023-10-03T20:01:51Z) - WELL: Applying Bug Detectors to Bug Localization via Weakly Supervised
Learning [37.09621161662761]
本稿では,バグローカライゼーションモデルをトレーニングするためのWEakly supervised bug LocaLization (WELL) 手法を提案する。
CodeBERTはバギーまたはノーのバイナリラベル付きデータに基づいて微調整されるため、WELLはバグのローカライゼーションを弱教師付きで解決することができる。
論文 参考訳(メタデータ) (2023-05-27T06:34:26Z) - Too Few Bug Reports? Exploring Data Augmentation for Improved
Changeset-based Bug Localization [7.884766610628946]
本稿では,バグレポートの異なる構成要素に作用する新しいデータ拡張演算子を提案する。
また、拡張バグレポートのコーパス作成を目的としたデータバランス戦略についても述べる。
論文 参考訳(メタデータ) (2023-05-25T19:06:01Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - DeepMutants: Training neural bug detectors with contextual mutations [0.799536002595393]
学習ベースのバグ検知器は、自然なヒントを利用して、大きなコードベースのバグを見つけることを約束する。
それでも、既存のテクニックは、現実的なバグを提示するとパフォーマンスが低下する傾向があります。
本稿では,自然かつ現実的な欠陥を動的にコードに注入する新しい文脈突然変異演算子を提案する。
論文 参考訳(メタデータ) (2021-07-14T12:45:48Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。