論文の概要: Too Few Bug Reports? Exploring Data Augmentation for Improved
Changeset-based Bug Localization
- arxiv url: http://arxiv.org/abs/2305.16430v2
- Date: Thu, 1 Jun 2023 13:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 05:38:23.255946
- Title: Too Few Bug Reports? Exploring Data Augmentation for Improved
Changeset-based Bug Localization
- Title(参考訳): バグ報告が少なすぎる?
changeetベースのバグローカライゼーション改善のためのデータ拡張の検討
- Authors: Agnieszka Ciborowska and Kostadin Damevski
- Abstract要約: 本稿では,バグレポートの異なる構成要素に作用する新しいデータ拡張演算子を提案する。
また、拡張バグレポートのコーパス作成を目的としたデータバランス戦略についても述べる。
- 参考スコア(独自算出の注目度): 7.884766610628946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Deep Learning (DL) architectures based on transformers (e.g., BERT,
RoBERTa) are exhibiting performance improvements across a number of natural
language tasks. While such DL models have shown tremendous potential for use in
software engineering applications, they are often hampered by insufficient
training data. Particularly constrained are applications that require
project-specific data, such as bug localization, which aims at recommending
code to fix a newly submitted bug report. Deep learning models for bug
localization require a substantial training set of fixed bug reports, which are
at a limited quantity even in popular and actively developed software projects.
In this paper, we examine the effect of using synthetic training data on
transformer-based DL models that perform a more complex variant of bug
localization, which has the goal of retrieving bug-inducing changesets for each
bug report. To generate high-quality synthetic data, we propose novel data
augmentation operators that act on different constituent components of bug
reports. We also describe a data balancing strategy that aims to create a
corpus of augmented bug reports that better reflects the entire source code
base, because existing bug reports used as training data usually reference a
small part of the code base.
- Abstract(参考訳): トランスフォーマー(BERT、RoBERTaなど)に基づく現代のディープラーニング(DL)アーキテクチャは、多くの自然言語タスクでパフォーマンスが改善されている。
このようなDLモデルは、ソフトウェアエンジニアリングアプリケーションでの利用には大きな可能性があるが、トレーニングデータ不足によってしばしば妨げられる。
特に制約のあるアプリケーションは、バグローカライゼーション(バグローカライゼーション)など、プロジェクト固有のデータを必要とするアプリケーションである。
バグローカライゼーションのためのディープラーニングモデルは、人気があり、活発に開発されたソフトウェアプロジェクトでさえ、限られた量のバグレポートのかなりのトレーニングを必要とする。
本稿では,バグ報告毎にバグを誘発する変更セットの検索を目標とした,より複雑なバグローカライゼーションの変種を実行するトランスフォーマティブベースdlモデルに対する合成トレーニングデータの利用の効果について検討する。
高品質な合成データを生成するために,バグレポートの異なる構成要素に作用する新しいデータ拡張演算子を提案する。
また、トレーニングデータとして使用される既存のバグレポートは通常、コードベースのごく一部を参照するため、ソースコード全体をよりよく反映する拡張バグレポートのコーパスを作成することを目的としたデータバランシング戦略についても説明する。
関連論文リスト
- Supporting Cross-language Cross-project Bug Localization Using Pre-trained Language Models [2.5121668584771837]
既存のテクニックは、アプリケーション固有のデータに依存しているため、一般化性とデプロイメントに苦労することが多い。
本稿では,プロジェクトと言語の境界を超越したバグローカライゼーションのための,PLMに基づく新しい言語モデルを提案する。
論文 参考訳(メタデータ) (2024-07-03T01:09:36Z) - Aligning Programming Language and Natural Language: Exploring Design Choices in Multi-Modal Transformer-Based Embedding for Bug Localization [0.7564784873669823]
バグローカライゼーション(バグローカライゼーション)とは、プログラミング言語のソースコードファイルの識別である。
本研究は,14種類の異なる埋め込みモデルを評価し,様々な設計選択の効果について考察した。
以上の結果から,プレトレーニング戦略が組込みの質に大きく影響していることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T15:01:39Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - On Using GUI Interaction Data to Improve Text Retrieval-based Bug
Localization [10.717184444794505]
エンドユーザー向けアプリケーションでは、バグレポート内の情報とGUIの情報とを結びつけることにより、既存のバグローカライゼーション技術を改善することができるという仮説を考察する。
当社は,Androidアプリの完全ローカライズおよび再現可能な真のバグに関する現在の最大のデータセットを,対応するバグレポートとともに公開しています。
論文 参考訳(メタデータ) (2023-10-12T07:14:22Z) - WELL: Applying Bug Detectors to Bug Localization via Weakly Supervised
Learning [37.09621161662761]
本稿では,バグローカライゼーションモデルをトレーニングするためのWEakly supervised bug LocaLization (WELL) 手法を提案する。
CodeBERTはバギーまたはノーのバイナリラベル付きデータに基づいて微調整されるため、WELLはバグのローカライゼーションを弱教師付きで解決することができる。
論文 参考訳(メタデータ) (2023-05-27T06:34:26Z) - Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
本論文では,NLP手法の組み合わせによる解を提案する。
カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文 参考訳(メタデータ) (2022-12-13T02:32:42Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。