論文の概要: Improving Automated Program Repair with Domain Adaptation
- arxiv url: http://arxiv.org/abs/2212.11414v1
- Date: Wed, 21 Dec 2022 23:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 14:08:52.494092
- Title: Improving Automated Program Repair with Domain Adaptation
- Title(参考訳): ドメイン適応による自動プログラム修復の改善
- Authors: Armin Zirak and Hadi Hemati
- Abstract要約: 自動プログラム修復(APR)は、ソースコードのバグ/欠陥を修正するプロセスとして、自動化ツールによって定義される。
APRツールは最近、最先端のニューラルネットワーク処理(NLP)技術を活用することで、有望な結果を経験している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Program Repair (APR) is defined as the process of fixing a
bug/defect in the source code, by an automated tool. APR tools have recently
experienced promising results by leveraging state-of-the-art Neural Language
Processing (NLP) techniques. APR tools such as TFix and CodeXGLUE combine
text-to-text transformers with software-specific techniques are outperforming
alternatives, these days. However, in most APR studies the train and test sets
are chosen from the same set of projects. In reality, however, APR models are
meant to be generalizable to new and different projects. Therefore, there is a
potential threat that reported APR models with high effectiveness perform
poorly when the characteristics of the new project or its bugs are different
than the training set's(Domain Shift).
In this study, we first define and measure the domain shift problem in
automated program repair. Then, we then propose a domain adaptation framework
that can adapt an APR model for a given target project. We conduct an empirical
study with three domain adaptation methods FullFineTuning,
TuningWithLightWeightAdapterLayers, and CurriculumLearning using two
state-of-the-art domain adaptation tools (TFix and CodeXGLUE) and two APR
models on 611 bugs from 19 projects. The results show that our proposed
framework can improve the effectiveness of TFix by 13.05% and CodeXGLUE by
23.4%. Another contribution of this study is the proposal of a data synthesis
method to address the lack of labelled data in APR. We leverage transformers to
create a bug generator model. We use the generated synthetic data to domain
adapt TFix and CodeXGLUE on the projects with no data (Zero-shot learning),
which results in an average improvement of 5.76% and 24.42% for TFix and
CodeXGLUE, respectively.
- Abstract(参考訳): 自動プログラム修復(APR)は、ソースコードのバグ/欠陥を修正するプロセスとして、自動化ツールによって定義される。
APRツールは最近、最先端のニューラルネットワーク処理(NLP)技術を活用することで、有望な結果を経験している。
TFixやCodeXGLUEといったAPRツールは、テキストからテキストへのトランスフォーマーとソフトウェア固有のテクニックを組み合わせることで、近年は代替手段よりも優れています。
しかしながら、ほとんどのAPR研究では、列車とテストセットは同じプロジェクトから選択される。
しかし実際には、APRモデルは、新しいプロジェクトや異なるプロジェクトに一般化できる。
そのため、新しいプロジェクトの特徴やバグがトレーニングセットと異なる場合(ドメインシフト)、高い有効性を持つAPRモデルを報告する潜在的な脅威がある。
本研究では,まず,プログラムの自動修復における領域シフト問題を定義し,測定する。
次に、対象とするプロジェクトに対してAPRモデルを適用可能なドメイン適応フレームワークを提案する。
そこで本研究では,19プロジェクトから611件のバグに対して,2つの最先端ドメイン適応ツール(tfixとcodexglue)と2つのaprモデルを用いて,3つのドメイン適応法,チューニングwithlightweightadapterlayers,カリキュラム学習を行った。
その結果,提案フレームワークはtfixの有効性を13.05%,codexglueを23.4%向上できることがわかった。
この研究のもう1つの貢献は、APRにおけるラベル付きデータの欠如に対処するデータ合成手法の提案である。
トランスフォーマーを利用してバグジェネレータモデルを作成します。
生成した合成データを用いて、TFix と CodeXGLUE をデータのないプロジェクトに適用し(ゼロショット学習)、その結果、TFix と CodeXGLUE がそれぞれ平均5.76%、24.42%向上した。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - NARRepair: Non-Autoregressive Code Generation Model for Automatic Program Repair [8.77021401961262]
Non-Autoregressive(NAR)メソッドは、巨大な推論遅延を避けるために、並列にターゲットコードを出力することができる。
APRタスクのための最初のカスタマイズされたNAARコード生成モデルであるNARRepairを提案する。
NARRepair は,1) 補修動作を用いて過補正問題を緩和し,2) AST から依存情報を抽出して単語間の依存情報の欠如を緩和し,3) 文脈情報の欠如を緩和するために2段階の復号を用いる,という3つの大きな特徴を特徴としている。
論文 参考訳(メタデータ) (2024-06-24T11:04:28Z) - Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。
本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。
この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文 参考訳(メタデータ) (2024-06-03T05:05:12Z) - Revisiting Unnaturalness for Automated Program Repair in the Era of Large Language Models [9.454475517867817]
本研究では,テンプレートベースの補修技術の効率化を目的としたパッチ自然度測定,エントロピーデルタを提案する。
提案手法は,最先端の機械学習ツールよりも効果的に正パッチをランク付けできる。
論文 参考訳(メタデータ) (2024-04-23T17:12:45Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - Practical Program Repair via Preference-based Ensemble Strategy [28.176710503313895]
本稿では、異なるバグを修復するためのAPRツールのランク付けを行うためのPreference-based Ensemble Program repair framework(P-EPR)を提案する。
P-EPRは、修復パターンを利用した最初の非学習ベースのAPRアンサンブル法である。
実験の結果,P-EPRは柔軟性と有効性の両方において既存の戦略よりも優れていた。
論文 参考訳(メタデータ) (2023-09-15T07:23:04Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - APPT: Boosting Automated Patch Correctness Prediction via Fine-tuning
Pre-trained Models [15.179895484968476]
本稿では,事前学習と微調整によるモデルベース自動パッチ正当性評価手法であるAPPTを提案する。
我々は1,183個のDefects4Jパッチの実験を行い、APPTが予測精度79.7%、リコール率83.2%を達成したことを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-01-29T14:28:26Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。