論文の概要: Automated Program Repair Based on Code Review: How do Pre-trained
Transformer Models Perform?
- arxiv url: http://arxiv.org/abs/2304.07840v1
- Date: Sun, 16 Apr 2023 17:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 17:11:00.605067
- Title: Automated Program Repair Based on Code Review: How do Pre-trained
Transformer Models Perform?
- Title(参考訳): コードレビューに基づく自動プログラム修復: 事前学習されたトランスフォーマーモデルはどのように機能するか?
- Authors: Rishov Paul, Md. Mohib Hossain, Masum Hasan, and Anindya Iqbal
- Abstract要約: 自然言語(NL)とコンピュータプログラムコーパスで訓練された大規模言語モデルは、両方の固有知識を含む能力を有する。
我々は,このコードとNLの固有の知識を,プログラムの自動修復に活用できるかどうかを検討した。
事前訓練された言語モデルは、コードレビューとその後のコード変更の両方を含むデータセットで微調整されていることがわかった。
- 参考スコア(独自算出の注目度): 1.616606800780938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence-to-sequence models have been used to transform erroneous programs
into correct ones when trained with a large enough dataset. Some recent studies
also demonstrated strong empirical evidence that code review (natural language
instruction about suggestive changes in code) can improve the program repair
further. Large language models, trained with Natural Language (NL) and computer
program corpora, have the capacity to contain inherent knowledge of both. In
this study, we investigate if this inherent knowledge of code and NL can be
utilized to improve automated program repair. We applied PLBART and CodeT5, two
state-of-the-art language models that are pre-trained with both Programming
Language (PL) and Natural Language (NL), on two such natural language-based
program repair datasets and found that the pre-trained language models
fine-tuned with datasets containing both code review and subsequent code
changes notably outperform each of the previous models. We observed that the
pre-trained models improve the previously best-reported results by 9.91% on the
Review4Repair dataset and by 24.72% on the dataset by Tufano et al. This
suggests that a pre-trained sequential model has a better understanding of
natural language and can utilize it much better. We performed an ablation study
to assess the contribution of the pre-training mechanism and the model
architecture. We found that pre-training was significantly more important in
the performance gain than the model architecture. The practical application of
using pre-trained transformer models in the context of automated program repair
is still a long way off. However, our study demonstrates the substantial value
of employing pre-trained models, paving the path for future studies to use more
of these.
- Abstract(参考訳): sequence-to-sequenceモデルは、十分な量のデータセットでトレーニングされた場合、誤ったプログラムを正しいプログラムに変換するために使用されます。
最近の研究では、コードレビュー(コードの変更を示唆する自然言語命令)がプログラムの修復をさらに改善できるという強い実証的証拠も示されている。
自然言語(NL)とコンピュータプログラムコーパスで訓練された大規模言語モデルは、両方の固有知識を含む能力を有する。
本研究では,このコードとNLの固有の知識を,プログラムの自動修復に活用できるかどうかを検討する。
プログラミング言語(PL)と自然言語(NL)の両方で事前訓練された2つの最先端言語モデルであるPLBARTとCodeT5を2つの自然言語ベースのプログラム修復データセットに適用したところ、事前訓練された言語モデルには、コードレビューとその後のコード変更の両方を含むデータセットが微調整されていることがわかった。
事前学習したモデルは,review4repairデータセットでは9.91%,tufanoらによるデータセットでは24.72%向上した。
これは、事前学習された逐次モデルが自然言語をよりよく理解し、それを利用することができることを示唆している。
プレトレーニング機構とモデルアーキテクチャの貢献度を評価するためのアブレーション研究を行った。
事前トレーニングはモデルアーキテクチャよりもパフォーマンス向上において極めて重要であることがわかった。
自動プログラム修復の文脈で事前訓練されたトランスフォーマーモデルを使用することの実用化は、まだ長い道のりである。
しかし,本研究では,事前学習モデルを採用することの実質的な価値を実証し,今後の研究で活用する道を開く。
関連論文リスト
- Large Language Models in Computer Science Education: A Systematic Literature Review [7.240148550817106]
大規模言語モデル(LLM)は、幅広い自然言語処理タスク(NLP)において、ますます良くなっている。
最近、これらのモデルは、自然言語(NL)とプログラミング言語(PL)のギャップを埋めて、その能力をコーディングタスクに拡張した。
論文 参考訳(メタデータ) (2024-10-21T17:49:50Z) - Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code [24.936022005837415]
我々は、70以上のモデル、40以上の評価タスク、180以上のデータセット、900以上の関連する作業を含む、言語モデルによるソフトウェア工学の最近の進歩についてレビューする。
私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、特にコードで事前訓練された特殊なモデルに分解します。
また、要件エンジニアリング、テスト、デプロイメント、オペレーションを含む他のソフトウェアエンジニアリング活動において、LCMのアプリケーションをプログラミングし、レビューする余地もあります。
論文 参考訳(メタデータ) (2023-11-14T08:34:26Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。