論文の概要: Revisiting Unnaturalness for Automated Program Repair in the Era of Large Language Models
- arxiv url: http://arxiv.org/abs/2404.15236v1
- Date: Tue, 23 Apr 2024 17:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:12:44.794385
- Title: Revisiting Unnaturalness for Automated Program Repair in the Era of Large Language Models
- Title(参考訳): 大規模言語モデルにおける自動プログラム修復のための不自然さの再考
- Authors: Aidan Z. H. Yang, Sophia Kolak, Vincent J. Hellendoorn, Ruben Martins, Claire Le Goues,
- Abstract要約: 本研究では,テンプレートベースの補修技術の効率化を目的としたパッチ自然度測定,エントロピーデルタを提案する。
提案手法は,最先端の機械学習ツールよりも効果的に正パッチをランク付けできる。
- 参考スコア(独自算出の注目度): 9.454475517867817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have improved by orders of magnitude with the recent emergence of Transformer-based Large Language Models (LLMs). LLMs have demonstrated their ability to generate natural code that is highly similar to code written by professional developers. One intermediate value an LLM can emit is entropy, which measures the naturalness of a token of code. We hypothesize that entropy can be used to improve the performance of Automated Program Repair (APR) tasks. While much progress has been made in Automated Program Repair (APR), fault localization techniques suffer from a lack of diversity in ranking scores, patch generation tools tend to be inefficient as all tests need to run before determining if a patch is likely to be correct, and patch ranking often suffers from the test-suite over-fitting problem. However, using an LLM directly for APR introduces concerns for training data leakage. In this work, we introduce a novel way of using the entropy of LLMs in combination with prior APR tools to improve all stages of APR. We show that entropy is highly complementary with prior fault localization tools. Our proposed re-ranking method achieves a 50% Top-5 score improvement over SBFL. We propose a patch-naturalness measurement, entropy-delta, to improve the efficiency of template-based repair techniques by ranking plausible patches before undergoing testing. When using entropy-delta for patch ranking and classification, our proposed method can rank correct patches more effectively than state-of-the-art machine learning tools with an 49% improvement in Top-1. Our work suggests that LLMs can be an effective addition to compliment prior APR tasks while minimizing both the test-suite overfitting problem and the LLM data leakage problem.
- Abstract(参考訳): 言語モデルは、Transformer-based Large Language Models (LLMs) の出現により、桁違いに改善されている。
LLMは、プロの開発者が書いたコードと非常によく似た自然なコードを生成する能力を示した。
LLMが出力できる1つの中間値はエントロピーであり、コードのトークンの自然性を測定する。
エントロピーは自動プログラム修復(APR)タスクの性能向上に利用できると仮定する。
自動プログラム修復(APR)において、多くの進歩があったが、欠陥ローカライゼーション技術はランキングスコアの多様性の欠如に悩まされ、パッチ生成ツールは、パッチが正しいかどうかを判断する前に全てのテストを実行する必要があるため、非効率になりがちである。
しかし、ALMを直接APRに使用すると、データ漏洩のトレーニングに関する懸念が生じる。
本研究では,従来のAPRツールと組み合わせてLLMのエントロピーを利用する新しい手法を導入し,APRのすべての段階を改善する。
エントロピーは, 先行故障の局所化ツールと非常に相補的であることを示す。
提案手法は,SBFLよりも50%Top-5スコアが向上する。
本研究では,テンプレートベースの補修技術の効率向上を目的としたパッチ自然度測定(エントロピーデルタ)を提案する。
パッチのランク付けと分類にエントロピーデルタを用いる場合、提案手法は最先端の機械学習ツールよりも効果的に正パッチをランク付けでき、Top-1は49%改善されている。
本研究は,LLMが従来のAPRタスクの補完に有効な追加であり,テストスイートオーバーフィット問題とLLMデータ漏洩問題の両方を最小化できることを示唆している。
関連論文リスト
- A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Copiloting the Copilots: Fusing Large Language Models with Completion
Engines for Automated Program Repair [15.391586175711907]
大規模言語モデル(LLM)は、様々なコーディングタスクを開発者を支援する上で、"コパイロット"として有用であることが示されている。
修復プロセス中により有効なパッチを合成することにより、AIの"コパイロット"(すなわち、LLM)をさらに協調する一般的なコード生成フレームワークであるRepilotを提案する。
広く使用されているDefects4j 1.2と2.0データセットのサブセットに対する評価では、Repilotは、それぞれ27%と47%のバグを修正することで、最先端の技術よりも優れています。
論文 参考訳(メタデータ) (2023-09-01T17:54:14Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Revisiting the Plastic Surgery Hypothesis via Large Language Models [9.904030364454563]
本稿では,大規模言語モデルを直接利用するFitRepairと,ドメイン固有の2つの微調整戦略と,より強力なAPR戦略とを組み合わせたFitRepairを提案する。
広く研究されているDefects4j 1.2と2.0データセットに関する実験は、FitRepairが89と44のバグを修正したことを示している。
論文 参考訳(メタデータ) (2023-03-18T20:33:46Z) - Conversational Automated Program Repair [10.071615423169902]
本稿では,パッチ生成と検証を対話的に交互に行うプログラム修復のための新しいパラダイムを提案する。
我々は,大規模な事前学習型言語モデルの長期的コンテキストウインドウを活用して,以前の不正なパッチの生成を回避するだけでなく,検証フィードバックを取り入れて,テスト対象のプログラムの意味をモデルが理解できるようにする。
論文 参考訳(メタデータ) (2023-01-30T19:22:36Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。