Fugu-MT 論文翻訳(概要): Revisiting Unnaturalness for Automated Program Repair in the Era of Large Language Models

論文の概要: Revisiting Unnaturalness for Automated Program Repair in the Era of Large Language Models

arxiv url: http://arxiv.org/abs/2404.15236v1
Date: Tue, 23 Apr 2024 17:12:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 13:12:44.794385
Title: Revisiting Unnaturalness for Automated Program Repair in the Era of Large Language Models
Title（参考訳）: 大規模言語モデルにおける自動プログラム修復のための不自然さの再考
Authors: Aidan Z. H. Yang, Sophia Kolak, Vincent J. Hellendoorn, Ruben Martins, Claire Le Goues,
Abstract要約: 本研究では,テンプレートベースの補修技術の効率化を目的としたパッチ自然度測定,エントロピーデルタを提案する。提案手法は,最先端の機械学習ツールよりも効果的に正パッチをランク付けできる。
参考スコア（独自算出の注目度）: 9.454475517867817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models have improved by orders of magnitude with the recent emergence of Transformer-based Large Language Models (LLMs). LLMs have demonstrated their ability to generate natural code that is highly similar to code written by professional developers. One intermediate value an LLM can emit is entropy, which measures the naturalness of a token of code. We hypothesize that entropy can be used to improve the performance of Automated Program Repair (APR) tasks. While much progress has been made in Automated Program Repair (APR), fault localization techniques suffer from a lack of diversity in ranking scores, patch generation tools tend to be inefficient as all tests need to run before determining if a patch is likely to be correct, and patch ranking often suffers from the test-suite over-fitting problem. However, using an LLM directly for APR introduces concerns for training data leakage. In this work, we introduce a novel way of using the entropy of LLMs in combination with prior APR tools to improve all stages of APR. We show that entropy is highly complementary with prior fault localization tools. Our proposed re-ranking method achieves a 50% Top-5 score improvement over SBFL. We propose a patch-naturalness measurement, entropy-delta, to improve the efficiency of template-based repair techniques by ranking plausible patches before undergoing testing. When using entropy-delta for patch ranking and classification, our proposed method can rank correct patches more effectively than state-of-the-art machine learning tools with an 49% improvement in Top-1. Our work suggests that LLMs can be an effective addition to compliment prior APR tasks while minimizing both the test-suite overfitting problem and the LLM data leakage problem.
Abstract（参考訳）: 言語モデルは、Transformer-based Large Language Models (LLMs) の出現により、桁違いに改善されている。 LLMは、プロの開発者が書いたコードと非常によく似た自然なコードを生成する能力を示した。 LLMが出力できる1つの中間値はエントロピーであり、コードのトークンの自然性を測定する。エントロピーは自動プログラム修復(APR)タスクの性能向上に利用できると仮定する。自動プログラム修復(APR)において、多くの進歩があったが、欠陥ローカライゼーション技術はランキングスコアの多様性の欠如に悩まされ、パッチ生成ツールは、パッチが正しいかどうかを判断する前に全てのテストを実行する必要があるため、非効率になりがちである。しかし、ALMを直接APRに使用すると、データ漏洩のトレーニングに関する懸念が生じる。本研究では,従来のAPRツールと組み合わせてLLMのエントロピーを利用する新しい手法を導入し,APRのすべての段階を改善する。エントロピーは, 先行故障の局所化ツールと非常に相補的であることを示す。提案手法は,SBFLよりも50%Top-5スコアが向上する。本研究では,テンプレートベースの補修技術の効率向上を目的としたパッチ自然度測定(エントロピーデルタ)を提案する。パッチのランク付けと分類にエントロピーデルタを用いる場合、提案手法は最先端の機械学習ツールよりも効果的に正パッチをランク付けでき、Top-1は49%改善されている。本研究は,LLMが従来のAPRタスクの補完に有効な追加であり,テストスイートオーバーフィット問題とLLMデータ漏洩問題の両方を最小化できることを示唆している。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文参考訳（メタデータ） (2024-06-03T05:05:12Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-20T15:48:32Z)
Automated Program Repair: Emerging trends pose and expose problems for benchmarks [7.437224586066947]
大規模言語モデル(LLM)はソフトウェアパッチの生成に使用される。評価と比較は、結果が有効であり、一般化する可能性が高いことを保証するために注意する必要があります。大規模かつしばしば開示されていないトレーニングデータセットには、評価される問題が含まれている可能性がある。
論文参考訳（メタデータ） (2024-05-08T23:09:43Z)
Aligning LLMs for FL-free Program Repair [14.935596175148586]
本稿では,大規模言語モデル (LLM) をプログラム修復に適用するための新しいアプローチについて検討する。我々の中核的な洞察は、LLMのAPR能力は、単にトレーニング目標に出力を合わせるだけで大幅に改善できるということです。この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。
論文参考訳（メタデータ） (2024-04-13T02:36:40Z)
A Novel Approach for Automatic Program Repair using Round-Trip Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文参考訳（メタデータ） (2024-01-15T22:36:31Z)
Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2023-08-17T14:12:48Z)
Conversational Automated Program Repair [10.071615423169902]
本稿では,パッチ生成と検証を対話的に交互に行うプログラム修復のための新しいパラダイムを提案する。我々は,大規模な事前学習型言語モデルの長期的コンテキストウインドウを活用して,以前の不正なパッチの生成を回避するだけでなく,検証フィードバックを取り入れて,テスト対象のプログラムの意味をモデルが理解できるようにする。
論文参考訳（メタデータ） (2023-01-30T19:22:36Z)
Practical Program Repair in the Era of Large Pre-trained Language Models [13.694803023685175]
自動プログラム修正(APR)は、開発者がソフトウェアバグを自動的にパッチするのを支援することを目的としている。数十億のテキスト/コードトークンを使用してトレーニングされたPLMは、この問題を回避するのに役立つ可能性がある。我々は、125Mから20Bまで、生産モデルと埋込モデルを含む最新の9つのPLMを選択した。
論文参考訳（メタデータ） (2022-10-25T17:18:02Z)
Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文参考訳（メタデータ） (2020-10-31T08:05:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。