Fugu-MT 論文翻訳(概要): The Right Prompts for the Job: Repair Code-Review Defects with Large Language Model

論文の概要: The Right Prompts for the Job: Repair Code-Review Defects with Large Language Model

arxiv url: http://arxiv.org/abs/2312.17485v1
Date: Fri, 29 Dec 2023 06:12:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 13:44:25.385079
Title: The Right Prompts for the Job: Repair Code-Review Defects with Large Language Model
Title（参考訳）: ジョブの正しいプロンプト:大規模言語モデルによるコードレビュー欠陥の修復
Authors: Zelin Zhao, Zhaogui Xu, Jialong Zhu, Peng Di, Yuan Yao, Xiaoxing Ma
Abstract要約: 自動プログラム修復(APR)技術は、コードレビュー(CR)プロセス中にプログラム欠陥を発見して修復する手作業を減らす可能性がある。しかし、既存のAPRアプローチにまつわる限られた精度とかなりの時間的コストは、産業的な実践において採用を妨げている。近年のLLM(Large Language Models)の進歩により、自然言語やプログラミング言語を理解する能力が向上し、レビューコメントに基づいたパッチの生成が可能になった。
参考スコア（独自算出の注目度）: 15.885824575879763
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic program repair (APR) techniques have the potential to reduce manual efforts in uncovering and repairing program defects during the code review (CR) process. However, the limited accuracy and considerable time costs associated with existing APR approaches hinder their adoption in industrial practice. One key factor is the under-utilization of review comments, which provide valuable insights into defects and potential fixes. Recent advancements in Large Language Models (LLMs) have enhanced their ability to comprehend natural and programming languages, enabling them to generate patches based on review comments. This paper conducts a comprehensive investigation into the effective utilization of LLMs for repairing CR defects. In this study, various prompts are designed and compared across mainstream LLMs using two distinct datasets from human reviewers and automated checkers. Experimental results demonstrate a remarkable repair rate of 72.97% with the best prompt, highlighting a substantial improvement in the effectiveness and practicality of automatic repair techniques.
Abstract（参考訳）: 自動プログラム修復(APR)技術は、コードレビュー(CR)プロセス中にプログラム欠陥を発見して修復する手作業を減らす可能性がある。しかしながら、既存のaprアプローチに伴う正確さと時間的コストの制限は、彼らの産業的実践への採用を妨げている。重要な要素の1つはレビューコメントの未使用であり、欠陥や潜在的な修正に関する貴重な洞察を提供する。近年のLLM(Large Language Models)の進歩により、自然言語やプログラミング言語を理解する能力が向上し、レビューコメントに基づいたパッチの生成が可能になった。本稿では, CR欠陥の修復にLLMを有効利用するための包括的調査を行う。本研究では,人間のレビュアーと自動チェッカーの2つの異なるデータセットを用いて,主流のllm間でさまざまなプロンプトを設計,比較する。実験の結果, 72.97%の顕著な補修率を示し, 自動補修技術の有効性と実用性を大幅に向上させた。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
FeedbackEval: A Benchmark for Evaluating Large Language Models in Feedback-Driven Code Repair Tasks [28.849481030601666]
本稿では,大規模言語モデルのフィードバック理解と性能を評価するベンチマークであるFeedbackEvalを紹介する。我々は,GPT-4o,Claude-3.5,Gemini-1.5,GLM-4,Qwen2.5の5つの最先端LCMについて総合的研究を行った。その結果, 構造的フィードバック, 特にテストフィードバックの形では, 修復成功率が最も高く, 非構造的フィードバックは極めて少ないことがわかった。
論文参考訳（メタデータ） (2025-04-09T14:43:08Z)
Can LLMs Automate Fact-Checking Article Writing? [69.90165567819656]
我々は、一般的なファクトチェックパイプラインを拡張し、フルファクトチェック記事の自動生成の必要性を論じる。我々は,人間のファクトチェッカーの筆記ワークフローを模倣した LLM ベースのエージェントフレームワーク QRAFT を開発した。
論文参考訳（メタデータ） (2025-03-22T07:56:50Z)
Studying and Understanding the Effectiveness and Failures of Conversational LLM-Based Repair [3.93048798243871]
自動プログラム修復(APR)は、バグ修正のプロセスを自動化するように設計されている。会話言語モデル(LLM)を利用した高度なAPR技術は、目覚ましい修復能力を示した。優位性にもかかわらず、会話型APR技術は依然として多くのバグを修復することができない。
論文参考訳（メタデータ） (2025-03-19T09:39:32Z)
ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-02-20T13:50:02Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
FastFixer: An Efficient and Effective Approach for Repairing Programming Assignments [21.848112758958543]
本稿では,FastFixerを提案する。まず,必要なパッチと関連するコンテキストを生成する方法を学ぶことへのLLMの関心を高めることを目的とした,修復指向のファインチューニング戦略を提案する。修復効率を考慮すると、FastFixerは自動回帰復号アルゴリズムと比較して16.67倍の高速化を実現している。
論文参考訳（メタデータ） (2024-10-11T10:17:02Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文参考訳（メタデータ） (2024-07-02T16:15:01Z)
On The Effectiveness of Dynamic Reduction Techniques in Automated Program Repair [1.7767466724342067]
本稿では,大規模バグ修正プログラムを効果的に処理するプログラム修復フレームワークについて述べる。このフレームワークは、プログラムスライシングの形式でプログラムの削減を利用して、修正中のバグとは無関係にコードの一部を除去する。広く使用されているDefects4Jデータセットに対する実験結果から,修復品質の劣化を伴わずに,大幅な性能向上が達成できることが判明した。
論文参考訳（メタデータ） (2024-06-23T21:35:07Z)
Investigating the Transferability of Code Repair for Low-Resource Programming Languages [57.62712191540067]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを示している。近年の作業は、連鎖推論や蒸留といった現代的な技術を統合することで、コード修復のプロセスを強化している。高低資源言語と低低資源言語の両方でコード修復を蒸留する利点について検討する。
論文参考訳（メタデータ） (2024-06-21T05:05:39Z)
A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback [7.742213291781287]
提案するVRpilotは,推論とパッチ検証フィードバックに基づく脆弱性修復手法である。以上の結果から,VRpilotはCとJavaのベースライン技術よりも平均14%と7.6%の正確なパッチを生成することがわかった。
論文参考訳（メタデータ） (2024-05-24T16:29:48Z)
How Far Can We Go with Practical Function-Level Program Repair? [11.71750828464698]
本稿では,少数ショット学習機構と補修関連情報が機能レベルAPRに及ぼす影響について検討する。補修関連情報のパワーを活用するために,デュアルLLM フレームワークを採用した LLM ベースの関数レベル APR 手法,すなわち SRepair を提案する。
論文参考訳（メタデータ） (2024-04-19T12:14:09Z)
Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models [95.96734086126469]
大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。 LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。各種コードライブラリの推論性能の粗大な解析を行う。
論文参考訳（メタデータ） (2024-04-17T15:57:50Z)
An Empirical Evaluation of Pre-trained Large Language Models for Repairing Declarative Formal Specifications [5.395614997568524]
本稿では,アロイの宣言的仕様を修復するためのLarge Language Models (LLMs) の能力について,体系的に検討する。本稿では, 補修エージェントとプロンプトエージェントを組み合わせた, 二重エージェントLLMフレームワークを統合した新しい補修パイプラインを提案する。本研究は, LLM, 特に GPT-4 変種が, 実行時およびトークン使用率の限界が増大しているにもかかわらず, 修復効率において既存の技術よりも優れていたことを明らかにした。
論文参考訳（メタデータ） (2024-04-17T03:46:38Z)
Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。生成したコンテンツの正確性と適切性に関する懸念が続いている。現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文参考訳（メタデータ） (2023-10-03T04:56:12Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。