論文の概要: Enhancing LLM-Based Automated Program Repair with Design Rationales
- arxiv url: http://arxiv.org/abs/2408.12056v1
- Date: Thu, 22 Aug 2024 01:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 15:33:26.039069
- Title: Enhancing LLM-Based Automated Program Repair with Design Rationales
- Title(参考訳): 設計規則によるLCMによる自動プログラム修復の強化
- Authors: Jiuang Zhao, Donghao Yang, Li Zhang, Xiaoli Lian, Zitian Yang,
- Abstract要約: DRCodePilot は GPT-4-Turbo の APR 機能を DR をプロンプト命令に組み込むことで拡張する手法である。
DRCodePilotはGPT-4を直接利用するよりも4.7倍高いフルマッチ比を達成しています。
- 参考スコア(独自算出の注目度): 3.5665328754813768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Program Repair (APR) endeavors to autonomously rectify issues within specific projects, which generally encompasses three categories of tasks: bug resolution, new feature development, and feature enhancement. Despite extensive research proposing various methodologies, their efficacy in addressing real issues remains unsatisfactory. It's worth noting that, typically, engineers have design rationales (DR) on solution-planed solutions and a set of underlying reasons-before they start patching code. In open-source projects, these DRs are frequently captured in issue logs through project management tools like Jira. This raises a compelling question: How can we leverage DR scattered across the issue logs to efficiently enhance APR? To investigate this premise, we introduce DRCodePilot, an approach designed to augment GPT-4-Turbo's APR capabilities by incorporating DR into the prompt instruction. Furthermore, given GPT-4's constraints in fully grasping the broader project context and occasional shortcomings in generating precise identifiers, we have devised a feedback-based self-reflective framework, in which we prompt GPT-4 to reconsider and refine its outputs by referencing a provided patch and suggested identifiers. We have established a benchmark comprising 938 issue-patch pairs sourced from two open-source repositories hosted on GitHub and Jira. Our experimental results are impressive: DRCodePilot achieves a full-match ratio that is a remarkable 4.7x higher than when GPT-4 is utilized directly. Additionally, the CodeBLEU scores also exhibit promising enhancements. Moreover, our findings reveal that the standalone application of DR can yield promising increase in the full-match ratio across CodeLlama, GPT-3.5, and GPT-4 within our benchmark suite. We believe that our DRCodePilot initiative heralds a novel human-in-the-loop avenue for advancing the field of APR.
- Abstract(参考訳): 自動プログラム修正(APR)は、バグ解決、新機能開発、機能強化の3つのカテゴリを含む、特定のプロジェクト内の問題を自律的に修正する試みである。
様々な方法論を提唱する広範な研究にもかかわらず、実際の問題に対処する効果は相変わらず不十分である。
一般的に、エンジニアは、ソリューション計画のソリューションと基本的な理由のセットについて、設計の合理性(DR)を持っています。
オープンソースプロジェクトでは、これらのDRはJiraのようなプロジェクト管理ツールを通じて、イシューログにキャプチャされることが多い。
問題ログに散在するDRを活用して、APRを効率的に拡張するにはどうすればよいのか?
DRCodePilot は GPT-4-Turbo の APR 機能を強化し,DR をプロンプト命令に組み込む手法である。
さらに, GPT-4のプロジェクトコンテキストを十分に把握する上での制約や, 正確な識別子を生成する上での欠点を考慮し, フィードバックに基づく自己回帰フレームワークを考案し, 提案したパッチや提案した識別子を参照して, GPT-4のアウトプットを再検討し, 改善するよう促した。
GitHubとJiraにホストされている2つのオープンソースリポジトリからソースされた938のイシューパッチペアからなるベンチマークを確立しました。
DRCodePilotはGPT-4を直接利用するよりも4.7倍高いフルマッチ比を達成しています。
さらに、CodeBLEUスコアも有望な拡張を示している。
さらに,本研究では, DRのスタンドアロン適用により, ベンチマークスイート内でのCodeLlama, GPT-3.5, GPT-4間のフルマッチ比が向上する可能性が示唆された。
我々は、DRCodePilotイニシアチブが、APRの分野を前進させる新しい人道となると信じている。
関連論文リスト
- AIC CTU system at AVeriTeC: Re-framing automated fact-checking as a simple RAG task [0.0]
本稿では、簡易な検索・拡張生成法(RAG)を用いて、野生で回収された証拠を用いた事実確認の課題に対する解決法について述べる。
我々は、その2つのモジュール、Retriever と Evidence & Label ジェネレータを詳細に説明し、MMR-re rank や Likert-scale confidence estimation などの特徴を正当化します。
我々は、予測の欠陥がデータ内のノイズや曖昧な事実チェックとよく一致し、さらなる研究とデータの増大を引き起こすことを実証的エラー解析により確認する。
論文 参考訳(メタデータ) (2024-10-15T09:50:19Z) - SpecRover: Code Intent Extraction via LLMs [7.742980618437681]
仕様推論は、高品質なプログラムパッチを作成するのに役立ちます。
当社のアプローチであるSpecRover(AutoCodeRover-v2)は,オープンソースのLLMエージェントであるAutoCodeRover上に構築されています。
2294のGitHubイシューからなる完全なSWE-Benchの評価では、AutoCodeRoverよりも50%以上改善されている。
論文 参考訳(メタデータ) (2024-08-05T04:53:01Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを51%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
QuadrupedGPTは、幅広い複雑なタスクを、ペットに匹敵する俊敏性でマスターするように設計された汎用エージェントである。
我々のエージェントは、大規模マルチモーダルモデル(LMM)を用いて、人間の命令と環境コンテキストを処理する。
長期的な目標を実行可能なサブゴールのシーケンスに分解できる問題解決機能を備えている。
論文 参考訳(メタデータ) (2024-06-24T12:14:24Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。
本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。
この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文 参考訳(メタデータ) (2024-06-03T05:05:12Z) - A Novel Approach for Automated Design Information Mining from Issue Logs [3.5665328754813768]
DRMinerは、オープンソースコミュニティにおける開発者のライブディスカッションから、潜在設計の根拠を自動的に掘り下げる新しい方法である。
私たちはJiraのCassandra、Flink、Solrリポジトリからイシューログを取得し、それを注釈付けして厳格なスキームで処理します。
DRMinerは設計の合理性についてF1スコアを65%獲得し、GPT-4.0よりも7%向上した。
論文 参考訳(メタデータ) (2024-05-30T02:20:04Z) - Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs [54.054334823194615]
逆画像検索(Reverse Image Retrieval, RIR)拡張生成は, Web スケールの逆画像検索で MLLM を増強する単純な方法である。
RIRは、GPT-4Vの知識集約型視覚質問応答(VQA)を37-43%、GPT-4 Turboを25-27%、GPT-4oを18-20%改善する。
論文 参考訳(メタデータ) (2024-05-29T04:00:41Z) - User-Centric Deployment of Automated Program Repair at Bloomberg [13.994851524965016]
本稿では,ソフトウェア技術者に最適な時間,目標,自動生成パッチを提案する。
私たちはGitHubのSuggested Changesインターフェースを使用して、自動提案をプルリクエストにシームレスに統合しています。
ユーザ調査からB-Assistの有効性は明らかであり,パッチ提案の受け入れ率は74.56%である。
論文 参考訳(メタデータ) (2023-11-17T13:39:48Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。