Fugu-MT 論文翻訳(概要): Studying and Understanding the Effectiveness and Failures of Conversational LLM-Based Repair

論文の概要: Studying and Understanding the Effectiveness and Failures of Conversational LLM-Based Repair

arxiv url: http://arxiv.org/abs/2503.15050v1
Date: Wed, 19 Mar 2025 09:39:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 15:29:57.546421
Title: Studying and Understanding the Effectiveness and Failures of Conversational LLM-Based Repair
Title（参考訳）: 会話型LLM修復の有効性と失敗についての検討
Authors: Aolin Chen, Haojun Wu, Qi Xin, Steven P. Reiss, Jifeng Xuan,
Abstract要約: 自動プログラム修復(APR)は、バグ修正のプロセスを自動化するように設計されている。会話言語モデル(LLM)を利用した高度なAPR技術は、目覚ましい修復能力を示した。優位性にもかかわらず、会話型APR技術は依然として多くのバグを修復することができない。
参考スコア（独自算出の注目度）: 3.93048798243871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated program repair (APR) is designed to automate the process of bug-fixing. In recent years, thanks to the rapid development of large language models (LLMs), automated repair has achieved remarkable progress. Advanced APR techniques powered by conversational LLMs, most notably ChatGPT, have exhibited impressive repair abilities and gained increasing popularity due to the capabilities of the underlying LLMs in providing repair feedback and performing iterative patch improvement. Despite the superiority, conversational APR techniques still fail to repair a large number of bugs. For example, a state-of-the-art conversational technique ChatRepair does not correctly repair over half of the single-function bugs in the Defects4J dataset. To understand the effectiveness and failures of conversational LLM-based repair and provide possible directions for improvement, we studied the exemplary ChatRepair with a focus on comparing the effectiveness of its cloze-style and full function repair strategies, assessing its key iterative component for patch improvement, and analyzing the repair failures. Our study has led to a series of findings, which we believe provide key implications for future research.
Abstract（参考訳）: 自動プログラム修復(APR)は、バグ修正のプロセスを自動化するように設計されている。近年,大規模言語モデル (LLM) の急速な開発により, 自動修復は目覚ましい進歩を遂げている。会話型LLMを利用した高度なAPR技術、特にChatGPTは、補修能力に優れており、補修フィードバックを提供し、反復的なパッチ改善を行う上で、基礎となるLLMの能力によって人気が高まっている。優位性にもかかわらず、会話型APR技術は依然として多くのバグを修復することができない。例えば、最先端の会話テクニックであるChatRepairでは、Defects4Jデータセットの単一機能バグの半分以上を正しく修正することはできません。会話型LCMによる補修の有効性と失敗の理解と改善の道筋を提供するため, 模範的なChatRepairについて, クローゼスタイルとフルファンクションの補修戦略の有効性を比較し, パッチ改善の鍵となる反復成分を評価し, 補修失敗の解析に焦点をあてて検討した。我々の研究は一連の発見をもたらし、将来の研究に重要な影響をもたらすと信じている。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
FastFixer: An Efficient and Effective Approach for Repairing Programming Assignments [21.848112758958543]
本稿では,FastFixerを提案する。まず,必要なパッチと関連するコンテキストを生成する方法を学ぶことへのLLMの関心を高めることを目的とした,修復指向のファインチューニング戦略を提案する。修復効率を考慮すると、FastFixerは自動回帰復号アルゴリズムと比較して16.67倍の高速化を実現している。
論文参考訳（メタデータ） (2024-10-11T10:17:02Z)
Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language Models [48.42142115255159]
命令追従操作タスクにおけるマルチモーダルなTPRシーケンスのデータセットであるBlockWorld-Repairsをリリースする。現状のビジョンと言語モデル(VLM)を複数の設定で評価し,TPRの処理能力と正確な応答性に着目した。以上の結果から,これらのモデルはまだマルチモーダル・コラボレーティブ・セッティングにデプロイする準備が整っていないことが示唆された。
論文参考訳（メタデータ） (2024-09-21T21:06:25Z)
On The Effectiveness of Dynamic Reduction Techniques in Automated Program Repair [1.7767466724342067]
本稿では,大規模バグ修正プログラムを効果的に処理するプログラム修復フレームワークについて述べる。このフレームワークは、プログラムスライシングの形式でプログラムの削減を利用して、修正中のバグとは無関係にコードの一部を除去する。広く使用されているDefects4Jデータセットに対する実験結果から,修復品質の劣化を伴わずに,大幅な性能向上が達成できることが判明した。
論文参考訳（メタデータ） (2024-06-23T21:35:07Z)
Investigating the Transferability of Code Repair for Low-Resource Programming Languages [57.62712191540067]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを示している。近年の作業は、連鎖推論や蒸留といった現代的な技術を統合することで、コード修復のプロセスを強化している。高低資源言語と低低資源言語の両方でコード修復を蒸留する利点について検討する。
論文参考訳（メタデータ） (2024-06-21T05:05:39Z)
How Far Can We Go with Practical Function-Level Program Repair? [11.71750828464698]
本稿では,少数ショット学習機構と補修関連情報が機能レベルAPRに及ぼす影響について検討する。補修関連情報のパワーを活用するために,デュアルLLM フレームワークを採用した LLM ベースの関数レベル APR 手法,すなわち SRepair を提案する。
論文参考訳（メタデータ） (2024-04-19T12:14:09Z)
ContrastRepair: Enhancing Conversation-Based Automated Program Repair via Contrastive Test Case Pairs [23.419180504723546]
ContrastRepairは、対照的なテストペアを提供することで、会話駆動型APRを強化する、新しいAPRアプローチである。 Defects4j、QuixBugs、HumanEval-Javaなど、複数のベンチマークデータセット上でContrastRepairを評価する。
論文参考訳（メタデータ） (2024-03-04T12:15:28Z)
A Novel Approach for Automatic Program Repair using Round-Trip Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文参考訳（メタデータ） (2024-01-15T22:36:31Z)
The Right Prompts for the Job: Repair Code-Review Defects with Large Language Model [15.885824575879763]
自動プログラム修復(APR)技術は、コードレビュー(CR)プロセス中にプログラム欠陥を発見して修復する手作業を減らす可能性がある。しかし、既存のAPRアプローチにまつわる限られた精度とかなりの時間的コストは、産業的な実践において採用を妨げている。近年のLLM(Large Language Models)の進歩により、自然言語やプログラミング言語を理解する能力が向上し、レビューコメントに基づいたパッチの生成が可能になった。
論文参考訳（メタデータ） (2023-12-29T06:12:15Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)
Is Self-Repair a Silver Bullet for Code Generation? [68.02601393906083]
大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
論文参考訳（メタデータ） (2023-06-16T15:13:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。