論文の概要: CREF: An LLM-based Conversational Software Repair Framework for Programming Tutors
- arxiv url: http://arxiv.org/abs/2406.13972v2
- Date: Mon, 8 Jul 2024 10:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 01:00:13.608417
- Title: CREF: An LLM-based Conversational Software Repair Framework for Programming Tutors
- Title(参考訳): CREF: チュータプログラミングのためのLLMベースの会話型ソフトウェア修復フレームワーク
- Authors: Boyang Yang, Haoye Tian, Weiguo Pian, Haoran Yu, Haitao Wang, Jacques Klein, Tegawendé F. Bissyandé, Shunfu Jin,
- Abstract要約: 既存の修復ベンチマークがLSMのトレーニングデータに影響を与え、データ漏洩を引き起こす可能性があることを認識することが重要である。
本研究は,TutorCode上の12LLMの補修性能,補修精度(TOP-5およびAVG-5)およびパッチ精度(RPSR)を評価する。
LLMの会話能力と強化情報の利点をフル活用するために,人間の教師を支援する対話型半自動修復フレームワークCREFを導入する。
- 参考スコア(独自算出の注目度): 8.415004837059863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Program repair techniques offer cost-saving benefits for debugging within software development and programming education scenarios. With the proven effectiveness of Large Language Models (LLMs) in code-related tasks, researchers have explored their potential for program repair. However, it is crucial to recognize that existing repair benchmarks may have influenced LLM training data, potentially causing data leakage. To evaluate LLMs' realistic repair capabilities, (1) we introduce an extensive, non-crawled benchmark, referred to as TutorCode, comprising 1,239 C++ defect codes and associated information such as tutor guidance, solution description, failing test cases, and the corrected code. Our work assesses the repair performance of 12 LLMs on TutorCode, measuring repair correctness (TOP-5 and AVG-5) and patch precision (RPSR). (2) We then provide a comprehensive investigation into which types of extra information can help LLMs improve their performance in repairing defects. Among these types, tutor guidance was found to be the most effective information in enhancing LLM repair capabilities. To fully harness LLMs' conversational capabilities and the benefits of augmented information, (3) we introduce a novel conversational semi-automatic repair framework CREF assisting human tutor. It demonstrates a remarkable AVG-5 improvement of 17.2%-24.6% compared to the baseline, achieving an impressive AVG-5 of 76.6% when utilizing GPT-4. These results highlight the potential for enhancing LLMs' repair capabilities through interactions with tutors and historical conversations involving incorrect responses. The successful application of CREF in a real-world educational setting demonstrates its effectiveness in reducing tutors' workload and improving students' learning experience, while also showcasing its promise for facilitating other software engineering tasks, such as code review.
- Abstract(参考訳): プログラム修復技術は、ソフトウェア開発およびプログラミング教育シナリオにおけるデバッグにコスト削減の利点を提供する。
コードに関連したタスクにおいて、LLM(Large Language Models)の有効性が証明されたことから、研究者はプログラムの修復の可能性を探った。
しかし、既存の修復ベンチマークがLLMトレーニングデータに影響を与え、データ漏洩を引き起こす可能性があることを認識することが重要である。
LLMの現実的な修復能力を評価するため,(1) 1,239個のC++欠陥コードと,チュータガイダンス,ソリューション記述,テストケースの失敗,修正コードなどの関連情報を含む,拡張性のないTutorCodeと呼ばれるベンチマークを導入する。
本研究では,TutorCode上の12個のLLMの補修性能,補修精度(TOP-5,AVG-5),パッチ精度(RPSR)を評価した。
2) 欠陥修復におけるLCMの性能向上に寄与する余分な情報の種類を総合的に検討する。
これらのタイプの中で、チューター指導はLLM修復能力を高める上で最も効果的な情報であることがわかった。
LLMの会話能力と強化情報の利点をフル活用するために, 対話型半自動修復フレームワークCREFを導入した。
AVG-5はベースラインに比べて17.2%-24.6%改善し、GPT-4を使用すると76.6%の顕著なAVG-5を達成している。
これらの結果は、教師との交流や、誤った反応を含む歴史的会話を通じて、LLMの修復能力を高める可能性を浮き彫りにした。
現実世界の教育環境でのCREFの適用は、チューターの作業量を削減し、生徒の学習体験を改善する上での有効性を示すと同時に、コードレビューのような他のソフトウェアエンジニアリングタスクを円滑にすることの約束を示す。
関連論文リスト
- Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - AvaTaR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval [93.96463520716759]
大言語モデル(LLM)エージェントは、外部のツールや知識を活用して精度を高め、幻覚を減らすという印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供するツールを効果的に利用し、与えられたタスク/ドメインの性能を向上させる新しいフレームワークであるAvaTaRを紹介する。
AvaTaRは、4つの課題にまたがる最先端のアプローチを一貫して上回り、新規事例に適用した場合に強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - How Far Can We Go with Practical Function-Level Program Repair? [12.195137917098041]
本稿では,少数ショット学習機構と補修関連情報が機能レベルAPRに及ぼす影響について検討する。
補修関連情報のパワーを活用するために,デュアルLLM フレームワークを採用した LLM ベースの関数レベル APR 手法,すなわち SRepair を提案する。
論文 参考訳(メタデータ) (2024-04-19T12:14:09Z) - Multi-Objective Fine-Tuning for Enhanced Program Repair with LLMs [16.890411067079885]
大規模言語モデル(LLM)は、幅広い下流タスクにおいて顕著な機能を示した。
プログラム修復のためのLLMファインチューニングの学習焦点に関する新しい視点を提案する。
我々はMORepairを、サイズやアーキテクチャの異なる4つのオープンソースLCMの微調整に応用する。
論文 参考訳(メタデータ) (2024-04-19T05:36:21Z) - Aligning LLMs for FL-free Program Repair [14.935596175148586]
本稿では,大規模言語モデル (LLM) をプログラム修復に適用するための新しいアプローチについて検討する。
我々の中核的な洞察は、LLMのAPR能力は、単にトレーニング目標に出力を合わせるだけで大幅に改善できるということです。
この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。
論文 参考訳(メタデータ) (2024-04-13T02:36:40Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Rethinking the Roles of Large Language Models in Chinese Grammatical
Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。
CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。
CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文 参考訳(メタデータ) (2024-02-18T01:40:34Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - The Right Prompts for the Job: Repair Code-Review Defects with Large
Language Model [15.885824575879763]
自動プログラム修復(APR)技術は、コードレビュー(CR)プロセス中にプログラム欠陥を発見して修復する手作業を減らす可能性がある。
しかし、既存のAPRアプローチにまつわる限られた精度とかなりの時間的コストは、産業的な実践において採用を妨げている。
近年のLLM(Large Language Models)の進歩により、自然言語やプログラミング言語を理解する能力が向上し、レビューコメントに基づいたパッチの生成が可能になった。
論文 参考訳(メタデータ) (2023-12-29T06:12:15Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。