論文の概要: Coffee: Boost Your Code LLMs by Fixing Bugs with Feedback
- arxiv url: http://arxiv.org/abs/2311.07215v3
- Date: Fri, 23 Feb 2024 06:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 11:50:58.605703
- Title: Coffee: Boost Your Code LLMs by Fixing Bugs with Feedback
- Title(参考訳): Coffee: フィードバックでバグを修正することでコードLLMを強化
- Authors: Seungjun Moon, Hyungjoo Chae, Yongho Song, Taeyoon Kwon, Dongjin Kang,
Kai Tzu-iunn Ong, Seung-won Hwang, Jinyoung Yeo
- Abstract要約: フィードバックでコードを修正するために特別に設計されたデータセットであるCoffeeを紹介します。
CoffeePotsは、Preference-d Tuning and Selectionを通じて、FEEdbackでCOdeフィクスを行うためのフレームワークである。
- 参考スコア(独自算出の注目度): 22.009589058160184
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code editing is an essential step towards reliable program synthesis to
automatically correct critical errors generated from code LLMs. Recent studies
have demonstrated that closed-source LLMs (i.e., ChatGPT and GPT-4) are capable
of generating corrective feedback to edit erroneous inputs. However, it remains
challenging for open-source code LLMs to generate feedback for code editing,
since these models tend to adhere to the superficial formats of feedback and
provide feedback with misleading information. Hence, the focus of our work is
to leverage open-source code LLMs to generate helpful feedback with correct
guidance for code editing. To this end, we present Coffee, a collected dataset
specifically designed for code fixing with feedback. Using this dataset, we
construct CoffeePots, a framework for COde Fixing with FEEdback via
Preference-Optimized Tuning and Selection. The proposed framework aims to
automatically generate helpful feedback for code editing while minimizing the
potential risk of superficial feedback. The combination of Coffee and
CoffeePots marks a significant advancement, achieving state-of-the-art
performance on HumanEvalFix benchmark. Codes and model checkpoints are publicly
available at https://github.com/Lune-Blue/COFFEE.
- Abstract(参考訳): コード編集は、コードLLMから生成された臨界エラーを自動的に修正する、信頼性の高いプログラム合成への重要なステップである。
近年の研究では、ChatGPT や GPT-4 といったクローズドソース LLM が、誤った入力を編集する修正フィードバックを生成できることが示されている。
しかし、これらのモデルは表面的なフィードバック形式に固執し、誤解を招く情報を提供する傾向があるため、オープンソースのLLMがコード編集のためのフィードバックを生成することは依然として困難である。
したがって、我々の研究の焦点は、オープンソースのLLMを活用して、コード編集のための正しいガイダンスで有益なフィードバックを生成することである。
この目的のために、フィードバックによるコード修正に特化したデータセットであるCoffeeを紹介します。
このデータセットを用いて、Preference-Optimized Tuning and Selectionを介して、FEEdbackによるCOde FixingのためのフレームワークであるCoffeePotsを構築する。
提案フレームワークは,表面的フィードバックのリスクを最小限に抑えつつ,コード編集に有用なフィードバックを自動的に生成することを目的としている。
コーヒーとコーヒーポットの組み合わせは重要な進歩を示し、humanevalfixベンチマークで最先端のパフォーマンスを達成した。
コードとモデルチェックポイントはhttps://github.com/lune-blue/coffeeで公開されている。
関連論文リスト
- Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code [20.98256963994356]
Coffee-Gymは、コード編集に関するフィードバックを提供するトレーニングモデルのためのRL環境である。
Coffee-Gymには,(1)人間のコード編集トレースを含むデータセットであるCoffee,(2)誤ったコード編集のための機械によるフィードバックを含むデータセットであるCoffeeEval,(2)修正されたコードのパフォーマンスをユニットテストで評価することで,フィードバックの有用性を忠実に反映する報酬関数であるCoffeeEvalが含まれる。
論文 参考訳(メタデータ) (2024-09-29T14:14:25Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - AI-powered Code Review with LLMs: Early Results [10.37036924997437]
本稿では,Large Language Model (LLM) ベースのモデルを用いて,ソフトウェアの品質と効率を改善する新しい手法を提案する。
提案するLLMベースのAIエージェントモデルは,大規模コードリポジトリ上でトレーニングされている。
コードの臭いを検出し、潜在的なバグを特定し、改善の提案を提供し、コードを最適化することを目的としている。
論文 参考訳(メタデータ) (2024-04-29T08:27:50Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences [2.3749120526936465]
LLM-as-a-Judge法を用いて、LLMと符号化優先のアライメントを評価する。
CodeUltraFeedbackは1万のコード命令で構成され、それぞれに14 LLMの多様なプールから生成される4つの応答が注釈付けされている。
次に、教師付き微調整(SFT)とAIフィードバックからの強化学習(RLAIF)を用いたCodeLlama-7B-Instructの微調整のためのフィードバックデータとしてのCodeUltraFeedbackの利用について検討する。
論文 参考訳(メタデータ) (2024-03-14T01:51:35Z) - Editing Conceptual Knowledge for Large Language Models [65.38231526537476]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。
本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。
実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (2024-03-10T16:57:10Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions [6.367360745627828]
コード編集タスクのベンチマークを導入し、それをいくつかの最先端LCMの評価に利用する。
我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。
我々は、自然言語命令と組み合わされたコード編集タスクの新しい、慎重にキュレートされ、パーミッシブにライセンスされたトレーニングデータセットを導入する。
論文 参考訳(メタデータ) (2023-12-11T02:27:45Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Test-Case-Driven Programming Understanding in Large Language Models for
Better Code Generation [15.166827643436346]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。