論文の概要: Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code
- arxiv url: http://arxiv.org/abs/2409.19715v1
- Date: Fri, 4 Oct 2024 08:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 21:29:26.233680
- Title: Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code
- Title(参考訳): Coffee-Gym: 誤ったコードに対する自然言語フィードバックの評価と改善のための環境
- Authors: Hyungjoo Chae, Taeyoon Kwon, Seungjun Moon, Yongho Song, Dongjin Kang, Kai Tzu-iunn Ong, Beong-woo Kwak, Seonghyeon Bae, Seung-won Hwang, Jinyoung Yeo,
- Abstract要約: Coffee-Gymは、コード編集に関するフィードバックを提供するトレーニングモデルのためのRL環境である。
Coffee-Gymには,(1)人間のコード編集トレースを含むデータセットであるCoffee,(2)誤ったコード編集のための機械によるフィードバックを含むデータセットであるCoffeeEval,(2)修正されたコードのパフォーマンスをユニットテストで評価することで,フィードバックの有用性を忠実に反映する報酬関数であるCoffeeEvalが含まれる。
- 参考スコア(独自算出の注目度): 20.98256963994356
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents Coffee-Gym, a comprehensive RL environment for training models that provide feedback on code editing. Coffee-Gym includes two major components: (1) Coffee, a dataset containing humans' code edit traces for coding questions and machine-written feedback for editing erroneous code; (2) CoffeeEval, a reward function that faithfully reflects the helpfulness of feedback by assessing the performance of the revised code in unit tests. With them, Coffee-Gym addresses the unavailability of high-quality datasets for training feedback models with RL, and provides more accurate rewards than the SOTA reward model (i.e., GPT-4). By applying Coffee-Gym, we elicit feedback models that outperform baselines in enhancing open-source code LLMs' code editing, making them comparable with closed-source LLMs. We make the dataset and the model checkpoint publicly available.
- Abstract(参考訳): 本稿では、コード編集のフィードバックを提供する訓練モデルのための総合的なRL環境であるCoffee-Gymについて述べる。
Coffee-Gymには,(1)人間のコード編集トレースを含むデータセットであるCoffee,(2)誤ったコード編集のための機械によるフィードバックを含むデータセットであるCoffeeEval,(2)修正されたコードのパフォーマンスをユニットテストで評価することで,フィードバックの有用性を忠実に反映する報酬関数であるCoffeeEvalが含まれる。
それらとともに、Coffee-Gymは、RLでフィードバックモデルをトレーニングするための高品質データセットの有効性に対処し、SOTA報酬モデル(すなわちGPT-4)よりも正確な報酬を提供する。
Coffee-Gymを適用することで、オープンソースのLLMのコード編集の強化において、ベースラインよりも優れたフィードバックモデルを求め、それをクローズドソースのLLMに匹敵するものにする。
データセットとモデルチェックポイントを公開しています。
関連論文リスト
- Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Enhancing Code Intelligence Tasks with ChatGPT [17.712126698173535]
ChatGPTの生成したコメントは、人間の参照よりもコードに対するセマンティックな一貫性が優れていることを示している。
広く使われているデータセットであるCodeSearchNetを、ChatGPTで生成されたコメントで再構築します。
以上の結果から,ChatGPTによって事前訓練されたモデルは,コード要約,コード生成,コード翻訳タスクにおいて,そのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-12-23T09:01:08Z) - Coffee: Boost Your Code LLMs by Fixing Bugs with Feedback [22.009589058160184]
フィードバックでコードを修正するために特別に設計されたデータセットであるCoffeeを紹介します。
CoffeePotsは、Preference-d Tuning and Selectionを通じて、FEEdbackでCOdeフィクスを行うためのフレームワークである。
論文 参考訳(メタデータ) (2023-11-13T10:15:19Z) - RLTF: Reinforcement Learning from Unit Test Feedback [17.35361167578498]
Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。
提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
論文 参考訳(メタデータ) (2023-07-10T05:18:18Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。