論文の概要: Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code
- arxiv url: http://arxiv.org/abs/2409.19715v1
- Date: Sun, 29 Sep 2024 14:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:05:04.313949
- Title: Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code
- Title(参考訳): Coffee-Gym: 誤ったコードに対する自然言語フィードバックの評価と改善のための環境
- Authors: Hyungjoo Chae, Taeyoon Kwon, Seungjun Moon, Yongho Song, Dongjin Kang, Kai Tzu-iunn Ong, Beong-woo Kwak, Seonghyeon Bae, Seung-won Hwang, Jinyoung Yeo,
- Abstract要約: Coffee-Gymは、コード編集に関するフィードバックを提供するトレーニングモデルのためのRL環境である。
Coffee-Gymには,(1)人間のコード編集トレースを含むデータセットであるCoffee,(2)誤ったコード編集のための機械によるフィードバックを含むデータセットであるCoffeeEval,(2)修正されたコードのパフォーマンスをユニットテストで評価することで,フィードバックの有用性を忠実に反映する報酬関数であるCoffeeEvalが含まれる。
- 参考スコア(独自算出の注目度): 20.98256963994356
- License:
- Abstract: This paper presents Coffee-Gym, a comprehensive RL environment for training models that provide feedback on code editing. Coffee-Gym includes two major components: (1) Coffee, a dataset containing humans' code edit traces for coding questions and machine-written feedback for editing erroneous code; (2) CoffeeEval, a reward function that faithfully reflects the helpfulness of feedback by assessing the performance of the revised code in unit tests. With them, Coffee-Gym addresses the unavailability of high-quality datasets for training feedback models with RL, and provides more accurate rewards than the SOTA reward model (i.e., GPT-4). By applying Coffee-Gym, we elicit feedback models that outperform baselines in enhancing open-source code LLMs' code editing, making them comparable with closed-source LLMs. We make the dataset and the model checkpoint publicly available.
- Abstract(参考訳): 本稿では、コード編集のフィードバックを提供する訓練モデルのための総合的なRL環境であるCoffee-Gymについて述べる。
Coffee-Gymには,(1)人間のコード編集トレースを含むデータセットであるCoffee,(2)誤ったコード編集のための機械によるフィードバックを含むデータセットであるCoffeeEval,(2)修正されたコードのパフォーマンスをユニットテストで評価することで,フィードバックの有用性を忠実に反映する報酬関数であるCoffeeEvalが含まれる。
それらとともに、Coffee-Gymは、RLでフィードバックモデルをトレーニングするための高品質データセットの有効性に対処し、SOTA報酬モデル(すなわちGPT-4)よりも正確な報酬を提供する。
Coffee-Gymを適用することで、オープンソースのLLMのコード編集の強化において、ベースラインよりも優れたフィードバックモデルを求め、それをクローズドソースのLLMに匹敵するものにする。
データセットとモデルチェックポイントを公開しています。
関連論文リスト
- VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
VersiCodeは,大規模言語モデルが特定のライブラリのバージョンに対して検証可能なコードを生成する能力を評価するために設計された,最初の包括的なデータセットである。
バージョン別コード補完(VSCC)とバージョン別コード編集(VACE)の2つの専用評価タスクを設計する。
LLMのパフォーマンスをベンチマークするために総合的な実験が行われ、これらのタスクとVersiCodeの難しさを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Enhancing Code Intelligence Tasks with ChatGPT [17.712126698173535]
ChatGPTの生成したコメントは、人間の参照よりもコードに対するセマンティックな一貫性が優れていることを示している。
広く使われているデータセットであるCodeSearchNetを、ChatGPTで生成されたコメントで再構築します。
以上の結果から,ChatGPTによって事前訓練されたモデルは,コード要約,コード生成,コード翻訳タスクにおいて,そのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-12-23T09:01:08Z) - Fine-grained LLM Agent: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
LLMエージェントは、大規模言語モデルの出力を洗練するための推論手法である。
中心となる考え方は、学習したきめ細かいフィードバックモデルを使用して欠陥を特定し、LCMを反復的に洗練させることです。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Coffee: Boost Your Code LLMs by Fixing Bugs with Feedback [22.009589058160184]
フィードバックでコードを修正するために特別に設計されたデータセットであるCoffeeを紹介します。
CoffeePotsは、Preference-d Tuning and Selectionを通じて、FEEdbackでCOdeフィクスを行うためのフレームワークである。
論文 参考訳(メタデータ) (2023-11-13T10:15:19Z) - InstructCoder: Instruction Tuning Large Language Models for Code Editing [26.160498475809266]
ユーザインストラクションに基づいたコード編集にLLM(Large Language Models)を用いる方法について検討する。
InstructCoderは、汎用コード編集にLLMを適用するために設計された最初の命令チューニングデータセットである。
InstructCoderで微調整されたオープンソースのLLMは、コード編集の精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-31T10:15:35Z) - RLTF: Reinforcement Learning from Unit Test Feedback [17.35361167578498]
Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。
提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
論文 参考訳(メタデータ) (2023-07-10T05:18:18Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。