論文の概要: InstructCoder: Instruction Tuning Large Language Models for Code Editing
- arxiv url: http://arxiv.org/abs/2310.20329v3
- Date: Wed, 28 Feb 2024 15:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 18:33:30.769843
- Title: InstructCoder: Instruction Tuning Large Language Models for Code Editing
- Title(参考訳): instructcoder: コード編集のための大きな言語モデルをチューニングする命令
- Authors: Kaixin Li, Qisheng Hu, Xu Zhao, Hui Chen, Yuxi Xie, Tiedong Liu, Qizhe
Xie, Junxian He
- Abstract要約: ユーザインストラクションに基づいたコード編集にLLM(Large Language Models)を用いる方法について検討する。
InstructCoderは、汎用コード編集にLLMを適用するために設計された最初の命令チューニングデータセットである。
InstructCoderで微調整されたオープンソースのLLMは、コード編集の精度を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 26.160498475809266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code editing encompasses a variety of pragmatic tasks that developers deal
with daily. Despite its relevance and practical usefulness, automatic code
editing remains an underexplored area in the evolution of deep learning models,
partly due to data scarcity. In this work, we explore the use of Large Language
Models (LLMs) to edit code based on user instructions. Evaluated on a novel
human-written execution-based benchmark dubbed EditEval, we found current
models often struggle to fulfill the instructions. In light of this, we
contribute InstructCoder, the first instruction-tuning dataset designed to
adapt LLMs for general-purpose code editing, containing high-diversity
code-editing tasks such as comment insertion, code optimization, and code
refactoring. It consists of over 114,000 instruction-input-output triplets and
covers multiple distinct code editing scenarios. The collection process starts
with filtered commit data sourced from GitHub Python repositories as seeds.
Subsequently, the dataset is systematically expanded through an iterative
process, where both seed and generated tasks are used to prompt ChatGPT for
more data. Our findings reveal that open-source LLMs fine-tuned on
InstructCoder can significantly enhance the accuracy of code edits, exhibiting
superior code-editing performance matching advanced proprietary LLMs. The
datasets and the source code are publicly available at
https://github.com/qishenghu/CodeInstruct.
- Abstract(参考訳): コード編集は、開発者が日々扱う様々な実用的なタスクを含んでいる。
その妥当性と実用性にもかかわらず、自動コード編集は、データ不足による深層学習モデルの進化において、まだ未熟な領域である。
本稿では,ユーザ指示に基づくコード編集における大規模言語モデル(llm)の利用について検討する。
editevalと呼ばれる新しい人書き実行ベースのベンチマークで評価した結果、現在のモデルが命令を満たすのに苦労していることが分かりました。
InstructCoderは、汎用コード編集にLLMを適用するために設計された最初のインストラクションチューニングデータセットであり、コメント挿入、コード最適化、コードリファクタリングなどの多種多様なコード編集タスクを含んでいる。
114,000以上の命令入力出力トリプレットで構成され、複数の異なるコード編集シナリオをカバーする。
収集プロセスは、github pythonリポジトリからソースされたフィルタされたコミットデータから始まります。
その後、データセットは反復プロセスを通じて体系的に拡張され、シードタスクと生成タスクの両方を使用して、より多くのデータに対してchatgptを促す。
instructcoderで微調整されたオープンソースのllmは、コード編集の精度を著しく向上させ、高度なプロプライエタリllmに匹敵する優れたコード編集性能を示す。
データセットとソースコードはhttps://github.com/qishenghu/codeinstructで公開されている。
関連論文リスト
- DolphCoder: Echo-Locating Code Large Language Models with Diverse and
Multi-Objective Instruction Tuning [36.78560777629329]
コード生成を自己評価する多種多様な命令モデル(DolphCoder)を導入する。
多様な命令ターゲットを学習し、コード生成能力を高めるためにコード評価の目的を組み合わせる。
本モデルは,HumanEvalおよびMBPPベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-14T12:34:58Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Can It Edit? Evaluating the Ability of Large Language Models to Follow
Code Editing Instructions [7.3325988944997675]
コード編集タスクのベンチマークを導入し、いくつかの最先端LCMを評価する。
我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。
我々は、新しく、慎重にキュレートされ、パーミッシブにライセンスされたコード編集のトレーニングセットと自然言語命令を導入します。
論文 参考訳(メタデータ) (2023-12-11T02:27:45Z) - Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。
本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文 参考訳(メタデータ) (2023-10-25T14:38:40Z) - Coeditor: Leveraging Contextual Changes for Multi-round Code
Auto-editing [51.153089609654174]
本研究では,複数ラウンドのコードの自動編集設定について検討し,その内部の最近の変更に基づいて,コード領域への編集を予測することを目的とした。
当社のモデルであるCoeditorは、コード編集タスク用に特別に設計された機能強化を備えた、微調整のCodeT5モデルです。
トレーニングと評価のために1650のオープンソースのPythonプロジェクトのコミット履歴からコード編集データセットを収集します。
論文 参考訳(メタデータ) (2023-05-29T19:57:36Z) - GrACE: Generation using Associated Code Edits [23.643567386291988]
プリトレーニング済みの大規模言語モデル(LLM)に,事前の関連編集の知識を付与する。
LLMの生成能力は、コード変更の多様性と、事前編集時のコード生成の条件付けに役立ちます。
Codex と CodeT5 の2つの有名な LLM を,ゼロショット設定と微調整設定でそれぞれ評価した。
論文 参考訳(メタデータ) (2023-05-23T14:55:44Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。
InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。
私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文 参考訳(メタデータ) (2022-04-12T16:25:26Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。