論文の概要: InstructCoder: Empowering Language Models for Code Editing
- arxiv url: http://arxiv.org/abs/2310.20329v1
- Date: Tue, 31 Oct 2023 10:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:47:36.750197
- Title: InstructCoder: Empowering Language Models for Code Editing
- Title(参考訳): InstructCoder: コード編集のための言語モデルを強化する
- Authors: Qisheng Hu, Kaixin Li, Xu Zhao, Yuxi Xie, Tiedong Liu, Hui Chen, Qizhe
Xie, Junxian He
- Abstract要約: 本研究では,ユーザインストラクションに基づいたコード編集に大規模言語モデル (LLM) を用いる方法について検討する。
これを容易にするために、汎用コード編集に適応するために設計された最初のデータセットであるInstructCoderを紹介する。
InstructCoderで微調整されたオープンソースのLLMは、ほとんどの場合、ユーザの指示に基づいてコードを正しく編集できることを示す。
- 参考スコア(独自算出の注目度): 26.160498475809266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code editing encompasses a variety of pragmatic tasks that developers deal
with daily. Despite its relevance and practical usefulness, automatic code
editing remains an underexplored area in the evolution of deep learning models,
partly due to data scarcity. In this work, we explore the use of large language
models (LLMs) to edit code based on user instructions, covering a broad range
of implicit tasks such as comment insertion, code optimization, and code
refactoring. To facilitate this, we introduce InstructCoder, the first dataset
designed to adapt LLMs for general-purpose code editing, containing
highdiversity code-editing tasks. It consists of over 114,000
instruction-input-output triplets and covers multiple distinct code editing
scenarios. The dataset is systematically expanded through an iterative process
that commences with code editing data sourced from GitHub commits as seed
tasks. Seed and generated tasks are used subsequently to prompt ChatGPT for
more task data. Our experiments demonstrate that open-source LLMs fine-tuned on
InstructCoder can edit code correctly based on users' instructions most of the
time, exhibiting unprecedented code-editing performance levels. Such results
suggest that proficient instruction-finetuning can lead to significant
amelioration in code editing abilities. The dataset and the source code are
available at https://github.com/qishenghu/CodeInstruct.
- Abstract(参考訳): コード編集は、開発者が日々扱う様々な実用的なタスクを含んでいる。
その妥当性と実用性にもかかわらず、自動コード編集は、データ不足による深層学習モデルの進化において、まだ未熟な領域である。
本稿では,ユーザの指示に基づいてコード編集を行うための大規模言語モデル(llm)の利用について検討し,コメント挿入やコード最適化,コードリファクタリングなど,幅広い暗黙的なタスクをカバーする。
これを容易にするために,汎用コード編集にLLMを適用するために設計された最初のデータセットであるInstructCoderを紹介した。
114,000以上の命令入力出力トリプレットで構成され、複数の異なるコード編集シナリオをカバーする。
データセットは、githubコミットから得られたコード編集データをシードタスクとして開始する反復プロセスを通じて、体系的に拡張される。
その後、シードタスクと生成タスクを使用して、より多くのタスクデータに対してchatgptをプロンプトする。
InstructCoderで微調整されたオープンソースのLLMは、多くの場合、ユーザの指示に基づいてコードを正しく編集でき、前例のないコード編集性能を示す。
このような結果から,有能な命令ファインタニングがコード編集能力の大幅な改善につながる可能性が示唆された。
データセットとソースコードはhttps://github.com/qishenghu/codeinstructで入手できる。
関連論文リスト
- VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - WaveCoder: Widespread And Versatile Enhancement For Code Large Language Models By Instruction Tuning [22.44573249705913]
We present WaveCoder, a series of Code LLMs training with Widespread And Versatile Enhanced instruction data。
複雑なコード関連タスクに対処するために,オープンソースのコードデータセットから多種多様な高品質の命令データを安定して生成する手法を提案する。
実験により、WaveCoderモデルは、異なるコード関連タスク間の一般化能力において、他のオープンソースモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-12-20T09:02:29Z) - Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions [6.367360745627828]
コード編集タスクのベンチマークを導入し、それをいくつかの最先端LCMの評価に利用する。
我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。
我々は、自然言語命令と組み合わされたコード編集タスクの新しい、慎重にキュレートされ、パーミッシブにライセンスされたトレーニングデータセットを導入する。
論文 参考訳(メタデータ) (2023-12-11T02:27:45Z) - Coeditor: Leveraging Contextual Changes for Multi-round Code Auto-editing [57.776971051512234]
本研究では,複数ラウンドのコードの自動編集設定について検討し,その内部の最近の変更に基づいて,コード領域への編集を予測することを目的とした。
我々のモデルであるCoeditorは、コード編集タスクに特化して設計された微調整言語モデルである。
単純化されたシングルラウンドのシングル編集タスクでは、Coeditor は GPT-3.5 と SOTA のオープンソースコード補完モデルを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-29T19:57:36Z) - GrACE: Generation using Associated Code Edits [23.643567386291988]
プリトレーニング済みの大規模言語モデル(LLM)に,事前の関連編集の知識を付与する。
LLMの生成能力は、コード変更の多様性と、事前編集時のコード生成の条件付けに役立ちます。
Codex と CodeT5 の2つの有名な LLM を,ゼロショット設定と微調整設定でそれぞれ評価した。
論文 参考訳(メタデータ) (2023-05-23T14:55:44Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。