論文の概要: Can It Edit? Evaluating the Ability of Large Language Models to Follow
Code Editing Instructions
- arxiv url: http://arxiv.org/abs/2312.12450v3
- Date: Fri, 29 Dec 2023 00:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 21:03:15.261927
- Title: Can It Edit? Evaluating the Ability of Large Language Models to Follow
Code Editing Instructions
- Title(参考訳): 編集できますか?
大規模言語モデルによるコード編集指導の追跡能力の評価
- Authors: Federico Cassano, Luisa Li, Akul Sethi, Noah Shinn, Abby
Brennan-Jones, Anton Lozhkov, Carolyn Jane Anderson, Arjun Guha
- Abstract要約: コード編集タスクのベンチマークを導入し、いくつかの最先端LCMを評価する。
我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。
我々は、新しく、慎重にキュレートされ、パーミッシブにライセンスされたコード編集のトレーニングセットと自然言語命令を導入します。
- 参考スコア(独自算出の注目度): 7.3325988944997675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant amount of research is focused on developing and evaluating
large language models for a variety of code synthesis tasks. These include
synthesizing code from natural language instructions, synthesizing tests from
code, and synthesizing explanations of code. In contrast, the behavior of
instructional code editing with LLMs is understudied. These are tasks in which
the model is instructed to update a block of code provided in a prompt. The
editing instruction may ask for a feature to added or removed, describe a bug
and ask for a fix, ask for a different kind of solution, or many other common
code editing tasks.
We introduce a carefully crafted benchmark of code editing tasks and use it
evaluate several cutting edge LLMs. Our evaluation exposes a significant gap
between the capabilities of state-of-the-art open and closed models. For
example, even GPT-3.5-Turbo is 8.8% better than the best open model at editing
code.
We also introduce a new, carefully curated, permissively licensed training
set of code edits coupled with natural language instructions. Using this
training set, we show that we can fine-tune open Code LLMs to significantly
improve their code editing capabilities.
- Abstract(参考訳): 様々なコード合成タスクのための大規模言語モデルの開発と評価に、かなりの量の研究が集中している。
これには、自然言語命令からのコード合成、コードからのテストの合成、コードの説明の合成が含まれる。
対照的に、LLMを用いた命令コード編集の動作について検討する。
これらはモデルがプロンプトで提供されるコードのブロックを更新するよう指示されるタスクである。
編集命令は、追加または削除する機能、バグの説明、修正の要求、異なる種類のソリューションの要求、その他の多くの一般的なコード編集タスクを要求できる。
コード編集タスクのベンチマークを慎重に作成し,いくつかの最先端LCMを評価した。
我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。
例えば、GPT-3.5-Turboでさえ、コード編集において最高のオープンモデルよりも8.8%良い。
また、新しく、慎重にキュレートされ、パーミッシブにライセンスされたコード編集セットと自然言語命令も導入しました。
このトレーニングセットを使うことで、オープンコードllmを微調整して、コード編集能力を大幅に改善できることを示します。
関連論文リスト
- Beyond Code Generation: Assessing Code LLM Maturity with Postconditions [9.521621889147362]
本稿では,ポストコンディショニング問題に基づく大規模言語モデルの成熟度モデルを提案する。
EvalPlusデータセットを条件付きテストベンチマークに拡張し、いくつかのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-07-19T08:34:30Z) - CodeUpdateArena: Benchmarking Knowledge Editing on API Updates [77.81663273436375]
コードドメインの知識編集のためのベンチマークであるCodeUpdateArenaを提示する。
私たちのベンチマークのインスタンスは、プログラム合成例と組み合わせた合成API関数のアップデートで構成されています。
ベンチマークでは、7つのPythonパッケージから54の関数へ、さまざまなタイプの更新をカバーしています。
論文 参考訳(メタデータ) (2024-07-08T17:55:04Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - InstructCoder: Instruction Tuning Large Language Models for Code Editing [26.160498475809266]
ユーザインストラクションに基づいたコード編集にLLM(Large Language Models)を用いる方法について検討する。
InstructCoderは、汎用コード編集にLLMを適用するために設計された最初の命令チューニングデータセットである。
InstructCoderで微調整されたオープンソースのLLMは、コード編集の精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-31T10:15:35Z) - Coeditor: Leveraging Contextual Changes for Multi-round Code Auto-editing [57.776971051512234]
本研究では,複数ラウンドのコードの自動編集設定について検討し,その内部の最近の変更に基づいて,コード領域への編集を予測することを目的とした。
我々のモデルであるCoeditorは、コード編集タスクに特化して設計された微調整言語モデルである。
単純化されたシングルラウンドのシングル編集タスクでは、Coeditor は GPT-3.5 と SOTA のオープンソースコード補完モデルを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-29T19:57:36Z) - GrACE: Generation using Associated Code Edits [23.643567386291988]
プリトレーニング済みの大規模言語モデル(LLM)に,事前の関連編集の知識を付与する。
LLMの生成能力は、コード変更の多様性と、事前編集時のコード生成の条件付けに役立ちます。
Codex と CodeT5 の2つの有名な LLM を,ゼロショット設定と微調整設定でそれぞれ評価した。
論文 参考訳(メタデータ) (2023-05-23T14:55:44Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。
InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。
私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文 参考訳(メタデータ) (2022-04-12T16:25:26Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。