論文の概要: CodeUpdateArena: Benchmarking Knowledge Editing on API Updates
- arxiv url: http://arxiv.org/abs/2407.06249v1
- Date: Mon, 8 Jul 2024 17:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 22:22:56.631483
- Title: CodeUpdateArena: Benchmarking Knowledge Editing on API Updates
- Title(参考訳): CodeUpdateArena: APIアップデートに関する知識のベンチマーク
- Authors: Zeyu Leo Liu, Shrey Pandit, Xi Ye, Eunsol Choi, Greg Durrett,
- Abstract要約: コードドメインの知識編集のためのベンチマークであるCodeUpdateArenaを提示する。
私たちのベンチマークのインスタンスは、プログラム合成例と組み合わせた合成API関数のアップデートで構成されています。
ベンチマークでは、7つのPythonパッケージから54の関数へ、さまざまなタイプの更新をカバーしています。
- 参考スコア(独自算出の注目度): 77.81663273436375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly being used to synthesize and reason about source code. However, the static nature of these models' knowledge does not reflect the fact that libraries and API functions they invoke are continuously evolving, with functionality being added or changing. While numerous benchmarks evaluate how LLMs can generate code, no prior work has studied how an LLMs' knowledge about code API functions can be updated. To fill this gap, we present CodeUpdateArena, a benchmark for knowledge editing in the code domain. An instance in our benchmark consists of a synthetic API function update paired with a program synthesis example that uses the updated functionality; our goal is to update an LLM to be able to solve this program synthesis example without providing documentation of the update at inference time. Compared to knowledge editing for facts encoded in text, success here is more challenging: a code LLM must correctly reason about the semantics of the modified function rather than just reproduce its syntax. Our dataset is constructed by first prompting GPT-4 to generate atomic and executable function updates. Then, for each update, we generate program synthesis examples whose code solutions are prone to use the update. Our benchmark covers updates of various types to 54 functions from seven diverse Python packages, with a total of 670 program synthesis examples. Our experiments show that prepending documentation of the update to open-source code LLMs (i.e., DeepSeek, CodeLlama) does not allow them to incorporate changes for problem solving, and existing knowledge editing techniques also have substantial room for improvement. We hope our benchmark will inspire new methods for knowledge updating in code LLMs.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、ソースコードの合成と推論にますます使われている。
しかし、これらのモデルの知識の静的な性質は、それらが呼び出すライブラリやAPI関数が継続的に進化しているという事実を反映していない。
多くのベンチマークでは、LLMがコードを生成する方法が評価されているが、LLMのコードAPI機能に関する知識がどのように更新されるかについて、事前の研究は行われていない。
このギャップを埋めるために、コードドメインの知識編集のためのベンチマークであるCodeUpdateArenaを紹介します。
私たちのベンチマークのインスタンスは、更新された機能を使用するプログラム合成例と組み合わせた合成API関数のアップデートで構成されています。
テキストでエンコードされた事実の知識編集と比較すると、成功はもっと難しい。コードLLMは、単に構文を再現するのではなく、修正された関数のセマンティクスを正しく推論しなければならない。
我々のデータセットは、まず、GPT-4にアトミックかつ実行可能な関数更新を生成するよう促すことで構築される。
そして、更新毎に、コードソリューションが更新を利用する傾向にあるプログラム合成例を生成します。
ベンチマークでは、7つのPythonパッケージから54の関数に、合計670のプログラム合成例を更新する。
我々の実験によると、オープンソースのLLM(DeepSeek、CodeLlama)へのアップデートの事前資料は、問題解決のための変更を組み込むことができず、既存の知識編集技術にも改善の余地があることが示されている。
我々のベンチマークは、コードLLMの知識更新のための新しいメソッドを刺激することを期待しています。
関連論文リスト
- Exploring the Capabilities of LLMs for Code Change Related Tasks [14.261870410238643]
大規模言語モデル(LLM)は、コードに関連するタスクにおいてその効果を示す。
LLMは2つのコードバージョンの違いよりも、一般的なコード構文とセマンティクスに重点を置いている。
我々は,3つのコード変更関連タスクに対して,テキストグレーター1BパラメータLPMを用いた実証的研究を行った。
論文 参考訳(メタデータ) (2024-07-03T05:49:18Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions [6.367360745627828]
コード編集タスクのベンチマークを導入し、それをいくつかの最先端LCMの評価に利用する。
我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。
我々は、自然言語命令と組み合わされたコード編集タスクの新しい、慎重にキュレートされ、パーミッシブにライセンスされたトレーニングデータセットを導入する。
論文 参考訳(メタデータ) (2023-12-11T02:27:45Z) - Neuron-level LLM Patching for Code Generation [32.178931149612644]
大規模言語モデル(LLM)は、特にコード生成タスクにおいて、ソフトウェア工学において広く採用されている。
コーディングタスクにおけるLLMにパッチを当てるために,新しい効率的なモデル編集手法であるtextscMENTを提案する。
論文 参考訳(メタデータ) (2023-12-08T20:28:08Z) - InstructCoder: Instruction Tuning Large Language Models for Code Editing [26.160498475809266]
ユーザインストラクションに基づいたコード編集にLLM(Large Language Models)を用いる方法について検討する。
InstructCoderは、汎用コード編集にLLMを適用するために設計された最初の命令チューニングデータセットである。
InstructCoderで微調整されたオープンソースのLLMは、コード編集の精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-31T10:15:35Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Automatically Recommend Code Updates: Are We There Yet? [14.997510035210842]
本稿では,コード更新を自動的に推奨する最先端のCodeLMを初めて評価する。
その結果,CodeLMは時間的情報を無視した設定では良好に動作しているが,より現実的な時間的シナリオでは困難であることがわかった。
本研究は,実世界のコード更新レコメンデーションにおいて,CodeLMの認識と実際の有効性の間に有意なギャップがあることを明らかにする。
論文 参考訳(メタデータ) (2022-09-15T05:07:25Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。