論文の概要: Model Editing for LLMs4Code: How Far are We?
- arxiv url: http://arxiv.org/abs/2411.06638v1
- Date: Mon, 11 Nov 2024 00:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:48.048010
- Title: Model Editing for LLMs4Code: How Far are We?
- Title(参考訳): LLMs4Codeのためのモデル編集: どれくらい遠いか?
- Authors: Xiaopeng Li, Shangwen Wang, Shasha Li, Jun Ma, Jie Yu, Xiaodong Liu, Jing Wang, Bin Ji, Weimin Zhang,
- Abstract要約: LLMs4Code(Large Language Models for Code)は、ソフトウェア工学領域において優れたパフォーマンスを示す。
しかし、最も先進的なLLMs4Codeでさえ、必然的に誤りや時代遅れのコード知識を含むことができる。
モデル編集はLLMにおける誤った知識を効果的かつ効率的に修正するための新しい技術分野である。
- 参考スコア(独自算出の注目度): 15.966127307546374
- License:
- Abstract: Large Language Models for Code (LLMs4Code) have been found to exhibit outstanding performance in the software engineering domain, especially the remarkable performance in coding tasks. However, even the most advanced LLMs4Code can inevitably contain incorrect or outdated code knowledge. Due to the high cost of training LLMs4Code, it is impractical to re-train the models for fixing these problematic code knowledge. Model editing is a new technical field for effectively and efficiently correcting erroneous knowledge in LLMs, where various model editing techniques and benchmarks have been proposed recently. Despite that, a comprehensive study that thoroughly compares and analyzes the performance of the state-of-the-art model editing techniques for adapting the knowledge within LLMs4Code across various code-related tasks is notably absent. To bridge this gap, we perform the first systematic study on applying state-of-the-art model editing approaches to repair the inaccuracy of LLMs4Code. To that end, we introduce a benchmark named CLMEEval, which consists of two datasets, i.e., CoNaLa-Edit (CNLE) with 21K+ code generation samples and CodeSearchNet-Edit (CSNE) with 16K+ code summarization samples. With the help of CLMEEval, we evaluate six advanced model editing techniques on three LLMs4Code: CodeLlama (7B), CodeQwen1.5 (7B), and Stable-Code (3B). Our findings include that the external memorization-based GRACE approach achieves the best knowledge editing effectiveness and specificity (the editing does not influence untargeted knowledge), while generalization (whether the editing can generalize to other semantically-identical inputs) is a universal challenge for existing techniques. Furthermore, building on in-depth case analysis, we introduce an enhanced version of GRACE called A-GRACE, which incorporates contrastive learning to better capture the semantics of the inputs.
- Abstract(参考訳): LLMs4Code(Large Language Models for Code)は、ソフトウェア工学領域、特にコーディングタスクにおける顕著なパフォーマンスを示す。
しかし、最も先進的なLLMs4Codeでさえ、必然的に誤りや時代遅れのコード知識を含むことができる。
LLMs4Codeのトレーニングコストが高いため、これらの問題のあるコード知識を修正するためにモデルを再トレーニングするのは現実的ではない。
モデル編集はLLMにおける誤った知識を効果的かつ効率的に修正するための新しい技術分野であり、最近様々なモデル編集技術やベンチマークが提案されている。
それにもかかわらず、LLMs4Code内の知識を様々なコード関連タスクに適用するための最先端モデル編集技術の性能を徹底的に比較、分析する包括的な研究は、特に欠落している。
このギャップを埋めるために、我々は、LLMs4Codeの不正確性を修復するために最先端モデル編集アプローチを適用するための最初の体系的研究を行う。
CLMEEvalというベンチマークは,21K以上のコード生成サンプルを持つCoNaLa-Edit(CNLE)と16K以上のコード要約サンプルを持つCodeSearchNet-Edit(CSNE)の2つのデータセットで構成される。
CLMEEvalの助けを借りて,CodeLlama (7B), CodeQwen1.5 (7B), Stable-Code (3B)の3つのLLMs4Code上で,高度なモデル編集手法を6つ評価した。
その結果,外部記憶に基づく GRACE アプローチは,編集の有効性と特異性(編集が意図しない知識に影響を与えない)を最良に達成する一方で,一般化(編集が他の意味論的入力に一般化できるかどうか)は,既存の技術において普遍的な課題であることがわかった。
さらに、詳細なケース分析に基づいて、コントラスト学習を取り入れたA-GRACEと呼ばれるGRACEの強化版を導入し、入力のセマンティクスをよりよく把握する。
関連論文リスト
- What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
大規模言語モデル(LLM)はすでにソフトウェア工学、特にコード生成タスクで広く採用されている。
コーディングタスクにおけるLLMの修復のための新しい効果的なモデル編集手法であるtextscMENTを提案する。
TextscMENTは、1つまたは2つのニューロンにパッチを当てることで神経モデルを修正することができる、効果的で効率的で信頼性の高いものだ。
論文 参考訳(メタデータ) (2023-12-08T20:28:08Z) - InstructCoder: Instruction Tuning Large Language Models for Code Editing [26.160498475809266]
ユーザインストラクションに基づいたコード編集にLLM(Large Language Models)を用いる方法について検討する。
InstructCoderは、汎用コード編集にLLMを適用するために設計された最初の命令チューニングデータセットである。
InstructCoderで微調整されたオープンソースのLLMは、コード編集の精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-31T10:15:35Z) - GrACE: Generation using Associated Code Edits [23.643567386291988]
プリトレーニング済みの大規模言語モデル(LLM)に,事前の関連編集の知識を付与する。
LLMの生成能力は、コード変更の多様性と、事前編集時のコード生成の条件付けに役立ちます。
Codex と CodeT5 の2つの有名な LLM を,ゼロショット設定と微調整設定でそれぞれ評価した。
論文 参考訳(メタデータ) (2023-05-23T14:55:44Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。