論文の概要: Neuron Patching: Neuron-level Model Editing on Code Generation and LLMs
- arxiv url: http://arxiv.org/abs/2312.05356v2
- Date: Fri, 2 Feb 2024 04:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:03:09.359719
- Title: Neuron Patching: Neuron-level Model Editing on Code Generation and LLMs
- Title(参考訳): ニューロンパッチング:コード生成とLLMによるニューロンレベルのモデル編集
- Authors: Jian Gu, Chunyang Chen, Aldeida Aleti
- Abstract要約: 大規模言語モデルはソフトウェア工学、特にコード生成においてうまく採用されている。
コーディングタスクにおけるLLMにパッチを当てるために,新しい効率的なモデル編集手法であるtextscMENTを提案する。
textscMENTは、効果的で、効率的で、信頼性が高い。1つまたは2つのニューロンにパッチを当てることで、神経モデルを修正することができる。
- 参考スコア(独自算出の注目度): 29.55309950026882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are successfully adopted in software engineering,
especially in code generation. Updating these models with new knowledge is very
expensive, and is often required to fully realize their value. In this paper,
we propose a novel and effective model editing approach, \textsc{MENT}, to
patch LLMs in coding tasks. Based on the mechanism of generative LLMs,
\textsc{MENT} enables model editing in next-token predictions, and further
supports common coding tasks. \textsc{MENT} is effective, efficient, and
reliable. It can correct a neural model by patching 1 or 2 neurons. As the
pioneer work on neuron-level model editing of generative models, we formalize
the editing process and introduce the involved concepts. Besides, we also
introduce new measures to evaluate its generalization ability, and build a
benchmark for further study. Our approach is evaluated on three coding tasks,
including API-seq recommendation, line-level code generation, and
pseudocode-to-code transaction. It outperforms the state-of-the-art by a
significant margin on both effectiveness and efficiency measures. In addition,
we demonstrate the usages of \textsc{MENT} for LLM reasoning in software
engineering. By editing the LLM knowledge with \textsc{MENT}, the directly or
indirectly dependent behaviors in the chain-of-thought change accordingly and
automatically.
- Abstract(参考訳): 大規模言語モデルはソフトウェア工学、特にコード生成においてうまく採用されている。
これらのモデルを新しい知識で更新することは、非常に高価であり、しばしばその価値を完全に実現するために必要となる。
本稿では,LLMをコーディングタスクに当てはめる新しい,効果的なモデル編集手法である「textsc{MENT}」を提案する。
生成LDMのメカニズムに基づいて、次のトーケン予測におけるモデル編集を可能にし、共通のコーディングタスクをさらにサポートする。
\textsc{ment} は効率的、効率的、信頼性がある。
1または2つのニューロンをパッチすることで神経モデルを修正することができる。
生成モデルのニューロンレベルモデル編集の先駆的研究として,編集過程を定式化し,関連する概念を紹介する。
また,その一般化能力を評価するための新しい尺度を導入し,さらなる研究のためのベンチマークを構築した。
提案手法は,API-seqレコメンデーション,行レベルのコード生成,擬似コード間トランザクションなど,3つのコーディングタスクで評価される。
効率性と効率性の両方において、最先端を著しく上回っている。
さらに,ソフトウェア工学における LLM 推論における \textsc{MENT} の使用例を示す。
LLMの知識をtextsc{MENT}で編集することで、直接的または間接的に依存する行動は、自動的に変化する。
関連論文リスト
- Editing Conceptual Knowledge for Large Language Models [67.8410749469755]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。
本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。
実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (2024-03-10T16:57:10Z) - ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained
Language Models for Question Answering over Knowledge Graph [142.42275983201978]
本稿では,構造化推論を行うためのGNNを模倣するサブグラフ認識型自己認識機構を提案する。
また、モデルパラメータを2万のサブグラフで合成した質問に適応するための適応チューニング戦略も採用する。
実験により、ReasoningLMは、更新されたパラメータが少なく、トレーニングデータが少ない場合でも、最先端のモデルを大きなマージンで上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-30T07:18:54Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Massive Editing for Large Language Models via Meta Learning [27.972194696587813]
大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にするが、取得した知識は時間とともに根本的に誤りまたは時代遅れになる可能性がある。
パラメータシフト集約を最小二乗問題として定式化するMALMEN(Massive Language Model Editing Network)を提案する。
提案手法は, BERTベース, GPT-2, T5-XL (2.8B), GPT-J (6B) などの異なるアーキテクチャを持つLM上で, 数千件の事実を編集して評価する。
論文 参考訳(メタデータ) (2023-11-08T13:03:06Z) - Graph Neural Prompting with Large Language Models [32.97391910476073]
Graph Neural Prompting (GNP)は、知識グラフから有益な知識を学ぶために、事前訓練された言語モデルを支援するための新しいプラグアンドプレイ方式である。
複数のデータセットに対する大規模な実験は、常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。
論文 参考訳(メタデータ) (2023-09-27T06:33:29Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z) - The Good, the Bad, and the Missing: Neural Code Generation for Machine
Learning Tasks [11.837851107416588]
本稿では,既存のニューラルコード生成モデルが機械学習プログラミングタスクに与える影響について検討する。
我々は6つの最先端のニューラルコード生成モデルを選択し、その性能を4つの広く使われているMLライブラリで評価する。
私たちの経験的研究は、MLタスクにおけるニューラルネットワーク生成モデルの優れた、悪い、欠落した側面を明らかにします。
論文 参考訳(メタデータ) (2023-05-16T00:52:02Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Unsupervised Learning of General-Purpose Embeddings for Code Changes [6.652641137999891]
事前学習中にコード変更の埋め込みを得る手法を提案する。
コードの変更とコミットメッセージ生成という、2つの異なる下流タスクでそれらを評価します。
本モデルでは,完全編集シーケンスを用いたモデルの精度を5.9ポイント向上させる。
論文 参考訳(メタデータ) (2021-06-03T19:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。