論文の概要: Neuron Patching: Neuron-level Model Editing on Code Generation and LLMs
- arxiv url: http://arxiv.org/abs/2312.05356v2
- Date: Fri, 2 Feb 2024 04:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:03:09.359719
- Title: Neuron Patching: Neuron-level Model Editing on Code Generation and LLMs
- Title(参考訳): ニューロンパッチング:コード生成とLLMによるニューロンレベルのモデル編集
- Authors: Jian Gu, Chunyang Chen, Aldeida Aleti
- Abstract要約: 大規模言語モデルはソフトウェア工学、特にコード生成においてうまく採用されている。
コーディングタスクにおけるLLMにパッチを当てるために,新しい効率的なモデル編集手法であるtextscMENTを提案する。
textscMENTは、効果的で、効率的で、信頼性が高い。1つまたは2つのニューロンにパッチを当てることで、神経モデルを修正することができる。
- 参考スコア(独自算出の注目度): 29.55309950026882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are successfully adopted in software engineering,
especially in code generation. Updating these models with new knowledge is very
expensive, and is often required to fully realize their value. In this paper,
we propose a novel and effective model editing approach, \textsc{MENT}, to
patch LLMs in coding tasks. Based on the mechanism of generative LLMs,
\textsc{MENT} enables model editing in next-token predictions, and further
supports common coding tasks. \textsc{MENT} is effective, efficient, and
reliable. It can correct a neural model by patching 1 or 2 neurons. As the
pioneer work on neuron-level model editing of generative models, we formalize
the editing process and introduce the involved concepts. Besides, we also
introduce new measures to evaluate its generalization ability, and build a
benchmark for further study. Our approach is evaluated on three coding tasks,
including API-seq recommendation, line-level code generation, and
pseudocode-to-code transaction. It outperforms the state-of-the-art by a
significant margin on both effectiveness and efficiency measures. In addition,
we demonstrate the usages of \textsc{MENT} for LLM reasoning in software
engineering. By editing the LLM knowledge with \textsc{MENT}, the directly or
indirectly dependent behaviors in the chain-of-thought change accordingly and
automatically.
- Abstract(参考訳): 大規模言語モデルはソフトウェア工学、特にコード生成においてうまく採用されている。
これらのモデルを新しい知識で更新することは、非常に高価であり、しばしばその価値を完全に実現するために必要となる。
本稿では,LLMをコーディングタスクに当てはめる新しい,効果的なモデル編集手法である「textsc{MENT}」を提案する。
生成LDMのメカニズムに基づいて、次のトーケン予測におけるモデル編集を可能にし、共通のコーディングタスクをさらにサポートする。
\textsc{ment} は効率的、効率的、信頼性がある。
1または2つのニューロンをパッチすることで神経モデルを修正することができる。
生成モデルのニューロンレベルモデル編集の先駆的研究として,編集過程を定式化し,関連する概念を紹介する。
また,その一般化能力を評価するための新しい尺度を導入し,さらなる研究のためのベンチマークを構築した。
提案手法は,API-seqレコメンデーション,行レベルのコード生成,擬似コード間トランザクションなど,3つのコーディングタスクで評価される。
効率性と効率性の両方において、最先端を著しく上回っている。
さらに,ソフトウェア工学における LLM 推論における \textsc{MENT} の使用例を示す。
LLMの知識をtextsc{MENT}で編集することで、直接的または間接的に依存する行動は、自動的に変化する。
関連論文リスト
- An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。
CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文 参考訳(メタデータ) (2024-08-28T09:19:09Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z) - ProSG: Using Prompt Synthetic Gradients to Alleviate Prompt Forgetting
of RNN-like Language Models [0.0]
本稿では,合成勾配による生成過程におけるモデル記憶プロンプトを記憶するアーキテクチャを提案する。
実験のためのデータセットを構築し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-11-03T15:34:02Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - The Good, the Bad, and the Missing: Neural Code Generation for Machine
Learning Tasks [11.837851107416588]
本稿では,既存のニューラルコード生成モデルが機械学習プログラミングタスクに与える影響について検討する。
我々は6つの最先端のニューラルコード生成モデルを選択し、その性能を4つの広く使われているMLライブラリで評価する。
私たちの経験的研究は、MLタスクにおけるニューラルネットワーク生成モデルの優れた、悪い、欠落した側面を明らかにします。
論文 参考訳(メタデータ) (2023-05-16T00:52:02Z) - Greener yet Powerful: Taming Large Code Generation Models with
Quantization [47.734976584580224]
事前訓練された大規模なディープラーニングモデルは、コード生成の境界を大幅に押し下げた。
その大きな力にもかかわらず、膨大な数のモデルパラメータが、通常のソフトウェア開発環境でそれらを適用することに重大な脅威をもたらします。
モデル圧縮はこれらの課題に対処するための有望なアプローチである。
論文 参考訳(メタデータ) (2023-03-09T16:25:51Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - NeuroLogic A*esque Decoding: Constrained Text Generation with Lookahead
Heuristics [73.96837492216204]
本稿では,将来のコスト見積を組み込んだ復号アルゴリズムであるNeuroLogic A*esqueを提案する。
大規模言語モデルに効率的な効率的なルックアヘッドを開発する。
提案手法は,5世代タスクにおける競合的ベースラインと,テーブル・トゥ・テキスト生成,制約された機械翻訳,キーワード制約付き生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T09:22:54Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。