論文の概要: Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation
- arxiv url: http://arxiv.org/abs/2312.05356v4
- Date: Tue, 6 Aug 2024 03:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 19:31:50.232545
- Title: Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation
- Title(参考訳): コード生成のための意味に基づくニューロンレベルの言語モデル修復
- Authors: Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang,
- Abstract要約: 大規模言語モデル(LLM)はすでにソフトウェア工学、特にコード生成タスクで広く採用されている。
コーディングタスクにおけるLLMの修復のための新しい効果的なモデル編集手法であるtextscMENTを提案する。
TextscMENTは、1つまたは2つのニューロンにパッチを当てることで神経モデルを修正することができる、効果的で効率的で信頼性の高いものだ。
- 参考スコア(独自算出の注目度): 32.178931149612644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have already gained widespread adoption in software engineering, particularly in code generation tasks. However, updating these models with new knowledge can be prohibitively expensive, yet it is essential to maximize their utility, such as implementing a hotfix technique to address urgent or critical LLM errors. In this paper, we propose \textsc{MENT}, a novel and effective model editing approach to repair LLMs in coding tasks. \textsc{MENT} is effective, efficient, and reliable, capable of correcting a neural model by patching just one or two neurons. As pioneering work on neuron-level model editing of generative models, we formalize the editing process and introduce the involved concepts. We also introduce new measures to evaluate its generalization ability and establish a benchmark for further study. Our approach is evaluated on three coding tasks: line-level code generation, shellcode generation, and intent-to-bash translation. The experimental results demonstrate that the proposed approach significantly outperforms the state-of-the-art in both effectiveness and efficiency measures. Furthermore, we showcase the applications of \textsc{MENT} for LLM reasoning in software engineering. By editing LLM knowledge, the directly or indirectly dependent behaviors of API invocation in the chain-of-thought change accordingly. This illustrates the significance of repairing LLMs in the context of software engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)はすでにソフトウェア工学、特にコード生成タスクで広く採用されている。
しかし、これらのモデルを新しい知識で更新することは違法にコストがかかるが、緊急またはクリティカルなLSMエラーに対処するためのホットフィックス技術を実装するなど、それらの実用性を最大化することが不可欠である。
本稿では,コーディングタスクにおけるLLMの修復のための新しい効果的なモデル編集手法である「textsc{MENT}」を提案する。
\textsc{MENT} は効果があり、効率的で信頼性があり、1つまたは2つのニューロンにパッチを当てることで神経モデルを修正することができる。
生成モデルのニューロンレベルモデル編集の先駆的な取り組みとして、編集プロセスの形式化と関連する概念の導入を行う。
また、その一般化能力を評価し、さらなる研究のためのベンチマークを確立するための新しい尺度も導入する。
提案手法は,行レベルのコード生成,シェルコード生成,インテント・ツー・バッシュ変換という3つのコーディングタスクで評価される。
実験の結果,提案手法は,有効性および効率性の両方において,最先端の手法を著しく上回っていることがわかった。
さらに,ソフトウェア工学における LLM 推論への \textsc{MENT} の適用について紹介する。
LLMの知識を編集することで、API呼び出しの直接的あるいは間接的な振る舞いは、それに応じて変化します。
このことは、ソフトウェア工学の文脈でLLMを修復することの重要性を示している。
関連論文リスト
- An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。
CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文 参考訳(メタデータ) (2024-08-28T09:19:09Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z) - ProSG: Using Prompt Synthetic Gradients to Alleviate Prompt Forgetting
of RNN-like Language Models [0.0]
本稿では,合成勾配による生成過程におけるモデル記憶プロンプトを記憶するアーキテクチャを提案する。
実験のためのデータセットを構築し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-11-03T15:34:02Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - The Good, the Bad, and the Missing: Neural Code Generation for Machine
Learning Tasks [11.837851107416588]
本稿では,既存のニューラルコード生成モデルが機械学習プログラミングタスクに与える影響について検討する。
我々は6つの最先端のニューラルコード生成モデルを選択し、その性能を4つの広く使われているMLライブラリで評価する。
私たちの経験的研究は、MLタスクにおけるニューラルネットワーク生成モデルの優れた、悪い、欠落した側面を明らかにします。
論文 参考訳(メタデータ) (2023-05-16T00:52:02Z) - Greener yet Powerful: Taming Large Code Generation Models with
Quantization [47.734976584580224]
事前訓練された大規模なディープラーニングモデルは、コード生成の境界を大幅に押し下げた。
その大きな力にもかかわらず、膨大な数のモデルパラメータが、通常のソフトウェア開発環境でそれらを適用することに重大な脅威をもたらします。
モデル圧縮はこれらの課題に対処するための有望なアプローチである。
論文 参考訳(メタデータ) (2023-03-09T16:25:51Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - NeuroLogic A*esque Decoding: Constrained Text Generation with Lookahead
Heuristics [73.96837492216204]
本稿では,将来のコスト見積を組み込んだ復号アルゴリズムであるNeuroLogic A*esqueを提案する。
大規模言語モデルに効率的な効率的なルックアヘッドを開発する。
提案手法は,5世代タスクにおける競合的ベースラインと,テーブル・トゥ・テキスト生成,制約された機械翻訳,キーワード制約付き生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T09:22:54Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。