Fugu-MT 論文翻訳(概要): Neuron-level LLM Patching for Code Generation

論文の概要: Neuron-level LLM Patching for Code Generation

arxiv url: http://arxiv.org/abs/2312.05356v3
Date: Mon, 15 Apr 2024 07:31:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 23:07:44.911337
Title: Neuron-level LLM Patching for Code Generation
Title（参考訳）: コード生成のためのニューロンレベルのLDMパッチング
Authors: Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang,
Abstract要約: 大規模言語モデル(LLM)は、特にコード生成タスクにおいて、ソフトウェア工学において広く採用されている。コーディングタスクにおけるLLMにパッチを当てるために,新しい効率的なモデル編集手法であるtextscMENTを提案する。
参考スコア（独自算出の注目度）: 32.178931149612644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have found widespread adoption in software engineering, particularly in code generation tasks. However, updating these models with new knowledge can be prohibitively expensive, yet it is essential for maximizing their utility. In this paper, we propose a novel and effective model editing approach, \textsc{MENT}, to patch LLMs in coding tasks. \textsc{MENT} is effective, efficient, and reliable. It can correct a neural model by patching 1 or 2 neurons. As the pioneer work on neuron-level model editing of generative models, we formalize the editing process and introduce the involved concepts. Besides, we also introduce new measures to evaluate its generalization ability, and build a benchmark for further study. Our approach is evaluated on three coding tasks, including API-seq recommendation, line-level code generation, and pseudocode-to-code transaction. The experimental results show that the proposed approach outperforms the state of the arts by a significant margin in both effectiveness and efficiency measures. In addition, we demonstrate the usages of \textsc{MENT} for LLM reasoning in software engineering. By editing LLM knowledge, the directly or indirectly dependent behaviors of API invocation in the chain-of-thought will change accordingly. It explained the significance of repairing LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特にコード生成タスクにおいて、ソフトウェア工学において広く採用されている。しかし、これらのモデルを新しい知識で更新することは違法にコストがかかるが、それらの実用性を最大限にするためには不可欠である。本稿では,LLMをコーディングタスクに当てはめる新しい,効果的なモデル編集手法である「textsc{MENT}」を提案する。 textsc{MENT} は効率的で効率的で信頼性が高い。 1または2つのニューロンにパッチを当てることで、神経モデルを修正することができる。生成モデルのニューロンレベルモデル編集の先駆的な研究として、我々は編集プロセスを形式化し、関連する概念を紹介する。また、その一般化能力を評価するための新しい尺度を導入し、さらなる研究のためのベンチマークを構築した。提案手法は,API-seqレコメンデーション,行レベルのコード生成,擬似コード間トランザクションなど,3つのコーディングタスクで評価される。実験結果から, 提案手法は, 有効性および効率性の両方において, 最先端技術よりも優れた性能を示すことが示された。さらに,ソフトウェア工学における LLM 推論における \textsc{MENT} の使用例を示す。 LLMの知識を編集することで、API呼び出しの直接的または間接的な振る舞いは、それに従って変化する。 LLMの修復の重要性を説明した。

関連論文リスト

SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文参考訳（メタデータ） (2025-09-12T02:53:57Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
A Semantic-based Optimization Approach for Repairing LLMs: Case Study on Code Generation [32.178931149612644]
ulAnalytical ulRepair(textscSTAR)に対するulSemantic ulTargetingを提案する。
論文参考訳（メタデータ） (2025-03-17T07:59:42Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。 CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文参考訳（メタデータ） (2024-08-28T09:19:09Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T18:35:40Z)
ProSG: Using Prompt Synthetic Gradients to Alleviate Prompt Forgetting of RNN-like Language Models [0.0]
本稿では,合成勾配による生成過程におけるモデル記憶プロンプトを記憶するアーキテクチャを提案する。実験のためのデータセットを構築し,本手法の有効性を実証した。
論文参考訳（メタデータ） (2023-11-03T15:34:02Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
The Good, the Bad, and the Missing: Neural Code Generation for Machine Learning Tasks [11.837851107416588]
本稿では,既存のニューラルコード生成モデルが機械学習プログラミングタスクに与える影響について検討する。我々は6つの最先端のニューラルコード生成モデルを選択し、その性能を4つの広く使われているMLライブラリで評価する。私たちの経験的研究は、MLタスクにおけるニューラルネットワーク生成モデルの優れた、悪い、欠落した側面を明らかにします。
論文参考訳（メタデータ） (2023-05-16T00:52:02Z)
Greener yet Powerful: Taming Large Code Generation Models with Quantization [47.734976584580224]
事前訓練された大規模なディープラーニングモデルは、コード生成の境界を大幅に押し下げた。その大きな力にもかかわらず、膨大な数のモデルパラメータが、通常のソフトウェア開発環境でそれらを適用することに重大な脅威をもたらします。モデル圧縮はこれらの課題に対処するための有望なアプローチである。
論文参考訳（メタデータ） (2023-03-09T16:25:51Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
NeuroLogic A*esque Decoding: Constrained Text Generation with Lookahead Heuristics [73.96837492216204]
本稿では,将来のコスト見積を組み込んだ復号アルゴリズムであるNeuroLogic A*esqueを提案する。大規模言語モデルに効率的な効率的なルックアヘッドを開発する。提案手法は,5世代タスクにおける競合的ベースラインと,テーブル・トゥ・テキスト生成,制約された機械翻訳,キーワード制約付き生成における最先端性能を実現する。
論文参考訳（メタデータ） (2021-12-16T09:22:54Z)
Learning to Encode Position for Transformer with Continuous Dynamical Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文参考訳（メタデータ） (2020-03-13T00:41:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。