論文の概要: Hotfixing Large Language Models for Code
- arxiv url: http://arxiv.org/abs/2408.05727v4
- Date: Wed, 6 Nov 2024 14:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 11:49:24.887614
- Title: Hotfixing Large Language Models for Code
- Title(参考訳): コードのための大規模言語モデルのホットフィックス
- Authors: Zhou Yang, David Lo,
- Abstract要約: コードのための大規模言語モデル(LLM4Code)は、コード補完や生成といったタスクを補助し、開発者の不可欠な部分となっている。
これらのモデルは、バグの多いコードを生成するなど、リリース後に望ましくない振る舞いを示す。
本稿では,LLM4Codeをホットフィックスすることで,バグの少ないコードとより固定的なコードを生成することに焦点を当てる。
- 参考スコア(独自算出の注目度): 8.243596444097506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models for Code (LLM4Code) have become an integral part of developers' workflows, assisting with tasks such as code completion and generation. However, these models are found to exhibit undesired behaviors after their release, like generating buggy code, due to their extensive training on vast amounts of source code that contain such buggy code. The training data (usually coming from open-source software) keeps evolving, e.g., developers fix the buggy code. However, adapting such evolution to mitigate LLM4Code's undesired behaviors is non-trivial, as retraining models on the updated dataset usually takes much time and resources. This motivates us to propose the concept of hotfixing LLM4Code, mitigating LLM4Code's undesired behaviors effectively and efficiently with minimal negative effects. This paper mainly focuses on hotfixing LLM4Code to make them generate less buggy code and more fixed code. We begin by demonstrating that models from the popular CodeGen family frequently generate buggy code. Then, we define three learning objectives in hotfixing and design multiple loss functions for each objective: (1) learn the desired behaviors, (2) unlearn the undesired behaviors, and (3) retain knowledge of other code. We evaluate four different fine-tuning techniques for hotfixing the models and gain the following insights. Optimizing these three learning goals together, using LoRA (low-rank adaptation), effectively influences the model's behavior. Specifically, it increases the generation of fixed code by up to 108.42% and decreases the generation of buggy code by up to 50.47%. Statistical tests confirm that hotfixing does not significantly affect the models' functional correctness on the HumanEval benchmark. Additionally, to evaluate the generalizability of hotfixing by reducing the exposure of email addresses by 99.30%.
- Abstract(参考訳): コードのための大規模言語モデル(LLM4Code)は開発者のワークフローの不可欠な部分となり、コード補完や生成などのタスクを支援している。
しかし、これらのモデルは、バグの多いコードを含む大量のソースコードを広範囲にトレーニングしたために、バグの多いコードを生成するなど、リリース後に望ましくない振る舞いを示す。
トレーニングデータ(通常、オープンソースソフトウェアから来る)は進化を続けており、例えば、開発者はバグの多いコードを修正します。
しかしながら、LLM4Codeの望ましくない振る舞いを軽減するためにこのような進化を適用することは、簡単ではない。
このことは、LLM4Codeの望ましくない振る舞いを最小限の負の効果で効果的かつ効率的に緩和する、LLM4Codeのホットフィックスの概念を提案する動機である。
本稿では,LLM4Codeをホットフィックスすることで,バグの少ないコードとより固定的なコードを生成することに焦点を当てる。
私たちは、人気のあるCodeGenファミリのモデルが頻繁にバグのあるコードを生成することを実証することから始めます。
そこで,本研究では,(1)所望の動作を学習し,(2)望ましくない動作を学習し,(3)他のコードの知識を保持する,という3つの学習目標を定義した。
モデルをホットフィックスするための4つの異なる微調整手法を評価し,以下の知見を得た。
LoRA(低ランク適応)を用いてこれら3つの学習目標を同時に最適化することは、モデルの振る舞いに効果的に影響を及ぼす。
具体的には、固定コードの生成を最大108.42%増加させ、バグコードの生成を最大50.47%減少させる。
統計テストでは、HumanEvalベンチマークにおいてホットフィックスがモデルの機能的正しさに悪影響を及ぼさないことが確認された。
さらに、メールアドレスの露出を99.30%減らし、ホットフィックスの一般化性を評価する。
関連論文リスト
- CodeLutra: Boosting LLM Code Generation via Preference-Guided Refinement [32.46078765471136]
我々は、低パフォーマンスな大規模言語モデルを強化する新しいフレームワークであるCodeLutraを紹介する。
従来の微調整とは異なり、CodeLutraは正しい解と間違った解を比較するために反復的な選好学習メカニズムを採用している。
挑戦的なデータ分析タスクでは、わずか500個のサンプルを使用して、Llama-3-8Bの精度を28.2%から48.6%に改善し、GPT-4の性能に接近した。
論文 参考訳(メタデータ) (2024-11-07T21:51:07Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - To Code, or Not To Code? Exploring Impact of Code in Pre-training [13.336902036852115]
一般性能に対するコードデータの影響を系統的に検討する。
コーディングタスクをはるかに超越した一般化のための重要なビルディングブロックがコードであることに気付きました。
私たちの研究は、事前トレーニング中のコード品質とコード保存への投資がポジティブな影響を与えることを示唆しています。
論文 参考訳(メタデータ) (2024-08-20T14:58:13Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - CYCLE: Learning to Self-Refine the Code Generation [19.71833229434497]
本稿では,CYCLEフレームワークを提案する。
350M, 1B, 2B, 3B のベンチマークで, パラメータ数が異なる CYCLE の4つの変種を実装した。
その結果、CYCLEは一度のコード生成の品質を維持し、時には改善すると同時に、コードLMの自己抑制能力を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2024-03-27T16:45:02Z) - GenCode: A Generic Data Augmentation Framework for Boosting Deep Learning-Based Code Understanding [28.02426812004216]
我々は、コード理解モデルのトレーニングを強化するために、汎用データ拡張フレームワークGenCodeを導入する。
GenCodeの有効性を評価するため、4つのコード理解タスクと3つの事前学習されたコードモデルの実験を行った。
最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。
論文 参考訳(メタデータ) (2024-02-24T08:57:12Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - CCT5: A Code-Change-Oriented Pre-Trained Model [14.225942520238936]
我々は、ソフトウェアメンテナンスにおける開発者のサポートを改善するために、コード変更用に特別に設計されたモデルを事前訓練することを提案する。
まず、1.5M以上のコード変更とコミットメッセージのペアデータを含む大規模なデータセットを収集します。
トレーニング済みのモデルであるCCT5を、コードの変更とコードレビュープロセスに特有の2つのタスクによって引き起こされる3つの広範囲に分散したタスクで微調整する。
論文 参考訳(メタデータ) (2023-05-18T07:55:37Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。