Fugu-MT 論文翻訳(概要): Quality In, Quality Out: Investigating Training Data's Role in AI Code Generation

論文の概要: Quality In, Quality Out: Investigating Training Data's Role in AI Code Generation

arxiv url: http://arxiv.org/abs/2503.11402v1
Date: Fri, 14 Mar 2025 13:43:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.341484
Title: Quality In, Quality Out: Investigating Training Data's Role in AI Code Generation
Title（参考訳）: 品質イン、品質アウト:AIコード生成におけるトレーニングデータの役割を探る
Authors: Cristina Improta, Rosalia Tufano, Pietro Liguori, Domenico Cotroneo, Gabriele Bavota,
Abstract要約: トレーニング中に見られた低品質のコードインスタンスが、推論時に生成されたコードの品質にどの程度影響するかを調査する。微調整されたモデルを使って551kのPython関数を生成し、そのうち5.85%が少なくとも1つの品質問題の影響を受けていることを示す。本研究は,コードジェネレータにおける高品質なトレーニングデータの重要性を実証的に裏付けるものである。
参考スコア（独自算出の注目度）: 16.926896572942017
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Learning-based code generators have seen significant advancements in recent years. Tools such as GitHub Copilot are used by thousands of developers with the main promise of a boost in productivity. However, researchers have recently questioned their impact on code quality showing, for example, that code generated by DL-based tools may be affected by security vulnerabilities. Since DL models are trained on large code corpora, one may conjecture that low-quality code they output is the result of low-quality code they have seen during training. However, there is very little empirical evidence documenting this phenomenon. Indeed, most of previous work look at the frequency with which commercial code generators recommend low-quality code without the possibility of relating this to their training set. We investigate the extent to which low-quality code instances seen during training affect the quality of the code generated at inference time. We start by fine-tuning a pre-trained DL model on a large-scale dataset being representative of those usually adopted in the training of code generators. We show that 4.98% of functions in this dataset exhibit one or more quality issues related to security, maintainability, best practices, etc. We use the fine-tuned model to generate 551k Python functions, showing that 5.85% of them are affected by at least one quality issue. We then remove from the training set the low-quality functions, and use the cleaned dataset to fine-tune a second model which has been used to generate the same 551k Python functions. We show that the model trained on the cleaned dataset exhibits similar performance in terms of functional correctness as compared to the original model while, however, generating a statistically significant lower number of low-quality functions (2.16%). Our study empirically documents the importance of high-quality training data for code generators.
Abstract（参考訳）: 近年、ディープラーニングベースのコードジェネレータが大幅に進歩している。 GitHub Copilotのようなツールは何千人もの開発者が利用しており、生産性が向上するという主要な約束がある。しかし、研究者は最近、コード品質への影響について疑問を投げかけており、例えば、DLベースのツールによって生成されたコードは、セキュリティ上の脆弱性の影響を受けている可能性がある。 DLモデルは、大規模なコードコーパスでトレーニングされているため、彼らが出力する低品質のコードは、トレーニング中に見た低品質のコードの結果である、と推測することができる。しかし、この現象を裏付ける実証的な証拠はほとんどない。実際、以前の作業のほとんどは、商用コードジェネレータがトレーニングセットに関連付けることなく、低品質なコードを推奨する頻度に注目しています。トレーニング中に見られた低品質のコードインスタンスが、推論時に生成されたコードの品質にどの程度影響するかを調査する。まず、コードジェネレータのトレーニングで通常採用されるデータセットの大規模なデータセット上で、事前トレーニング済みのDLモデルを微調整することから始める。このデータセットの4.98%の関数は、セキュリティ、保守性、ベストプラクティスなどに関連する1つ以上の品質上の問題を示しています。微調整されたモデルを使って551kのPython関数を生成し、そのうち5.85%が少なくとも1つの品質問題の影響を受けていることを示す。次に、トレーニングセットから低品質の関数を取り除き、クリーン化されたデータセットを使用して、同じ551k Python関数を生成するために使用される第2のモデルを微調整します。クリーン化データセットでトレーニングされたモデルは、元のモデルと同じような機能的正しさを示す一方で、統計的に有意な低品質関数数(2.16%)を生成する。本研究は,コードジェネレータにおける高品質なトレーニングデータの重要性を実証的に裏付けるものである。

関連論文リスト

Enhancing High-Quality Code Generation in Large Language Models with Comparative Prefix-Tuning [19.53507218261719]
大型言語モデル(LLM)は商用コード補完エンジンで広く採用されている。 LLMは、コーディング標準に違反した品質の問題のあるコードを生成する。制御可能な高品質コード生成のための新しい比較プレフィックスチューニング法を提案する。
論文参考訳（メタデータ） (2025-03-12T03:15:46Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
To Code, or Not To Code? Exploring Impact of Code in Pre-training [13.336902036852115]
一般性能に対するコードデータの影響を系統的に検討する。コーディングタスクをはるかに超越した一般化のための重要なビルディングブロックがコードであることに気付きました。私たちの研究は、事前トレーニング中のコード品質とコード保存への投資がポジティブな影響を与えることを示唆しています。
論文参考訳（メタデータ） (2024-08-20T14:58:13Z)
Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文参考訳（メタデータ） (2024-04-22T15:54:53Z)
GenCode: A Generic Data Augmentation Framework for Boosting Deep Learning-Based Code Understanding [28.02426812004216]
我々は、コード理解モデルのトレーニングを強化するために、汎用データ拡張フレームワークGenCodeを導入する。 GenCodeの有効性を評価するため、4つのコード理解タスクと3つの事前学習されたコードモデルの実験を行った。最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。
論文参考訳（メタデータ） (2024-02-24T08:57:12Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Towards Efficient Fine-tuning of Pre-trained Code Models: An Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文参考訳（メタデータ） (2023-04-11T13:34:13Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。