論文の概要: Quality In, Quality Out: Investigating Training Data's Role in AI Code Generation
- arxiv url: http://arxiv.org/abs/2503.11402v1
- Date: Fri, 14 Mar 2025 13:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:39.404022
- Title: Quality In, Quality Out: Investigating Training Data's Role in AI Code Generation
- Title(参考訳): 品質イン、品質アウト:AIコード生成におけるトレーニングデータの役割を探る
- Authors: Cristina Improta, Rosalia Tufano, Pietro Liguori, Domenico Cotroneo, Gabriele Bavota,
- Abstract要約: トレーニング中に見られた低品質のコードインスタンスが、推論時に生成されたコードの品質にどの程度影響するかを調査する。
微調整されたモデルを使って551kのPython関数を生成し、そのうち5.85%が少なくとも1つの品質問題の影響を受けていることを示す。
本研究は,コードジェネレータにおける高品質なトレーニングデータの重要性を実証的に裏付けるものである。
- 参考スコア(独自算出の注目度): 16.926896572942017
- License:
- Abstract: Deep Learning-based code generators have seen significant advancements in recent years. Tools such as GitHub Copilot are used by thousands of developers with the main promise of a boost in productivity. However, researchers have recently questioned their impact on code quality showing, for example, that code generated by DL-based tools may be affected by security vulnerabilities. Since DL models are trained on large code corpora, one may conjecture that low-quality code they output is the result of low-quality code they have seen during training. However, there is very little empirical evidence documenting this phenomenon. Indeed, most of previous work look at the frequency with which commercial code generators recommend low-quality code without the possibility of relating this to their training set. We investigate the extent to which low-quality code instances seen during training affect the quality of the code generated at inference time. We start by fine-tuning a pre-trained DL model on a large-scale dataset being representative of those usually adopted in the training of code generators. We show that 4.98% of functions in this dataset exhibit one or more quality issues related to security, maintainability, best practices, etc. We use the fine-tuned model to generate 551k Python functions, showing that 5.85% of them are affected by at least one quality issue. We then remove from the training set the low-quality functions, and use the cleaned dataset to fine-tune a second model which has been used to generate the same 551k Python functions. We show that the model trained on the cleaned dataset exhibits similar performance in terms of functional correctness as compared to the original model while, however, generating a statistically significant lower number of low-quality functions (2.16%). Our study empirically documents the importance of high-quality training data for code generators.
- Abstract(参考訳): 近年、ディープラーニングベースのコードジェネレータが大幅に進歩している。
GitHub Copilotのようなツールは何千人もの開発者が利用しており、生産性が向上するという主要な約束がある。
しかし、研究者は最近、コード品質への影響について疑問を投げかけており、例えば、DLベースのツールによって生成されたコードは、セキュリティ上の脆弱性の影響を受けている可能性がある。
DLモデルは、大規模なコードコーパスでトレーニングされているため、彼らが出力する低品質のコードは、トレーニング中に見た低品質のコードの結果である、と推測することができる。
しかし、この現象を裏付ける実証的な証拠はほとんどない。
実際、以前の作業のほとんどは、商用コードジェネレータがトレーニングセットに関連付けることなく、低品質なコードを推奨する頻度に注目しています。
トレーニング中に見られた低品質のコードインスタンスが、推論時に生成されたコードの品質にどの程度影響するかを調査する。
まず、コードジェネレータのトレーニングで通常採用されるデータセットの大規模なデータセット上で、事前トレーニング済みのDLモデルを微調整することから始める。
このデータセットの4.98%の関数は、セキュリティ、保守性、ベストプラクティスなどに関連する1つ以上の品質上の問題を示しています。
微調整されたモデルを使って551kのPython関数を生成し、そのうち5.85%が少なくとも1つの品質問題の影響を受けていることを示す。
次に、トレーニングセットから低品質の関数を取り除き、クリーン化されたデータセットを使用して、同じ551k Python関数を生成するために使用される第2のモデルを微調整します。
クリーン化データセットでトレーニングされたモデルは、元のモデルと同じような機能的正しさを示す一方で、統計的に有意な低品質関数数(2.16%)を生成する。
本研究は,コードジェネレータにおける高品質なトレーニングデータの重要性を実証的に裏付けるものである。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - CoRNStack: High-Quality Contrastive Data for Better Code Retrieval and Reranking [45.18877655831977]
CoRNStackは、複数のプログラミング言語にまたがるコードのための、大規模で高品質なコントラストトレーニングデータセットです。
このデータセットは、ノイズ正の除去のために一貫性フィルタリングを用いてキュレートされ、さらに硬い負のマイニングによって濃縮される。
我々は、CoRNStackを用いた埋め込みモデルの対照的なトレーニングが、様々なコード検索タスクにおける最先端のパフォーマンスをもたらすことを実証した。
論文 参考訳(メタデータ) (2024-12-01T23:54:12Z) - To Code, or Not To Code? Exploring Impact of Code in Pre-training [13.336902036852115]
一般性能に対するコードデータの影響を系統的に検討する。
コーディングタスクをはるかに超越した一般化のための重要なビルディングブロックがコードであることに気付きました。
私たちの研究は、事前トレーニング中のコード品質とコード保存への投資がポジティブな影響を与えることを示唆しています。
論文 参考訳(メタデータ) (2024-08-20T14:58:13Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T18:48:31Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。