論文の概要: On the Effectiveness of Training Data Optimization for LLM-based Code Generation: An Empirical Study
- arxiv url: http://arxiv.org/abs/2512.24570v1
- Date: Wed, 31 Dec 2025 02:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.54174
- Title: On the Effectiveness of Training Data Optimization for LLM-based Code Generation: An Empirical Study
- Title(参考訳): LLMに基づくコード生成のためのトレーニングデータ最適化の有効性に関する実証的研究
- Authors: Shiqi Kuang, Zhao Tian, Tao Xiao, Dong Wang, Junjie Chen,
- Abstract要約: データ合成は、機能的正しさを改善し、コードの臭いを減らすための最も効果的なテクニックである。
データとデータを組み合わせることで、全体的なパフォーマンスが最も高い。
この作業は、トレーニングデータ最適化と組み合わせ戦略の体系的な理解に向けた第一歩です。
- 参考スコア(独自算出の注目度): 14.089680223493842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress in code generation, largely driven by the availability of high-quality code datasets for effective training. To further improve data quality, numerous training data optimization techniques have been proposed; however, their overall effectiveness has not been systematically evaluated. To bridge this gap, we conduct the first large-scale empirical study, examining five widely-used training data optimization techniques and their pairwise combinations for LLM-based code generation across three benchmarks and four LLMs. Our results show that data synthesis is the most effective technique for improving functional correctness and reducing code smells, although it performs relatively worse on code maintainability compared to data refactoring, cleaning, and selection. Regarding combinations, we find that most combinations do not further improve functional correctness but can effectively enhance code quality (code smells and maintainability). Among all combinations, data synthesis combined with data refactoring achieves the strongest overall performance. Furthermore, our fine-grained analysis reinforces these findings and provides deeper insights into how individual techniques and their combinations influence code generation effectiveness. Overall, this work represents a first step toward a systematic understanding of training data optimization and combination strategies, offering practical guidance for future research and deployment in LLM-based code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げている。
データ品質をさらに向上させるために、多くのトレーニングデータ最適化手法が提案されているが、その全体的な効果は体系的に評価されていない。
このギャップを埋めるために、我々は5つの広く使われているトレーニングデータ最適化手法と、3つのベンチマークと4つのLLMをまたいだLLMベースのコード生成のためのペアワイズ組み合わせについて、最初の大規模な実証的研究を行った。
以上の結果から,データ合成は,データのリファクタリングやクリーニング,選択よりもコードの保守性に悪影響を及ぼすが,機能的正しさの向上やコードの臭いの低減に最も有効な手法であることが示唆された。
組み合わせに関して言えば、ほとんどの組み合わせは機能的正しさをさらに向上するのではなく、コード品質(コードの臭いと保守性)を効果的に向上させることができる。
すべての組み合わせの中で、データ合成とデータリファクタリングが組み合わさって、全体的なパフォーマンスが最も高い。
さらに、粒度の細かい分析によってこれらの知見が強化され、個々のテクニックとそれらの組み合わせがコード生成の有効性に与える影響についてより深い洞察が得られます。
全体として、この研究はデータ最適化と組み合わせ戦略の体系的な理解に向けた第一歩であり、LCMベースのコード生成における将来の研究と展開のための実践的なガイダンスを提供する。
関連論文リスト
- Enhancing LLM Code Generation: A Systematic Evaluation of Multi-Agent Collaboration and Runtime Debugging for Improved Accuracy, Reliability, and Latency [0.0]
プログラミング活動の異なる構成や訓練パラダイムがコード生成の効率に与える影響について検討する。
私たちの発見は、堅牢なAI駆動型コーディングソリューションを求める組織に貴重な洞察を与えます。
論文 参考訳(メタデータ) (2025-05-04T14:44:27Z) - Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs [1.8838588087156363]
本稿では,コード生成型大規模言語モデル(LLM)の微調整について検討する。
我々は,シンボル実行手法の助けを借りて,報酬モデルのトレーニングデータを強化する。
このデータセットを微調整した報奨モデルでは、ベースラインであるCodeRLよりも大幅に改善されていることが示されています。
論文 参考訳(メタデータ) (2025-04-21T16:29:07Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning [4.975728472540823]
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。
実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
論文 参考訳(メタデータ) (2024-07-06T10:30:43Z) - Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。
実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。