論文の概要: LLM-Assisted Code Cleaning For Training Accurate Code Generators
- arxiv url: http://arxiv.org/abs/2311.14904v1
- Date: Sat, 25 Nov 2023 02:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:55:49.477834
- Title: LLM-Assisted Code Cleaning For Training Accurate Code Generators
- Title(参考訳): 正確なコードジェネレータを訓練するためのllm支援コードクリーニング
- Authors: Naman Jain, Tianjun Zhang, Wei-Lin Chiang, Joseph E. Gonzalez, Koushik
Sen, Ion Stoica
- Abstract要約: コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 53.087019724256606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language to code generation is an important application area of LLMs
and has received wide attention from the community. The majority of relevant
studies have exclusively concentrated on increasing the quantity and functional
correctness of training sets while disregarding other stylistic elements of
programs. More recently, data quality has garnered a lot of interest and
multiple works have showcased its importance for improving performance. In this
work, we investigate data quality for code and find that making the code more
structured and readable leads to improved code generation performance of the
system. We build a novel data-cleaning pipeline that uses these principles to
transform existing programs by 1.) renaming variables, 2.) modularizing and
decomposing complex code into smaller helper sub-functions, and 3.) inserting
natural-language based plans via LLM based transformations. We evaluate our
approach on two challenging algorithmic code generation benchmarks and find
that fine-tuning CodeLLaMa-7B on our transformed modularized programs improves
the performance by up to 30% compared to fine-tuning on the original dataset.
Additionally, we demonstrate improved performance from using a smaller amount
of higher-quality data, finding that a model fine-tuned on the entire original
dataset is outperformed by a model trained on 15% of our cleaned dataset. Even
in comparison to closed-source models, our models outperform the much larger
AlphaCoder models.
- Abstract(参考訳): 自然言語からコード生成はllmの重要な応用分野であり、コミュニティから広く注目を集めている。
関連する研究の大部分は、プログラムの他のスタイル的要素を無視しながら、トレーニングセットの量と機能的正しさの増大に集中している。
最近では、データ品質が多くの関心を集めており、複数の研究がパフォーマンス向上の重要性を示しています。
本研究では,コードのデータ品質を調査し,より構造化され,読みやすくすることで,システムのコード生成性能が向上することを示す。
私たちはこれらの原則を使って既存のプログラムを変換する新しいデータクリーニングパイプラインを構築します。
1.変数名を変更。
2) 複雑なコードをより小さなヘルパーサブファンクションにモジュール化して分解し、
3) LLMベースの変換による自然言語ベースの計画の挿入。
2つのアルゴリズムコード生成ベンチマークに対するアプローチを評価し、変換されたモジュール化プログラム上での細調整のCodeLLaMa-7Bは、元のデータセットの細調整と比較して最大30%性能が向上することを確認した。
さらに、より少ない量の高品質データを使用することによるパフォーマンスの向上を実証し、元のデータセット全体に微調整されたモデルは、クリーンなデータセットの15%でトレーニングされたモデルよりも優れています。
クローズドソースモデルと比較しても、私たちのモデルはずっと大きなalphacoderモデルよりも優れています。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning [4.975728472540823]
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。
実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
論文 参考訳(メタデータ) (2024-07-06T10:30:43Z) - UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback [21.858896845159208]
大規模言語モデル(LLM)は、視覚的に関連する設計をコンパイルし、生成するUIコードを生成するのに苦労する。
生成を改善するための既存のアプローチは、高価な人間のフィードバックやプロプライエタリなモデルを蒸留することに依存している。
提案手法は,既存のLLMから始まり,大規模合成データセットを自己生成することにより,改良されたモデルを反復的に生成する。
論文 参考訳(メタデータ) (2024-06-11T21:53:46Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - Performance-Aligned LLMs for Generating Fast Code [2.180216161965907]
コードLLMの出力と性能を一致させる強化学習に基づく手法を提案する。
我々は,一連のベンチマークタスクのベースモデル上でのコード生成の高速化を,微調整モデルにより改善できることを実証した。
論文 参考訳(メタデータ) (2024-04-29T16:52:38Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。