論文の概要: LLM-Assisted Code Cleaning For Training Accurate Code Generators
- arxiv url: http://arxiv.org/abs/2311.14904v1
- Date: Sat, 25 Nov 2023 02:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:55:49.477834
- Title: LLM-Assisted Code Cleaning For Training Accurate Code Generators
- Title(参考訳): 正確なコードジェネレータを訓練するためのllm支援コードクリーニング
- Authors: Naman Jain, Tianjun Zhang, Wei-Lin Chiang, Joseph E. Gonzalez, Koushik
Sen, Ion Stoica
- Abstract要約: コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 53.087019724256606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language to code generation is an important application area of LLMs
and has received wide attention from the community. The majority of relevant
studies have exclusively concentrated on increasing the quantity and functional
correctness of training sets while disregarding other stylistic elements of
programs. More recently, data quality has garnered a lot of interest and
multiple works have showcased its importance for improving performance. In this
work, we investigate data quality for code and find that making the code more
structured and readable leads to improved code generation performance of the
system. We build a novel data-cleaning pipeline that uses these principles to
transform existing programs by 1.) renaming variables, 2.) modularizing and
decomposing complex code into smaller helper sub-functions, and 3.) inserting
natural-language based plans via LLM based transformations. We evaluate our
approach on two challenging algorithmic code generation benchmarks and find
that fine-tuning CodeLLaMa-7B on our transformed modularized programs improves
the performance by up to 30% compared to fine-tuning on the original dataset.
Additionally, we demonstrate improved performance from using a smaller amount
of higher-quality data, finding that a model fine-tuned on the entire original
dataset is outperformed by a model trained on 15% of our cleaned dataset. Even
in comparison to closed-source models, our models outperform the much larger
AlphaCoder models.
- Abstract(参考訳): 自然言語からコード生成はllmの重要な応用分野であり、コミュニティから広く注目を集めている。
関連する研究の大部分は、プログラムの他のスタイル的要素を無視しながら、トレーニングセットの量と機能的正しさの増大に集中している。
最近では、データ品質が多くの関心を集めており、複数の研究がパフォーマンス向上の重要性を示しています。
本研究では,コードのデータ品質を調査し,より構造化され,読みやすくすることで,システムのコード生成性能が向上することを示す。
私たちはこれらの原則を使って既存のプログラムを変換する新しいデータクリーニングパイプラインを構築します。
1.変数名を変更。
2) 複雑なコードをより小さなヘルパーサブファンクションにモジュール化して分解し、
3) LLMベースの変換による自然言語ベースの計画の挿入。
2つのアルゴリズムコード生成ベンチマークに対するアプローチを評価し、変換されたモジュール化プログラム上での細調整のCodeLLaMa-7Bは、元のデータセットの細調整と比較して最大30%性能が向上することを確認した。
さらに、より少ない量の高品質データを使用することによるパフォーマンスの向上を実証し、元のデータセット全体に微調整されたモデルは、クリーンなデータセットの15%でトレーニングされたモデルよりも優れています。
クローズドソースモデルと比較しても、私たちのモデルはずっと大きなalphacoderモデルよりも優れています。
関連論文リスト
- SEED: Customize Large Language Models with Sample-Efficient Adaptation
for Code Generation [39.19979759086193]
大規模言語モデル(LLM)は、特定のシナリオでコード生成タスクに苦労する。
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。
その結果,SEEDではPass@1で27.2%-325.0%の改善が見られた。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with
Refined Data Generation [23.41247482299201]
4つの普遍的なコード関連タスクにまたがる2万の命令インスタンスからなるデータセットであるCodeOceanを紹介する。
次に、WidespreadとVersatile拡張命令チューニングを備えた微調整コードLLMであるWavecoderを紹介する。
論文 参考訳(メタデータ) (2023-12-20T09:02:29Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Better Language Models of Code through Self-Improvement [18.75015225501755]
コードのための事前学習言語モデル(PLMC)のための単純なデータ拡張フレームワークを提案する。
本フレームワークは,事前学習と微調整の段階で得られた知識を利用して擬似データを生成し,次のステップのトレーニングデータとして利用する。
その結果,コード関連シーケンス生成タスクにおいて,PLMCの性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-02T10:59:19Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。