論文の概要: How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data
- arxiv url: http://arxiv.org/abs/2409.03810v1
- Date: Thu, 5 Sep 2024 17:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 17:40:07.756252
- Title: How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data
- Title(参考訳): コードLLMはどのように機能するか? 高品質データによるコードインストラクションチューニングの強化
- Authors: Yejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu,
- Abstract要約: 多くのデータセットが深刻なデータ漏洩に悩まされていることが分かりました。
この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。
我々は、LLaMA3から微調整されたモデルのファミリーであるXCoderを紹介する。
- 参考スコア(独自算出の注目度): 26.836532205017104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a growing interest in studying how to construct better code instruction tuning data. However, we observe Code models trained with these datasets exhibit high performance on HumanEval but perform worse on other benchmarks such as LiveCodeBench. Upon further investigation, we find that many datasets suffer from severe data leakage. After cleaning up most of the leaked data, some well-known high-quality datasets perform poorly. This discovery reveals a new challenge: identifying which dataset genuinely qualify as high-quality code instruction data. To address this, we propose an efficient code data pruning strategy for selecting good samples. Our approach is based on three dimensions: instruction complexity, response quality, and instruction diversity. Based on our selected data, we present XCoder, a family of models finetuned from LLaMA3. Our experiments show XCoder achieves new state-of-the-art performance using fewer training data, which verify the effectiveness of our data strategy. Moreover, we perform a comprehensive analysis on the data composition and find existing code datasets have different characteristics according to their construction methods, which provide new insights for future code LLMs. Our models and dataset are released in https://github.com/banksy23/XCoder
- Abstract(参考訳): 近年,より優れたコード命令チューニングデータの構築方法の研究への関心が高まっている。
しかし、これらのデータセットでトレーニングされたコードモデルは、HumanEval上では高いパフォーマンスを示すが、LiveCodeBenchのような他のベンチマークではより悪いパフォーマンスを示す。
さらなる調査の結果、多くのデータセットが深刻なデータ漏洩に悩まされていることが判明した。
リークデータの大半をクリーンアップした後、よく知られた高品質なデータセットは、パフォーマンスが良くない。
この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。
そこで本研究では,優れたサンプルを選択するための効率的なコードデータプルーニング手法を提案する。
我々のアプローチは、命令の複雑さ、応答品質、命令の多様性の3つの次元に基づいています。
選択したデータに基づいて、LLaMA3から微調整されたモデルのファミリーであるXCoderを提示する。
実験の結果、XCoderは、少ないトレーニングデータを用いて、新しい最先端のパフォーマンスを実現し、データストラテジーの有効性を検証した。
さらに、データ構成に関する包括的な分析を行い、既存のコードデータセットがそれらの構築方法によって異なる特徴を持っていることを発見し、将来のコードLLMに対する新たな洞察を提供する。
私たちのモデルとデータセットはhttps://github.com/banksy23/XCoderでリリースされています。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Optimizing Datasets for Code Summarization: Is Code-Comment Coherence Enough? [11.865113785648932]
コード要約の特定の品質属性であるコード圧縮コヒーレンスが、コードの要約データセットの最適化にどの程度利用できるかを検討する。
2つの最先端データセット(TL-CodeSumとFuncom)から複数のレベルのトレーニングインスタンスを調べ、3つの手作業によるテストセット上で結果モデルを評価する。
論文 参考訳(メタデータ) (2025-02-11T15:02:19Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models [36.266383541354294]
まず、DA-Code内のタスクは本質的に困難で、従来のコード生成タスクとは分離されています。
次に、DA-Codeの例は、すべて実データと多種多様なデータに基づいており、幅広い複雑なデータラングリングと分析タスクをカバーしている。
第三に、これらの課題を解決するためには、複雑なデータサイエンスプログラミング言語を使用し、複雑なデータ処理を実行し、答えを導出する必要がある。
論文 参考訳(メタデータ) (2024-10-09T18:00:05Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。