論文の概要: How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data
- arxiv url: http://arxiv.org/abs/2409.03810v1
- Date: Thu, 5 Sep 2024 17:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 17:40:07.756252
- Title: How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data
- Title(参考訳): コードLLMはどのように機能するか? 高品質データによるコードインストラクションチューニングの強化
- Authors: Yejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu,
- Abstract要約: 多くのデータセットが深刻なデータ漏洩に悩まされていることが分かりました。
この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。
我々は、LLaMA3から微調整されたモデルのファミリーであるXCoderを紹介する。
- 参考スコア(独自算出の注目度): 26.836532205017104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a growing interest in studying how to construct better code instruction tuning data. However, we observe Code models trained with these datasets exhibit high performance on HumanEval but perform worse on other benchmarks such as LiveCodeBench. Upon further investigation, we find that many datasets suffer from severe data leakage. After cleaning up most of the leaked data, some well-known high-quality datasets perform poorly. This discovery reveals a new challenge: identifying which dataset genuinely qualify as high-quality code instruction data. To address this, we propose an efficient code data pruning strategy for selecting good samples. Our approach is based on three dimensions: instruction complexity, response quality, and instruction diversity. Based on our selected data, we present XCoder, a family of models finetuned from LLaMA3. Our experiments show XCoder achieves new state-of-the-art performance using fewer training data, which verify the effectiveness of our data strategy. Moreover, we perform a comprehensive analysis on the data composition and find existing code datasets have different characteristics according to their construction methods, which provide new insights for future code LLMs. Our models and dataset are released in https://github.com/banksy23/XCoder
- Abstract(参考訳): 近年,より優れたコード命令チューニングデータの構築方法の研究への関心が高まっている。
しかし、これらのデータセットでトレーニングされたコードモデルは、HumanEval上では高いパフォーマンスを示すが、LiveCodeBenchのような他のベンチマークではより悪いパフォーマンスを示す。
さらなる調査の結果、多くのデータセットが深刻なデータ漏洩に悩まされていることが判明した。
リークデータの大半をクリーンアップした後、よく知られた高品質なデータセットは、パフォーマンスが良くない。
この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。
そこで本研究では,優れたサンプルを選択するための効率的なコードデータプルーニング手法を提案する。
我々のアプローチは、命令の複雑さ、応答品質、命令の多様性の3つの次元に基づいています。
選択したデータに基づいて、LLaMA3から微調整されたモデルのファミリーであるXCoderを提示する。
実験の結果、XCoderは、少ないトレーニングデータを用いて、新しい最先端のパフォーマンスを実現し、データストラテジーの有効性を検証した。
さらに、データ構成に関する包括的な分析を行い、既存のコードデータセットがそれらの構築方法によって異なる特徴を持っていることを発見し、将来のコードLLMに対する新たな洞察を提供する。
私たちのモデルとデータセットはhttps://github.com/banksy23/XCoderでリリースされています。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models [36.266383541354294]
まず、DA-Code内のタスクは本質的に困難で、従来のコード生成タスクとは分離されています。
次に、DA-Codeの例は、すべて実データと多種多様なデータに基づいており、幅広い複雑なデータラングリングと分析タスクをカバーしている。
第三に、これらの課題を解決するためには、複雑なデータサイエンスプログラミング言語を使用し、複雑なデータ処理を実行し、答えを導出する必要がある。
論文 参考訳(メタデータ) (2024-10-09T18:00:05Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Data Portraits: Recording Foundation Model Training Data [47.03896259762976]
Data Portraitsは、トレーニングデータを記録し、下流のインスペクションを可能にするアーティファクトである。
我々は、人気のある言語モデリングコーパスと、最近リリースされたコードモデリングデータセットを文書化する。
当社のツールは軽量で高速で、オーバーヘッドのデータセットサイズはわずか3%です。
論文 参考訳(メタデータ) (2023-03-06T04:22:33Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - On the Importance of Building High-quality Training Datasets for Neural
Code Search [15.557818317497397]
本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,次の2つのフィルタからなるデータクリーニングフレームワークを提案する。
2つの広く使われているコード検索モデルと3つの手動アノテーション付きコード検索ベンチマークにおけるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-14T12:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。