Fugu-MT 論文翻訳(概要): How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

論文の概要: How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

arxiv url: http://arxiv.org/abs/2409.03810v1
Date: Thu, 5 Sep 2024 17:46:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 17:40:07.756252
Title: How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data
Title（参考訳）: コードLLMはどのように機能するか? 高品質データによるコードインストラクションチューニングの強化
Authors: Yejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu,
Abstract要約: 多くのデータセットが深刻なデータ漏洩に悩まされていることが分かりました。この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。我々は、LLaMA3から微調整されたモデルのファミリーであるXCoderを紹介する。
参考スコア（独自算出の注目度）: 26.836532205017104
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, there has been a growing interest in studying how to construct better code instruction tuning data. However, we observe Code models trained with these datasets exhibit high performance on HumanEval but perform worse on other benchmarks such as LiveCodeBench. Upon further investigation, we find that many datasets suffer from severe data leakage. After cleaning up most of the leaked data, some well-known high-quality datasets perform poorly. This discovery reveals a new challenge: identifying which dataset genuinely qualify as high-quality code instruction data. To address this, we propose an efficient code data pruning strategy for selecting good samples. Our approach is based on three dimensions: instruction complexity, response quality, and instruction diversity. Based on our selected data, we present XCoder, a family of models finetuned from LLaMA3. Our experiments show XCoder achieves new state-of-the-art performance using fewer training data, which verify the effectiveness of our data strategy. Moreover, we perform a comprehensive analysis on the data composition and find existing code datasets have different characteristics according to their construction methods, which provide new insights for future code LLMs. Our models and dataset are released in https://github.com/banksy23/XCoder
Abstract（参考訳）: 近年,より優れたコード命令チューニングデータの構築方法の研究への関心が高まっている。しかし、これらのデータセットでトレーニングされたコードモデルは、HumanEval上では高いパフォーマンスを示すが、LiveCodeBenchのような他のベンチマークではより悪いパフォーマンスを示す。さらなる調査の結果、多くのデータセットが深刻なデータ漏洩に悩まされていることが判明した。リークデータの大半をクリーンアップした後、よく知られた高品質なデータセットは、パフォーマンスが良くない。この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。そこで本研究では,優れたサンプルを選択するための効率的なコードデータプルーニング手法を提案する。我々のアプローチは、命令の複雑さ、応答品質、命令の多様性の3つの次元に基づいています。選択したデータに基づいて、LLaMA3から微調整されたモデルのファミリーであるXCoderを提示する。実験の結果、XCoderは、少ないトレーニングデータを用いて、新しい最先端のパフォーマンスを実現し、データストラテジーの有効性を検証した。さらに、データ構成に関する包括的な分析を行い、既存のコードデータセットがそれらの構築方法によって異なる特徴を持っていることを発見し、将来のコードLLMに対する新たな洞察を提供する。私たちのモデルとデータセットはhttps://github.com/banksy23/XCoderでリリースされています。

関連論文リスト

OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Optimizing Datasets for Code Summarization: Is Code-Comment Coherence Enough? [11.865113785648932]
コード要約の特定の品質属性であるコード圧縮コヒーレンスが、コードの要約データセットの最適化にどの程度利用できるかを検討する。 2つの最先端データセット(TL-CodeSumとFuncom)から複数のレベルのトレーニングインスタンスを調べ、3つの手作業によるテストセット上で結果モデルを評価する。
論文参考訳（メタデータ） (2025-02-11T15:02:19Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models [36.266383541354294]
まず、DA-Code内のタスクは本質的に困難で、従来のコード生成タスクとは分離されています。次に、DA-Codeの例は、すべて実データと多種多様なデータに基づいており、幅広い複雑なデータラングリングと分析タスクをカバーしている。第三に、これらの課題を解決するためには、複雑なデータサイエンスプログラミング言語を使用し、複雑なデータ処理を実行し、答えを導出する必要がある。
論文参考訳（メタデータ） (2024-10-09T18:00:05Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文参考訳（メタデータ） (2024-05-29T16:57:33Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Data Portraits: Recording Foundation Model Training Data [47.03896259762976]
Data Portraitsは、トレーニングデータを記録し、下流のインスペクションを可能にするアーティファクトである。我々は、人気のある言語モデリングコーパスと、最近リリースされたコードモデリングデータセットを文書化する。当社のツールは軽量で高速で、オーバーヘッドのデータセットサイズはわずか3%です。
論文参考訳（メタデータ） (2023-03-06T04:22:33Z)
CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文参考訳（メタデータ） (2022-11-25T18:05:44Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
On the Importance of Building High-quality Training Datasets for Neural Code Search [15.557818317497397]
本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,次の2つのフィルタからなるデータクリーニングフレームワークを提案する。 2つの広く使われているコード検索モデルと3つの手動アノテーション付きコード検索ベンチマークにおけるフレームワークの有効性を評価する。
論文参考訳（メタデータ） (2022-02-14T12:02:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。