論文の概要: API-guided Dataset Synthesis to Finetune Large Code Models
- arxiv url: http://arxiv.org/abs/2408.08343v2
- Date: Thu, 22 Aug 2024 11:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:36:08.906347
- Title: API-guided Dataset Synthesis to Finetune Large Code Models
- Title(参考訳): 大規模コードモデルのためのAPI誘導型データセット合成
- Authors: Zongjie Li, Daoyuan Wu, Shuai Wang, Zhendong Su,
- Abstract要約: 大規模なコードモデル(LCM)は巨大なコードコーパスで事前訓練される。
監視された微調整(SFT)は、これらのモデルを特定の要求と整合させる上で重要な役割を果たす。
高品質のSFTデータセットは、データセットの不均一な品質とドメイン固有のデータセットの不足のため、大きな課題となる。
API誘導型データセット合成フレームワークであるDataScopeを提案する。
- 参考スコア(独自算出の注目度): 13.835835256858653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large code models (LCMs), pre-trained on vast code corpora, have demonstrated remarkable performance across a wide array of code-related tasks. Supervised fine-tuning (SFT) plays a vital role in aligning these models with specific requirements and enhancing their performance in particular domains. However, synthesizing high-quality SFT datasets poses a significant challenge due to the uneven quality of datasets and the scarcity of domain-specific datasets. Inspired by APIs as high-level abstractions of code that encapsulate rich semantic information in a concise structure, we propose DataScope, an API-guided dataset synthesis framework designed to enhance the SFT process for LCMs in both general and domain-specific scenarios. DataScope comprises two main components: Dsel and Dgen. On one hand, Dsel employs API coverage as a core metric, enabling efficient dataset synthesis in general scenarios by selecting subsets of existing (uneven-quality) datasets with higher API coverage. On the other hand, Dgen recasts domain dataset synthesis as a process of using API-specified high-level functionality and deliberately-constituted code skeletons to synthesize concrete code. Extensive experiments demonstrate DataScope's effectiveness, with models fine-tuned on its synthesized datasets outperforming those tuned on unoptimized datasets five times larger. Furthermore, a series of analyses on model internals, relevant hyperparameters, and case studies provide additional evidence for the efficacy of our proposed methods. These findings underscore the significance of dataset quality in SFT and advance the field of LCMs by providing an efficient, cost-effective framework for constructing high-quality datasets. This contribution enhances performance across both general and domain-specific scenarios, paving the way for more powerful and tailored LCMs.
- Abstract(参考訳): 大規模なコードモデル(LCM)は、大量のコードコーパスで事前訓練され、幅広いコード関連タスクで顕著なパフォーマンスを示している。
監視された微調整(SFT)は、これらのモデルを特定の要求と整合させ、特定の領域におけるそれらのパフォーマンスを高める上で重要な役割を担います。
しかし、高品質なSFTデータセットを合成することは、データセットの不均一な品質とドメイン固有のデータセットの不足のために大きな課題となる。
簡潔な構造でリッチなセマンティック情報をカプセル化するコードの高レベルの抽象化としてAPIに触発され,汎用シナリオとドメイン固有のシナリオの両方において,LCMのSFTプロセスを強化するように設計されたAPI誘導データセット合成フレームワークであるDataScopeを提案する。
DataScopeはDselとDgenの2つの主要コンポーネントで構成されている。
一方、DselはAPIカバレッジをコアメトリックとして採用し、既存の(不均一な)データセットのサブセットを高いAPIカバレッジで選択することで、一般的なシナリオでの効率的なデータセット合成を可能にする。
一方Dgenは、API仕様の高レベル機能と意図的に構成されたコードスケルトンを使用して具体的なコードを合成するプロセスとして、ドメインデータセットの合成を再キャストする。
大規模な実験では、DataScopeの有効性が実証され、合成データセットに微調整されたモデルは、最適化されていないデータセットで5倍の精度でチューニングされた。
さらに、モデル内部、関連するハイパーパラメータ、ケーススタディに関する一連の分析により、提案手法の有効性に関するさらなる証拠が得られた。
これらの知見は、高品質なデータセットを構築するための効率的で費用対効果の高いフレームワークを提供することにより、SFTにおけるデータセットの品質の重要性とLCMの分野を前進させるものである。
このコントリビューションにより、汎用シナリオとドメイン固有のシナリオの両方のパフォーマンスが向上し、より強力でカスタマイズされたLCMへの道が開かれた。
関連論文リスト
- Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning [64.5243480989869]
Instruction Fine-Tuning (IFT) は事前訓練されたLarge Language Models (LLM) のゼロショット能力を著しく向上させる
IFT段階におけるLLMの推論能力に及ぼす符号化データの影響について検討する。
論文 参考訳(メタデータ) (2024-05-30T23:20:25Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。