論文の概要: API-guided Dataset Synthesis to Finetune Large Code Models
- arxiv url: http://arxiv.org/abs/2408.08343v1
- Date: Thu, 15 Aug 2024 14:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 17:29:47.409575
- Title: API-guided Dataset Synthesis to Finetune Large Code Models
- Title(参考訳): 大規模コードモデルのためのAPI誘導型データセット合成
- Authors: Zongjie Li, Daoyuan Wu, Shuai Wang, Zhendong Su,
- Abstract要約: 大規模なコードモデル(LCM)は巨大なコードコーパスで事前訓練される。
監視された微調整(SFT)は、これらのモデルを特定の要求と整合させる上で重要な役割を果たす。
高品質のSFTデータセットは、データセットの不均一な品質とドメイン固有のデータセットの不足のため、大きな課題となる。
API誘導型データセット合成フレームワークであるDataScopeを提案する。
- 参考スコア(独自算出の注目度): 13.835835256858653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large code models (LCMs), pre-trained on vast code corpora, have demonstrated remarkable performance across a wide array of code-related tasks. Supervised fine-tuning (SFT) plays a vital role in aligning these models with specific requirements and enhancing their performance in particular domains. However, synthesizing high-quality SFT datasets poses a significant challenge due to the uneven quality of datasets and the scarcity of domain-specific datasets. Inspired by APIs as high-level abstractions of code that encapsulate rich semantic information in a concise structure, we propose DataScope, an API-guided dataset synthesis framework designed to enhance the SFT process for LCMs in both general and domain-specific scenarios. DataScope comprises two main components: Dsel and Dgen. On one hand, Dsel employs API coverage as a core metric, enabling efficient dataset synthesis in general scenarios by selecting subsets of existing (uneven-quality) datasets with higher API coverage. On the other hand, Dgen recasts domain dataset synthesis as a process of using API-specified high-level functionality and deliberately-constituted code skeletons to synthesize concrete code. Extensive experiments demonstrate DataScope's effectiveness, with models fine-tuned on its synthesized datasets outperforming those tuned on unoptimized datasets five times larger. Furthermore, a series of analyses on model internals, relevant hyperparameters, and case studies provide additional evidence for the efficacy of our proposed methods. These findings underscore the significance of dataset quality in SFT and advance the field of LCMs by providing an efficient, cost-effective framework for constructing high-quality datasets. This contribution enhances performance across both general and domain-specific scenarios, paving the way for more powerful and tailored LCMs.
- Abstract(参考訳): 大規模なコードモデル(LCM)は、大量のコードコーパスで事前訓練され、幅広いコード関連タスクで顕著なパフォーマンスを示している。
監視された微調整(SFT)は、これらのモデルを特定の要求と整合させ、特定の領域におけるそれらのパフォーマンスを高める上で重要な役割を担います。
しかし、高品質なSFTデータセットを合成することは、データセットの不均一な品質とドメイン固有のデータセットの不足のために大きな課題となる。
簡潔な構造でリッチなセマンティック情報をカプセル化するコードの高レベルの抽象化としてAPIに触発され,汎用シナリオとドメイン固有のシナリオの両方において,LCMのSFTプロセスを強化するように設計されたAPI誘導データセット合成フレームワークであるDataScopeを提案する。
DataScopeはDselとDgenの2つの主要コンポーネントで構成されている。
一方、DselはAPIカバレッジをコアメトリックとして採用し、既存の(不均一な)データセットのサブセットを高いAPIカバレッジで選択することで、一般的なシナリオでの効率的なデータセット合成を可能にする。
一方Dgenは、API仕様の高レベル機能と意図的に構成されたコードスケルトンを使用して具体的なコードを合成するプロセスとして、ドメインデータセットの合成を再キャストする。
大規模な実験では、DataScopeの有効性が実証され、合成データセットに微調整されたモデルは、最適化されていないデータセットで5倍の精度でチューニングされた。
さらに、モデル内部、関連するハイパーパラメータ、ケーススタディに関する一連の分析により、提案手法の有効性に関するさらなる証拠が得られた。
これらの知見は、高品質なデータセットを構築するための効率的で費用対効果の高いフレームワークを提供することにより、SFTにおけるデータセットの品質の重要性とLCMの分野を前進させるものである。
このコントリビューションにより、汎用シナリオとドメイン固有のシナリオの両方のパフォーマンスが向上し、より強力でカスタマイズされたLCMへの道が開かれた。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning [64.5243480989869]
Instruction Fine-Tuning (IFT) は事前訓練されたLarge Language Models (LLM) のゼロショット能力を著しく向上させる
IFT段階におけるLLMの推論能力に及ぼす符号化データの影響について検討する。
論文 参考訳(メタデータ) (2024-05-30T23:20:25Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。