Fugu-MT 論文翻訳(概要): API-guided Dataset Synthesis to Finetune Large Code Models

論文の概要: API-guided Dataset Synthesis to Finetune Large Code Models

arxiv url: http://arxiv.org/abs/2408.08343v2
Date: Thu, 22 Aug 2024 11:29:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 18:36:08.906347
Title: API-guided Dataset Synthesis to Finetune Large Code Models
Title（参考訳）: 大規模コードモデルのためのAPI誘導型データセット合成
Authors: Zongjie Li, Daoyuan Wu, Shuai Wang, Zhendong Su,
Abstract要約: 大規模なコードモデル(LCM)は巨大なコードコーパスで事前訓練される。監視された微調整(SFT)は、これらのモデルを特定の要求と整合させる上で重要な役割を果たす。高品質のSFTデータセットは、データセットの不均一な品質とドメイン固有のデータセットの不足のため、大きな課題となる。 API誘導型データセット合成フレームワークであるDataScopeを提案する。
参考スコア（独自算出の注目度）: 13.835835256858653
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large code models (LCMs), pre-trained on vast code corpora, have demonstrated remarkable performance across a wide array of code-related tasks. Supervised fine-tuning (SFT) plays a vital role in aligning these models with specific requirements and enhancing their performance in particular domains. However, synthesizing high-quality SFT datasets poses a significant challenge due to the uneven quality of datasets and the scarcity of domain-specific datasets. Inspired by APIs as high-level abstractions of code that encapsulate rich semantic information in a concise structure, we propose DataScope, an API-guided dataset synthesis framework designed to enhance the SFT process for LCMs in both general and domain-specific scenarios. DataScope comprises two main components: Dsel and Dgen. On one hand, Dsel employs API coverage as a core metric, enabling efficient dataset synthesis in general scenarios by selecting subsets of existing (uneven-quality) datasets with higher API coverage. On the other hand, Dgen recasts domain dataset synthesis as a process of using API-specified high-level functionality and deliberately-constituted code skeletons to synthesize concrete code. Extensive experiments demonstrate DataScope's effectiveness, with models fine-tuned on its synthesized datasets outperforming those tuned on unoptimized datasets five times larger. Furthermore, a series of analyses on model internals, relevant hyperparameters, and case studies provide additional evidence for the efficacy of our proposed methods. These findings underscore the significance of dataset quality in SFT and advance the field of LCMs by providing an efficient, cost-effective framework for constructing high-quality datasets. This contribution enhances performance across both general and domain-specific scenarios, paving the way for more powerful and tailored LCMs.
Abstract（参考訳）: 大規模なコードモデル(LCM)は、大量のコードコーパスで事前訓練され、幅広いコード関連タスクで顕著なパフォーマンスを示している。監視された微調整(SFT)は、これらのモデルを特定の要求と整合させ、特定の領域におけるそれらのパフォーマンスを高める上で重要な役割を担います。しかし、高品質なSFTデータセットを合成することは、データセットの不均一な品質とドメイン固有のデータセットの不足のために大きな課題となる。簡潔な構造でリッチなセマンティック情報をカプセル化するコードの高レベルの抽象化としてAPIに触発され,汎用シナリオとドメイン固有のシナリオの両方において,LCMのSFTプロセスを強化するように設計されたAPI誘導データセット合成フレームワークであるDataScopeを提案する。 DataScopeはDselとDgenの2つの主要コンポーネントで構成されている。一方、DselはAPIカバレッジをコアメトリックとして採用し、既存の(不均一な)データセットのサブセットを高いAPIカバレッジで選択することで、一般的なシナリオでの効率的なデータセット合成を可能にする。一方Dgenは、API仕様の高レベル機能と意図的に構成されたコードスケルトンを使用して具体的なコードを合成するプロセスとして、ドメインデータセットの合成を再キャストする。大規模な実験では、DataScopeの有効性が実証され、合成データセットに微調整されたモデルは、最適化されていないデータセットで5倍の精度でチューニングされた。さらに、モデル内部、関連するハイパーパラメータ、ケーススタディに関する一連の分析により、提案手法の有効性に関するさらなる証拠が得られた。これらの知見は、高品質なデータセットを構築するための効率的で費用対効果の高いフレームワークを提供することにより、SFTにおけるデータセットの品質の重要性とLCMの分野を前進させるものである。このコントリビューションにより、汎用シナリオとドメイン固有のシナリオの両方のパフォーマンスが向上し、より強力でカスタマイズされたLCMへの道が開かれた。

関連論文リスト

AQuilt: Weaving Logic and Self-Inspection into Low-Cost, High-Relevance Data Synthesis for Specialist LLMs [24.511434195711267]
AQuiltは、特定のドメインに対して、対応するラベルなしデータから命令チューニングデータを構築するためのフレームワークである。我々は,強力なデータ合成モデルをトレーニングするために,703kサンプルのデータセットを構築した。
論文参考訳（メタデータ） (2025-07-24T17:03:27Z)
RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs [3.41612427812159]
デジタルコンテンツ作成ツールでは、ユーザは、API呼び出しにマップしなければならない自然言語クエリを通じて、ニーズを表現します。既存の合成データ生成アプローチでは、実世界のデータ分散を複製することができない。高品質な合成学習データを生成するルータベースのアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-05-15T16:53:45Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Unsupervised Topic Models are Data Mixers for Pre-training Language Models [6.77198566340415]
大規模言語モデル(LLM)のためのトピックベースのデータ混合戦略を提案する。 DataWeaveは、セマンティックに類似したドキュメントをグループ化するために、マルチステージクラスタリングプロセスを採用している。我々は、サイエンスとリレーションシップのトピックが特に効果的であることを確認し、最も実質的なパフォーマンス改善をもたらす。
論文参考訳（メタデータ） (2025-02-24T03:25:56Z)
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文参考訳（メタデータ） (2025-02-12T15:03:33Z)
TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data [9.390415313514762]
TARGAは、手動のアノテーションなしで高関連性合成データを生成するフレームワークである。これは、クローズソースモデルを使用する既存の非微調整手法よりも大幅に優れている。非I.I.D.設定下では、優れたサンプル効率、堅牢性、一般化能力を示す。
論文参考訳（メタデータ） (2024-12-27T09:16:39Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-09-18T13:20:23Z)
Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning [64.5243480989869]
Instruction Fine-Tuning (IFT) は事前訓練されたLarge Language Models (LLM) のゼロショット能力を著しく向上させる IFT段階におけるLLMの推論能力に及ぼす符号化データの影響について検討する。
論文参考訳（メタデータ） (2024-05-30T23:20:25Z)
Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文参考訳（メタデータ） (2024-03-14T08:27:32Z)
Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。 DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文参考訳（メタデータ） (2024-03-11T14:07:53Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
SYNC: A Copula based Framework for Generating Synthetic Data from Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。私たちはこの仕事に4つの重要な貢献をしています。
論文参考訳（メタデータ） (2020-09-20T16:36:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。