論文の概要: SCoder: Iterative Self-Distillation for Bootstrapping Small-Scale Data Synthesizers to Empower Code LLMs
- arxiv url: http://arxiv.org/abs/2509.07858v1
- Date: Tue, 09 Sep 2025 15:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.381832
- Title: SCoder: Iterative Self-Distillation for Bootstrapping Small-Scale Data Synthesizers to Empower Code LLMs
- Title(参考訳): SCoder: 小型データ合成装置をブートストラップしてコードLLMを活用するための反復自己蒸留
- Authors: Xinyu Zhang, Changzhi Zhou, Linmei Hu, Luhao Zhang, Xiancai Chen, Haomin Fu, Yang Yang, Mengdi Zhang,
- Abstract要約: 既存のコード大言語モデル(LLM)は、しばしば微調整のために独自LLMから抽出された大規模な命令データに依存している。
本稿では,小型LLMをブートストラップし,それらを強力な合成器に変換する,新しい反復自己蒸留手法を提案する。
我々は、DeepSeek-Coderから微調整されたコード生成モデルのファミリーであるSCoderを開発した。
- 参考スコア(独自算出の注目度): 16.273922496570155
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing code large language models (LLMs) often rely on large-scale instruction data distilled from proprietary LLMs for fine-tuning, which typically incurs high costs. In this paper, we explore the potential of small-scale open-source LLMs (e.g., 7B) as synthesizers for high-quality code instruction data construction. We first observe that the data synthesis capability of small-scale LLMs can be enhanced by training on a few superior data synthesis samples from proprietary LLMs. Building on this, we propose a novel iterative self-distillation approach to bootstrap small-scale LLMs, transforming them into powerful synthesizers that reduce reliance on proprietary LLMs and minimize costs. Concretely, in each iteration, to obtain diverse and high-quality self-distilled data, we design multi-checkpoint sampling and multi-aspect scoring strategies for initial data selection. Furthermore, to identify the most influential samples, we introduce a gradient-based influence estimation method for final data filtering. Based on the code instruction datasets from the small-scale synthesizers, we develop SCoder, a family of code generation models fine-tuned from DeepSeek-Coder. SCoder models achieve state-of-the-art code generation capabilities, demonstrating the effectiveness of our method.
- Abstract(参考訳): 既存のコード大言語モデル(LLM)は、通常高いコストを発生させるような微調整のために独自LLMから抽出された大規模な命令データに依存していることが多い。
本稿では、高品質なコード命令データ構築のためのシンセサイザーとして、小規模オープンソースLLM(eg, 7B)の可能性について検討する。
まず,小規模LLMのデータ合成能力を,プロプライエタリLLMの優れたデータ合成サンプルのトレーニングにより向上させることができることを考察した。
そこで本研究では,小規模LLMをブートストラップする新たな自己蒸留手法を提案し,これを強力なシンセサイザーに変換することで,独自LLMへの依存を低減し,コストを最小限に抑える。
具体的には、各イテレーションにおいて、多変量かつ高品質な自己蒸留データを得るために、初期データ選択のためのマルチチェックポイントサンプリングとマルチアスペクトスコア戦略を設計する。
さらに、最も影響力のあるサンプルを特定するために、最終データフィルタリングのための勾配に基づく影響推定手法を提案する。
小型シンセサイザーのコード命令データセットに基づいて、DeepSeek-Coderから微調整されたコード生成モデルのファミリーであるSCoderを開発する。
SCoderモデルは最先端のコード生成機能を実現し,提案手法の有効性を実証する。
関連論文リスト
- A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis [43.746749403268275]
大規模言語モデル(LLM)は、計算コスト、環境不効率、モノリシックアーキテクチャから受け継いだ潜在的なバイアスに悩まされる。
我々は、高品質で多様な信頼性のあるデータを生成するために、小さなLLMにまたがる特殊な役割を集約する協調的なフレームワークGRAを提案する。
本研究は,データ合成におけるモノリシックな大規模モデルの必要性に挑戦し,より小さなエージェントの戦略的コーディネーションを提唱する。
論文 参考訳(メタデータ) (2025-04-11T06:13:43Z) - ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。
RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。
ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。
我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文 参考訳(メタデータ) (2024-06-28T01:44:57Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。