論文の概要: BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2502.01697v3
- Date: Wed, 21 May 2025 17:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.400131
- Title: BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation
- Title(参考訳): BARE:Few-Shot合成データ生成のためのベース言語モデルを活用する
- Authors: Alan Zhu, Parth Asawa, Jared Quincy Davis, Lingjiao Chen, Boris Hanin, Ion Stoica, Joseph E. Gonzalez, Matei Zaharia,
- Abstract要約: 現在のデータ生成法は、数万の例を含むシードセットに依存して、命令調整されたモデルを実行している。
いくつか例を挙げると、インストラクションチューニングモデルでは、下流タスクの多様性が不十分であることが分かる。
本研究では,ベースモデルの多様性と命令調整モデルの品質保証を両立させる新しい2段階手法であるBase-Refineを提案する。
- 参考スコア(独自算出の注目度): 71.46236155101032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the demand for high-quality data in model training grows, researchers and developers are increasingly generating synthetic data to tune and train LLMs. However, current data generation methods rely on seed sets containing tens of thousands of examples to prompt instruction-tuned models. This reliance can be especially problematic when the curation of high-quality examples is expensive or difficult. In this paper we explore the novel few-shot synthetic data generation setting -- generating a high-quality dataset from a few examples. We show that when working with only a few seed examples, instruction-tuned models used in current synthetic data methods produce insufficient diversity for downstream tasks. In contrast, we show that base models without post-training, largely untapped for synthetic data generation, offer substantially greater output diversity, albeit with lower instruction following abilities. Leveraging this insight, we propose Base-Refine (BARE), a novel two-stage method that combines the diversity of base models with the quality assurance of instruction-tuned models. BARE excels in few-shot synthetic data generation: using only 3 seed examples it generates diverse, high-quality datasets that significantly improve downstream task performance. We show that fine-tuning Llama 3.1 8B with 1,000 BARE-generated samples achieves performance comparable to state-of-the-art similarly sized models on LiveCodeBench tasks. Furthermore, data generated with BARE enables a 101% improvement for a fine-tuned Llama 3.2 1B on GSM8K over data generated by only instruction-models, and an 18.4% improvement for a fine-tuned Llama 3.1 8B over the state-of-the-art RAFT method for RAG data generation.
- Abstract(参考訳): モデルトレーニングにおける高品質なデータの需要が増大するにつれて、研究者や開発者は、LSMをチューニングし、訓練するための合成データの生成をますます増加させています。
しかし、現在のデータ生成手法は、数万のサンプルを含むシードセットに依存して、命令調整されたモデルを実行している。
高品質なサンプルのキュレーションが高価または困難である場合、この依存は特に問題となる。
本稿では、いくつかの例から高品質なデータセットを生成する、新規な数ショット合成データ生成設定について検討する。
数種類の実例で作業する場合、現在の合成データ手法で使用される命令調整モデルが下流タスクに不十分な多様性をもたらすことを示す。
対照的に, ポストトレーニングのないベースモデルは, 主に合成データ生成に不適であり, 出力の多様性は著しく向上するが, 後続の学習能力は低い。
この知見を生かして、ベースモデルの多様性と命令調整モデルの品質保証を組み合わせた新しい2段階法であるBase-Refine(BARE)を提案する。
3つのシード例だけで、さまざまな高品質なデータセットを生成し、ダウンストリームタスクのパフォーマンスを大幅に改善します。
Llama 3.1 8B を1,000 BARE 生成サンプルで微調整することで,LiveCodeBench タスクの最先端モデルに匹敵する性能が得られることを示す。
さらに、BAREで生成されたデータは、命令モデルのみによって生成されたデータに対してGSM8K上の微調整されたLlama 3.21Bに対して101%改善され、RAFT法によるRAFT法よりも18.4%改善された。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - AugGen: Synthetic Augmentation Can Improve Discriminative Models [14.680260279598045]
自己完結型合成拡張技術を紹介する。
ターゲットデータセットにのみ訓練された条件生成モデルから戦略的にサンプリングする。
IJB-CベンチマークとIJB-Bベンチマークで1~12%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-03-14T16:10:21Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare [12.218718086529462]
本研究は中国における総合医療ベンチマーク(CMB)に焦点を当てる。
私たちは、より大きなモデルに匹敵するスコアを得るために、より小さなベースモデルをトレーニングしました。
幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。
論文 参考訳(メタデータ) (2024-07-29T05:00:48Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Synthetic Data Generation in Low-Resource Settings via Fine-Tuning of
Large Language Models [15.991777903345575]
大規模な言語モデルは、比較的少ないラベル付き例で下流タスクを一般化することができる。
あるいは、ラベル付きサンプルを十分に微調整すれば、より小さなモデルで特定のタスクを解くことができる。
我々は、より小さなモデルの下流性能を改善するために、微調整教師LEMを用いた微調整訓練データの合成データ生成について検討した。
論文 参考訳(メタデータ) (2023-10-02T11:49:05Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。