Fugu-MT 論文翻訳(概要): Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

論文の概要: Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

arxiv url: http://arxiv.org/abs/2310.13671v1
Date: Fri, 20 Oct 2023 17:14:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 21:46:19.785776
Title: Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models
Title（参考訳）: ステップバイステップの合成: 小さなモデルからエラーを外挿して、大きな言語モデルによる反復データセットの合成
Authors: Ruida Wang, Wangchunshu Zhou, Mrinmaya Sachan
Abstract要約: ※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
参考スコア（独自算出の注目度）: 69.76066070227452
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: *Data Synthesis* is a promising way to train a small model with very little labeled data. One approach for data synthesis is to leverage the rich knowledge from large language models to synthesize pseudo training examples for small models, making it possible to achieve both data and compute efficiency at the same time. However, a key challenge in data synthesis is that the synthesized dataset often suffers from a large distributional discrepancy from the *real task* data distribution. Thus, in this paper, we propose *Synthesis Step by Step* (**S3**), a data synthesis framework that shrinks this distribution gap by iteratively extrapolating the errors made by a small model trained on the synthesized dataset on a small real-world validation dataset using a large language model. Extensive experiments on multiple NLP tasks show that our approach improves the performance of a small model by reducing the gap between the synthetic dataset and the real data, resulting in significant improvement compared to several baselines: 9.48% improvement compared to ZeroGen and 2.73% compared to GoldGen, and at most 15.17% improvement compared to the small model trained on human-annotated data.
Abstract（参考訳）: ※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。データ合成の1つのアプローチは、大規模な言語モデルからの豊富な知識を活用して、小さなモデルの擬似トレーニング例を合成することで、データと計算効率を同時に達成する。しかし、データ合成における重要な課題は、合成データセットが*実際のタスク*データ分布との大きな分散不一致に悩まされることがしばしばあることである。そこで本稿では,大規模な言語モデルを用いて,合成データセット上で訓練された小さなモデルによる誤りを反復的に外挿することで,この分散ギャップを縮小するデータ合成フレームワーク**(**S3**)を提案する。複数のnlpタスクに関する広範な実験は、合成データセットと実際のデータとの間のギャップを小さくすることで、小さなモデルのパフォーマンスを改善できることを示しました。その結果、いくつかのベースラインと比較すると、9.48%改善とgoldgenに対する2.73%、そして、人間の注釈付きデータで訓練された小さなモデルと比較して、最大15.17%改善しました。

関連論文リスト

Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Assessing Generative Models for Structured Data [0.0]
本稿では,データ内のカラム間依存関係を調べることで,実データに対して合成データを評価するための厳密な手法を提案する。大規模言語モデル (GPT-2) は,数発のプロンプトによってクエリされた場合と微調整された場合の両方で,GAN (CTGAN) モデルは元の実データに類似した依存関係を持つデータを生成しないことがわかった。
論文参考訳（メタデータ） (2025-03-26T18:19:05Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。半合成データを得るために,人為的データに対するトークン編集を提案する。
論文参考訳（メタデータ） (2024-12-19T09:43:39Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。 SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文参考訳（メタデータ） (2024-10-24T10:47:30Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文参考訳（メタデータ） (2023-10-27T03:32:17Z)
Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文参考訳（メタデータ） (2023-10-15T04:24:42Z)
Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。データ拡張の可能性や構造化品種の導入など、その利点を強調します。テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文参考訳（メタデータ） (2023-10-11T19:16:09Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition [18.924716098922683]
合成データによる機械学習は、合成データと実際のデータ分布のギャップのため、簡単ではない。本稿では,分散ギャップに起因する問題を緩和するために,トレーニング中の2つの新しい手法を提案する。これらの手法は,合成データを用いた音声認識モデルの訓練を著しく改善することを示す。
論文参考訳（メタデータ） (2021-10-21T21:11:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。