Fugu-MT 論文翻訳(概要): Evaluating Language Models as Synthetic Data Generators

論文の概要: Evaluating Language Models as Synthetic Data Generators

arxiv url: http://arxiv.org/abs/2412.03679v1
Date: Wed, 04 Dec 2024 19:20:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.750794
Title: Evaluating Language Models as Synthetic Data Generators
Title（参考訳）: 合成データジェネレータとしての言語モデルの評価
Authors: Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig,
Abstract要約: AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
参考スコア（独自算出の注目度）: 74.80905172696366
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given the increasing use of synthetic data in language model (LM) post-training, an LM's ability to generate high-quality data has become nearly as crucial as its ability to solve problems directly. While prior works have focused on developing effective data generation methods, they lack systematic comparison of different LMs as data generators in a unified setting. To address this gap, we propose AgoraBench, a benchmark that provides standardized settings and metrics to evaluate LMs' data generation abilities. Through synthesizing 1.26 million training instances using 6 LMs and training 99 student models, we uncover key insights about LMs' data generation capabilities. First, we observe that LMs exhibit distinct strengths. For instance, GPT-4o excels at generating new problems, while Claude-3.5-Sonnet performs better at enhancing existing ones. Furthermore, our analysis reveals that an LM's data generation ability doesn't necessarily correlate with its problem-solving ability. Instead, multiple intrinsic features of data quality-including response quality, perplexity, and instruction difficulty-collectively serve as better indicators. Finally, we demonstrate that strategic choices in output format and cost-conscious model selection significantly impact data generation effectiveness.
Abstract（参考訳）: 学習後の言語モデル(LM)における合成データの利用の増加を考えると、高品質なデータを生成する能力は、問題を直接解決する能力と同じくらい重要になっている。従来の研究は効率的なデータ生成手法の開発に重点を置いていたが、統一された環境でのデータ生成装置として異なるLMを体系的に比較することはできなかった。このギャップに対処するため、私たちは、LMのデータ生成能力を評価するために標準化された設定とメトリクスを提供するベンチマークであるAgoraBenchを提案する。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。まず、LMが異なる強度を示すことを観察する。例えば、GPT-4oは新たな問題を発生させるのに優れ、Claude-3.5-Sonnetは既存の問題を改善するのに優れている。さらに,本分析の結果から,LMのデータ生成能力はその問題解決能力と必ずしも相関しないことが明らかとなった。代わりに、データ品質、応答品質、難易度、命令難易度を含む複数の固有の特徴がより良い指標として機能する。最後に、出力形式とコストを考慮したモデル選択における戦略的選択が、データ生成の有効性に大きな影響を及ぼすことを示す。

関連論文リスト

Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文参考訳（メタデータ） (2025-05-06T07:57:16Z)
Learning from Reasoning Failures via Synthetic Data Generation [5.893928870271388]
本稿では,既存のLMMの推論失敗の分析に基づく合成データ生成手法を提案する。 553k以上のサンプルを含む大規模なマルチモーダル命令チューニングデータセットを生成する。以上の結果から,我々の合成データに基づいてトレーニングしたモデルが,等価量の実データに基づいてトレーニングしたLMMの性能を上回ることが示唆された。
論文参考訳（メタデータ） (2025-04-20T07:45:53Z)
Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis [0.0]
材料科学における機械学習は、限られた実験データのために困難に直面している。大規模言語モデル(LLM)を用いて機械学習の性能を向上させる戦略を提案する。
論文参考訳（メタデータ） (2025-03-06T16:04:01Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文参考訳（メタデータ） (2024-04-15T17:49:16Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-25T11:38:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。