論文の概要: What Matters in LLM-generated Data: Diversity and Its Effect on Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.19262v1
- Date: Tue, 24 Jun 2025 02:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.451711
- Title: What Matters in LLM-generated Data: Diversity and Its Effect on Model Fine-Tuning
- Title(参考訳): LLM生成データで何が重要か:多様性とモデルファインチューニングへの影響
- Authors: Yuchang Zhu, Zhonghua zhen, Qunshu Lin, Haotong Wei, Xiaolong Sun, Zixuan Yu, Minghao Liu, Zibin Zheng, Liang Chen,
- Abstract要約: LLM生成データの多様性レベルが下流モデルの性能にどのように影響するかを示す。
また、LLM生成データの異なる割合を混合したデータに基づいて訓練されたモデルの性能についても検討する。
- 参考スコア(独自算出の注目度): 22.43647238560673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the remarkable generative capabilities of large language models (LLMs), using LLM-generated data to train downstream models has emerged as a promising approach to mitigate data scarcity in specific domains and reduce time-consuming annotations. However, recent studies have highlighted a critical issue: iterative training on self-generated data results in model collapse, where model performance degrades over time. Despite extensive research on the implications of LLM-generated data, these works often neglect the importance of data diversity, a key factor in data quality. In this work, we aim to understand the implications of the diversity of LLM-generated data on downstream model performance. Specifically, we explore how varying levels of diversity in LLM-generated data affect downstream model performance. Additionally, we investigate the performance of models trained on data that mixes different proportions of LLM-generated data, which we refer to as synthetic data. Our experimental results show that, with minimal distribution shift, moderately diverse LLM-generated data can enhance model performance in scenarios with insufficient labeled data, whereas highly diverse generated data has a negative impact. We hope our empirical findings will offer valuable guidance for future studies on LLMs as data generators.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な生成能力により、LLM生成データを使用して下流モデルのトレーニングが、特定のドメインにおけるデータの不足を軽減し、アノテーションの時間を短縮する、有望なアプローチとして登場した。
しかし、最近の研究は重要な問題を強調している: 自己生成データに対する反復的なトレーニングは、モデルの性能が時間の経過とともに低下するモデル崩壊をもたらす。
LLM生成データに関する広範な研究にもかかわらず、これらの研究はデータ品質の重要な要素であるデータの多様性の重要性を無視することが多い。
本研究では,LLM生成データの多様性が下流モデルの性能に与える影響を理解することを目的とする。
具体的には,LLM生成データの多様性レベルが下流モデルの性能に与える影響について検討する。
さらに,LLM生成データの異なる割合を混合したデータに基づいて学習したモデルの性能について検討する。
実験結果から, 分散シフトが最小限であるため, ラベル付きデータに乏しいシナリオでは, LLM生成データが適度に多様であり, モデル性能が向上することが示唆された。
データジェネレータとしてのLCMの今後の研究に有用なガイダンスが提供されることを願っている。
関連論文リスト
- Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [34.6322241916799]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Synthetic Data Generation with Large Language Models for Text
Classification: Potential and Limitations [21.583825474908334]
本研究では,合成データに基づいて学習したモデルの性能が,分類の主観性によってどう変化するかを検討する。
その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づいて訓練されたモデルの性能と負の相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-10-11T19:51:13Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。