論文の概要: Synthetic Eggs in Many Baskets: The Impact of Synthetic Data Diversity on LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.01490v1
- Date: Mon, 03 Nov 2025 11:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.246734
- Title: Synthetic Eggs in Many Baskets: The Impact of Synthetic Data Diversity on LLM Fine-Tuning
- Title(参考訳): 多くのバスケットの合成卵:LLM微細調整における合成データの多様性の影響
- Authors: Max Schaffelder, Albert Gatt,
- Abstract要約: 本稿では,合成データの多様性が微調整された大言語モデルに与える影響について検討する。
我々は,分散崩壊,敵対的堅牢性,自己選好バイアスという,3つの重要な側面に注目している。
- 参考スコア(独自算出の注目度): 4.974488914175061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As synthetic data becomes widely used in language model development, understanding its impact on model behavior is crucial. This paper investigates the impact of the diversity of sources of synthetic data on fine-tuned large language models. We focus on three key dimensions: distribution collapse, adversarial robustness, and self-preference bias. Our findings reveal that fine-tuning models on synthetic data from diverse sources can mitigate distribution collapse, preserving the breadth of the output distribution and the diversity of the output text. Furthermore, while both human and synthetic fine-tuning data can remove safeguards, the latter preserves higher output quality, thus making outputs potentially more usable and dangerous. Finally, fine-tuning reduces self-preference bias, with human data being the most effective, followed by multi-source synthetic data.
- Abstract(参考訳): 合成データが言語モデル開発に広く使われるようになると、そのモデル行動への影響を理解することが重要である。
本稿では,合成データの多様性が微調整された大言語モデルに与える影響について検討する。
我々は,分散崩壊,敵対的堅牢性,自己選好バイアスという,3つの重要な側面に注目している。
本研究により, 各種音源からの合成データの微調整モデルにより, 出力分布の幅と出力テキストの多様性を保ち, 分布崩壊を緩和できることがわかった。
さらに、人間と合成の微調整データの両方が安全保護を除去できる一方で、後者は高い出力品質を維持し、出力をより使いやすく、危険に晒す可能性がある。
最後に、微調整は自己参照バイアスを減らし、人間のデータが最も効果的で、次いで複数のソース合成データが続く。
関連論文リスト
- Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing [12.108801150980598]
本稿では,多種多様な有害データを生成するためにクラウドソーシングモデルを適用したPoisonSwarmを提案する。
それぞれのテンプレートを複数の意味単位に分解し、単位単位のトキフィケーションを実行する。
実験により、PoisonSwarmは有害データの異なるカテゴリを合成することで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-05-27T13:33:57Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。
半合成データを得るために,人為的データに対するトークン編集を提案する。
論文 参考訳(メタデータ) (2024-12-19T09:43:39Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Bias Mitigated Learning from Differentially Private Synthetic Data: A
Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。
民営化確率比を用いた複数のバイアス緩和戦略を提案する。
バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T19:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。