論文の概要: Data Value in the Age of Scaling: Understanding LLM Scaling Dynamics Under Real-Synthetic Data Mixtures
- arxiv url: http://arxiv.org/abs/2511.13640v1
- Date: Mon, 17 Nov 2025 17:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.647821
- Title: Data Value in the Age of Scaling: Understanding LLM Scaling Dynamics Under Real-Synthetic Data Mixtures
- Title(参考訳): スケーリング時代のデータ価値: 実合成データ混合下でのLLMスケーリングダイナミクスの理解
- Authors: Haohui Wang, Jingyuan Qi, Jianpeng Chen, Jun Wu, Lifu Huang, Lecheng Zheng, Kevin Choi, Balaji Veeramani, Edward Bowen, Alison Hu, Tyler Cody, Dawei Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、実データと合成データをブレンドするデータセット上に構築されている。
合成データはスケーラビリティとコスト効率を提供するが、しばしば系統的な分散の相違をもたらす。
本稿では,大規模データセットにスケールする効果的なデータ評価手法を提案する。
- 参考スコア(独自算出の注目度): 32.89034139737846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of large language models (LLMs) is fueled by the growing reliance on datasets that blend real and synthetic data. While synthetic data offers scalability and cost-efficiency, it often introduces systematic distributional discrepancies, particularly underrepresenting long-tail knowledge due to truncation effects from data generation mechanisms like top-p sampling, temperature scaling, and finite sampling. These discrepancies pose fundamental challenges in characterizing and evaluating the utility of mixed real-synthetic datasets. In this paper, we identify a three-phase scaling behavior characterized by two breakpoints that reflect transitions in model behavior across learning head and tail knowledge. We further derive an LLM generalization bound designed for real and synthetic mixtures, revealing several key factors that govern their generalization performance. Building on our theoretical findings, we propose an effective yet efficient data valuation method that scales to large-scale datasets. Comprehensive experiments across four tasks, including image classification, sentiment classification, instruction following, and complex reasoning, demonstrate that our method surpasses state-of-the-art baselines in data valuation with significantly low computational cost.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、実データと合成データを混合するデータセットへの依存の高まりによって加速される。
合成データはスケーラビリティとコスト効率を提供するが、特にトップpサンプリング、温度スケーリング、有限サンプリングなどのデータ生成メカニズムによるトランケーション効果によるロングテール知識の不足など、系統的な分散の相違をもたらすことが多い。
これらの相違は、混合現実合成データセットの有用性を特徴づけ、評価する上で、根本的な課題となる。
本稿では,学習の頭と尾の知識間のモデル行動の遷移を反映した2つのブレークポイントを特徴とする3段階のスケーリング行動を特定する。
さらに, 実混合および合成混合のために設計されたLLM一般化を導出し, それらの一般化性能を規定するいくつかの重要な要因を明らかにした。
理論的な結果に基づいて,大規模データセットにスケールする効率的かつ効率的なデータ評価手法を提案する。
画像分類,感情分類,指示追従,複雑な推論を含む4つのタスクの総合的な実験により,我々の手法は,計算コストが著しく低いデータ評価において,最先端のベースラインを超えていることが実証された。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis [0.0]
材料科学における機械学習は、限られた実験データのために困難に直面している。
大規模言語モデル(LLM)を用いて機械学習の性能を向上させる戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T16:04:01Z) - Going Beyond Feature Similarity: Effective Dataset Distillation based on Class-Aware Conditional Mutual Information [43.44508080585033]
本稿では,データセットのクラス認識複雑性を評価するために,条件付き相互情報(CMI)を導入する。
合成データセットのクラス認識複雑性を制約しながら,蒸留損失を最小限に抑える。
論文 参考訳(メタデータ) (2024-12-13T08:10:47Z) - SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。
合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。
その結果, 提案手法の有効性と合成データの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-13T14:58:21Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。