論文の概要: Data Mixing Can Induce Phase Transitions in Knowledge Acquisition
- arxiv url: http://arxiv.org/abs/2505.18091v1
- Date: Fri, 23 May 2025 16:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.233003
- Title: Data Mixing Can Induce Phase Transitions in Knowledge Acquisition
- Title(参考訳): データ混合は知識獲得における相転移を引き起こす
- Authors: Xinran Gu, Kaifeng Lyu, Jiazheng Li, Jingzhao Zhang,
- Abstract要約: 知識密度データセットから知識を取得することは、必ずしもスムーズなスケーリング法則に従わないことを示す。
これらの相転移は予測可能であり, モデルサイズとのパワー-ロー関係に追従した臨界混合比を示す。
- 参考スコア(独自算出の注目度): 21.923905379872863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are typically trained on data mixtures: most data come from web scrapes, while a small portion is curated from high-quality sources with dense domain-specific knowledge. In this paper, we show that when training LLMs on such data mixtures, knowledge acquisition from knowledge-dense datasets, unlike training exclusively on knowledge-dense data (arXiv:2404.05405), does not always follow a smooth scaling law but can exhibit phase transitions with respect to the mixing ratio and model size. Through controlled experiments on a synthetic biography dataset mixed with web-scraped data, we demonstrate that: (1) as we increase the model size to a critical value, the model suddenly transitions from memorizing very few to most of the biographies; (2) below a critical mixing ratio, the model memorizes almost nothing even with extensive training, but beyond this threshold, it rapidly memorizes more biographies. We attribute these phase transitions to a capacity allocation phenomenon: a model with bounded capacity must act like a knapsack problem solver to minimize the overall test loss, and the optimal allocation across datasets can change discontinuously as the model size or mixing ratio varies. We formalize this intuition in an information-theoretic framework and reveal that these phase transitions are predictable, with the critical mixing ratio following a power-law relationship with the model size. Our findings highlight a concrete case where a good mixing recipe for large models may not be optimal for small models, and vice versa.
- Abstract(参考訳): 大きな言語モデル(LLM)は一般的にデータ混合物に基づいて訓練される。ほとんどのデータはウェブスクラップから生まれ、少数のデータはドメイン固有の知識が密集した高品質なソースから収集される。
本稿では,これらのデータ混合を用いたLCMのトレーニングにおいて,知識密度データセットからの知識獲得は,知識密度データのみに基づくトレーニング(arXiv:2404.05405)とは異なり,スムーズなスケーリング法則に従うのではなく,混合比とモデルサイズに関する相転移を示すことができることを示す。
ウェブスクラッドデータと混在する合成バイオグラフィーデータセットの制御実験により,(1) モデルサイズを重要値に増大させるにつれて, モデルが突然, ごく少数からほとんどのバイオグラフィーに記憶されるようになり, (2) 臨界混合比以下では, モデルはほとんど何も記憶されないが, このしきい値を超えると, 急速に多くのバイオグラフィーを記憶する。
モデルサイズや混合比が変化するにつれて、データセット間の最適な割り当てが不連続に変化する可能性がある。
我々はこの直観を情報理論の枠組みで定式化し、これらの相転移が予測可能であることを明らかにする。
以上の結果から,小型モデルでは適切な混合レシピが適さない可能性があり,その逆も考えられる。
関連論文リスト
- Maximize Your Data's Potential: Enhancing LLM Accuracy with Two-Phase Pretraining [39.75559743003037]
本研究では,2相事前学習の概念を定式化し,モデル精度を最大化するためにデータの選択と混合方法に関する体系的研究を行う。
我々は、データソースの品質と、見るべきエポックの数に基づいて、最適なブレンドを作るための詳細なガイダンスを提供する。
1Tトークンの小さなスケールでサンプルデータを用いてブレンドを設計し、15Tトークンのより大きなトークン水平線と25Bモデルサイズへのアプローチの効果的なスケーリングを実証することを提案する。
論文 参考訳(メタデータ) (2024-12-18T18:41:18Z) - BiMix: A Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - On Memorization in Diffusion Models [44.031805633114985]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。
我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。
本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文 参考訳(メタデータ) (2023-10-04T09:04:20Z) - Semiparametric Language Models Are Scalable Continual Learners [83.74414880208334]
セミパラメトリック言語モデル(LM)は、新しいテキストデータから継続的に学習する上で有望であることを示す。
Selective Memorization(SeMem)と呼ばれるシンプルで直感的なアプローチを提案する。
SeMemは、モデルが苦労する可能性のある難しいサンプルのみを記憶している。
論文 参考訳(メタデータ) (2023-03-02T17:15:02Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。