論文の概要: Perplexity-Aware Data Scaling Law: Perplexity Landscapes Predict Performance for Continual Pre-training
- arxiv url: http://arxiv.org/abs/2512.21515v1
- Date: Thu, 25 Dec 2025 05:40:46 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:56:31.157494
- Title: Perplexity-Aware Data Scaling Law: Perplexity Landscapes Predict Performance for Continual Pre-training
- Title(参考訳): Perplexity-Aware Data Scaling Law: Perplexity Landscapes predict Performance for Continual Pre-training
- Authors: Lei Liu, Hao Zhu, Yue Shen, Zhixuan Chu, Jian Wang, Jinjie Gu, Kui Ren,
- Abstract要約: 事前トレーニングのスケーリング法則は、データセットのサイズとLLMのテスト損失との間には、ゆるい関係がある。
本稿では,ドメイン固有データの難易度景観とテスト損失との予測的関係を確立するために,新しいパープレキシティ対応データスケーリング法を提案する。
本手法は, ほぼ最適トレーニングサブセットを一貫して同定し, 医用および一般のベンチマークにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 46.54209378000497
- License:
- Abstract: Continual Pre-training (CPT) serves as a fundamental approach for adapting foundation models to domain-specific applications. Scaling laws for pre-training define a power-law relationship between dataset size and the test loss of an LLM. However, the marginal gains from simply increasing data for CPT diminish rapidly, yielding suboptimal data utilization and inefficient training. To address this challenge, we propose a novel perplexity-aware data scaling law to establish a predictive relationship between the perplexity landscape of domain-specific data and the test loss. Our approach leverages the perplexity derived from the pre-trained model on domain data as a proxy for estimating the knowledge gap, effectively quantifying the informational perplexity landscape of candidate training samples. By fitting this scaling law across diverse perplexity regimes, we enable adaptive selection of high-utility data subsets, prioritizing content that maximizes knowledge absorption while minimizing redundancy and noise. Extensive experiments demonstrate that our method consistently identifies near-optimal training subsets and achieves superior performance on both medical and general-domain benchmarks.
- Abstract(参考訳): CPT(Continuous Pre-training)は、基礎モデルをドメイン固有のアプリケーションに適用するための基本的なアプローチとして機能する。
事前トレーニングのスケーリング法則は、データセットのサイズとLLMのテスト損失との間には、ゆるい関係がある。
しかし、単にCPTのデータの増加による限界ゲインは急速に減少し、最適なデータ利用と非効率なトレーニングをもたらす。
この課題に対処するために、ドメイン固有データの難易度とテスト損失との予測的関係を確立するために、新しいパープレキシティ対応データスケーリング法を提案する。
提案手法は,知識ギャップを推定するためのプロキシとして,ドメインデータの事前学習モデルから得られた難易度を活用し,候補学習サンプルの情報難易度景観を効果的に定量化する。
このスケーリング法則を多種多様なパープレキシティ・レシスタンスに適用することにより、冗長性とノイズを最小限に抑えながら知識吸収を最大化するコンテンツを優先し、高ユーティリティデータサブセットの適応的選択を可能にする。
広範囲な実験により,本手法は準最適トレーニングサブセットを一貫して同定し,医用および一般ドメインのベンチマークにおいて優れた性能を発揮することが示された。
関連論文リスト
- Stable Coresets via Posterior Sampling: Aligning Induced and Full Loss Landscapes [7.446140380340418]
Coreset選択は、完全なデータセットのパフォーマンスを近似する、小さな、代表的なデータのサブセットを特定することで、トレーニングを加速することを目的としている。
勾配に基づく手法は、特に限られたデータ予算の下で、強力な理論的基盤と実用的な利益のために際立っている。
本稿では、これらの制約に対処する新しいフレームワークを提案する。まず、後方サンプリングとロスランドスケープの接続を確立し、高データ破損シナリオにおいてもロバストなコアセット選択を可能にする。
論文 参考訳(メタデータ) (2025-11-21T17:00:00Z) - Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data [68.85234898614571]
LLMの推論能力を高めるための主流パラダイムは、高品質な推論集約的なデータによるポストトレーニングを中心に展開される。
新興文献では、学習中期にも推論データが組み込まれていることが示唆されているが、事前学習におけるそうしたデータの役割はいまだ不明である。
我々は,学習の異なる段階に導入した場合のLLM性能に,スケール,多様性,品質がどのような影響を及ぼすかについて,最初の系統的研究を行った。
論文 参考訳(メタデータ) (2025-09-26T20:08:51Z) - A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation [16.82426251068573]
リンク予測(LP)は、グラフ機械学習において重要なタスクである。
既存の手法は、疎結合性からの限られた監督を含む重要な課題に直面している。
これらの課題に対処するためのソリューションとして,事前学習について検討する。
論文 参考訳(メタデータ) (2025-08-06T17:10:31Z) - APT: Adaptive Personalized Training for Diffusion Models with Limited Data [6.455553965143672]
本稿では、適応的なトレーニング戦略を採用し、微調整中にモデルの内部表現を規則化することで過度な適合を緩和する新しいフレームワークを提案する。
広範な実験を通じて、APTは過剰適合を効果的に軽減し、事前知識を保存し、参照データに制限のある高品質で多様な画像を生成する既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-07-03T14:58:08Z) - Reasoning to Learn from Latent Thoughts [61.2395150828168]
本研究では,テキスト生成プロセスの根底にある表現的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上させることができることを示す。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-03-24T16:41:23Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Learning to Limit Data Collection via Scaling Laws: Data Minimization
Compliance in Practice [62.44110411199835]
我々は機械学習法における文献に基づいて、データとシステム性能を結びつけるデータ解釈に基づく収集を制限するフレームワークを提案する。
我々は、性能曲線微分に基づくデータ最小化基準を定式化し、有効かつ解釈可能な分数法法技術を提供する。
論文 参考訳(メタデータ) (2021-07-16T19:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。