論文の概要: Using Scaling Laws for Data Source Utility Estimation in Domain-Specific Pre-Training
- arxiv url: http://arxiv.org/abs/2507.22250v1
- Date: Tue, 29 Jul 2025 21:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.882753
- Title: Using Scaling Laws for Data Source Utility Estimation in Domain-Specific Pre-Training
- Title(参考訳): ドメイン特有な事前トレーニングにおけるデータソースユーティリティ推定のためのスケーリング法の適用
- Authors: Oleksiy Ostapenko, Charles Guille-Escuret, Luke Kumar, Max Tian, Denis Kocetkov, Gopeshh Subbaraj, Raymond Li, Joel Lamy-Poirier, Sebastien Paquet, Torsten Scholak,
- Abstract要約: 基礎モデルトレーニングにおいて,ドメイン固有のデータセット構築を最適化するためのフレームワークを提案する。
我々のアプローチは、スケーリング法則を推定するために、通常の点推定アプローチ、いわゆるマイクロアニール(micro-annealing)を拡張します。
我々は、70億のパラメータを持つ事前学習モデルの実験を通して、我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 4.90288999217624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a framework for optimizing domain-specific dataset construction in foundation model training. Specifically, we seek a cost-efficient way to estimate the quality of data sources (e.g. synthetically generated or filtered web data, etc.) in order to make optimal decisions about resource allocation for data sourcing from these sources for the stage two pre-training phase, aka annealing, with the goal of specializing a generalist pre-trained model to specific domains. Our approach extends the usual point estimate approaches, aka micro-annealing, to estimating scaling laws by performing multiple annealing runs of varying compute spent on data curation and training. This addresses a key limitation in prior work, where reliance on point estimates for data scaling decisions can be misleading due to the lack of rank invariance across compute scales -- a phenomenon we confirm in our experiments. By systematically analyzing performance gains relative to acquisition costs, we find that scaling curves can be estimated for different data sources. Such scaling laws can inform cost effective resource allocation across different data acquisition methods (e.g. synthetic data), data sources (e.g. user or web data) and available compute resources. We validate our approach through experiments on a pre-trained model with 7 billion parameters. We adapt it to: a domain well-represented in the pre-training data -- the medical domain, and a domain underrepresented in the pretraining corpora -- the math domain. We show that one can efficiently estimate the scaling behaviors of a data source by running multiple annealing runs, which can lead to different conclusions, had one used point estimates using the usual micro-annealing technique instead. This enables data-driven decision-making for selecting and optimizing data sources.
- Abstract(参考訳): 基礎モデルトレーニングにおいて,ドメイン固有のデータセット構築を最適化するためのフレームワークを提案する。
具体的には,データソースの品質(例えば,合成されたWebデータやフィルタリングされたWebデータなど)を推定するコスト効率の高い方法を模索する。
我々の手法は、データキュレーションとトレーニングに費やされた様々な計算の複数のアニーリングを実行することによって、スケーリング法則を推定するために、通常のポイント推定アプローチ、いわゆるマイクロアニーリングを拡張している。
これは、以前の作業における重要な制限に対処するものであり、データスケーリングの決定に対するポイント推定への依存は、計算スケール間のランク不変性の欠如によって誤解を招く可能性がある -- 実験で確認した現象である。
取得コストに対する性能向上を体系的に解析することにより,異なるデータソースに対してスケーリング曲線を推定できることが判明した。
このようなスケーリング法則は、異なるデータ取得方法(例えば、合成データ)、データソース(例えば、ユーザまたはWebデータ)、利用可能な計算リソース間で、コスト効率の良いリソース割り当てを通知することができる。
我々は、70億のパラメータを持つ事前学習モデルの実験を通して、我々のアプローチを検証する。
事前トレーニングデータ – 医療ドメイン – で適切に表現されたドメインと,事前トレーニングコーパス – 数学ドメインで不足しているドメイン – に適応します。
本研究では,複数のアニール走行によってデータソースのスケーリング挙動を効率的に推定できることを示す。
これにより、データソースの選択と最適化のためのデータ駆動意思決定が可能になる。
関連論文リスト
- Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training [30.915768238214653]
Data Mixing Agentは、ドメインの再重み付けを学ぶエンドツーエンドフレームワークである。
未確認のソースフィールド、ターゲットモデル、そして再トレーニングなしでドメイン空間をうまく一般化する。
論文 参考訳(メタデータ) (2025-07-21T14:01:54Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文 参考訳(メタデータ) (2024-08-05T03:18:58Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Uncertainty-guided Source-free Domain Adaptation [77.3844160723014]
ソースフリードメイン適応(SFDA)は、事前訓練されたソースモデルのみを使用することで、未ラベルのターゲットデータセットに分類器を適応させることを目的としている。
本稿では、ソースモデル予測の不確実性を定量化し、ターゲット適応の導出に利用することを提案する。
論文 参考訳(メタデータ) (2022-08-16T08:03:30Z) - Source-Free Domain Adaptation via Distribution Estimation [106.48277721860036]
ドメイン適応は、ラベル付きソースドメインから学んだ知識を、データ分散が異なるラベル付きターゲットドメインに転送することを目的としています。
近年,ソースフリードメイン適応 (Source-Free Domain Adaptation, SFDA) が注目されている。
本研究では,SFDA-DEと呼ばれる新しいフレームワークを提案し,ソース分布推定によるSFDAタスクに対処する。
論文 参考訳(メタデータ) (2022-04-24T12:22:19Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。