論文の概要: PTPP-Aware Adaptation Scaling Laws: Predicting Domain-Adaptation Performance at Unseen Pre-Training Budgets
- arxiv url: http://arxiv.org/abs/2510.23198v1
- Date: Mon, 27 Oct 2025 10:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.523655
- Title: PTPP-Aware Adaptation Scaling Laws: Predicting Domain-Adaptation Performance at Unseen Pre-Training Budgets
- Title(参考訳): PTPP-Aware Adaptation Scaling Laws:Repredicting Domain-Adaptation Performance at Unseen Pre-Training Budgets
- Authors: Etienne Goffinet, Shane Bergsma, Avraham Sheinin, Natalia Vassilieva, Shaheer Muhammad, Preslav Nakov, Gurpreet Gosal,
- Abstract要約: 既存の事前訓練法は、適応結果を予測する能力を制限する固定された事前訓練予算を前提としている。
本稿では、事前学習予算を明示的な変数とし、未確認のptppでの適応損失の正確な予測を可能にするemphPTPP対応適応スケーリング法を提案する。
- 参考スコア(独自算出の注目度): 39.874108063927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual pre-training (CPT) for domain adaptation must balance target-domain gains with stability on the base domain. Existing CPT scaling laws typically assume a fixed pre-training budget, which limits their ability to forecast adaptation outcomes for models trained at different tokens-per-parameter (PTPP). We present \emph{PTPP-aware} adaptation scaling laws that make the pre-training budget an explicit variable, enabling accurate \emph{prediction} of adaptation loss at unseen \ptpp. On a multilingual setup (English/Arabic $\rightarrow$ French), PTPP-aware formulations trained on early stages (\ptpp{}=\{15,31\}) predict target loss at \ptpp{}=279 and outperform a PTPP-agnostic \dcpt{} transfer baseline on metrics (Huber-on-log, MAE$_\mathrm{rel}$, calibration slope); full diagnostics (RMSE, MAPE) are in the appendix. Beyond forecasting, we show a practical use case: planning replay ratios and adaptation token budgets that satisfy target and forgetting constraints under compute limits.
- Abstract(参考訳): ドメイン適応のための連続事前訓練(CPT)は、ベースドメインの安定性と目標ドメインゲインのバランスをとる必要がある。
既存のCPTスケーリング法は、通常、固定された事前訓練予算を仮定し、異なるトークン毎パラメータ(PTPP)でトレーニングされたモデルの適応結果を予測する能力を制限する。
本稿では、事前学習予算を明示変数とし、未確認のptppにおける適応損失の正確なemph{prediction}を可能にする適応スケーリング法を提案する。
多言語設定(英語/アラビア語$\rightarrow$ French)では、PTPP対応の定式化が早期(\ptpp{}=\{15,31\})でトレーニングされたターゲット損失を予測し、メトリクス(Huber-on-log, MAE$_\mathrm{rel}$, calibration slope; 完全な診断(RMSE, MAPE)が付加される。
予測以外にも、目標を満たすリプレイ率と適応トークン予算の計画、計算限界下での制約の無視といった実践的なユースケースを示す。
関連論文リスト
- Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA [50.494504099850325]
我々は、トークン列が滑らかな意味多様体上の測地線を辿り、従って局所線型であることを示す測地論仮説を導入する。
本稿では,この制約により信号対雑音比が向上し,軌道中の衝突を防止することにより多様性が保たれることを示す。
幾何学的先行性は、ブルートフォーススケーリングを超越できることを実証する。
論文 参考訳(メタデータ) (2026-02-26T04:45:07Z) - Configuration-to-Performance Scaling Law with Neural Ansatz [19.686833161453464]
textitConfiguration-to-Performance Scaling Law (CPL)を学習する
CPLはトレーニング設定が最終トレーニング前損失にどのように影響するかを正確に予測する。
設定に依存しないチンチラ法よりも20~40%低い予測誤差を達成している。
論文 参考訳(メタデータ) (2026-02-10T21:16:59Z) - Distribution-informed Online Conformal Prediction [53.674678995825666]
更新ルールに基礎となるデータパターンを組み込んだオンラインコンフォメーション予測アルゴリズムである Conformal Optimistic Prediction (COP) を提案する。
COPは予測可能なパターンが存在する場合により厳密な予測セットを生成し、見積もりが不正確な場合でも有効なカバレッジ保証を保持する。
我々は,COPが有効なカバレッジを実現し,他のベースラインよりも短い予測間隔を構築できることを証明した。
論文 参考訳(メタデータ) (2025-12-08T17:51:49Z) - Direct Prediction Set Minimization via Bilevel Conformal Classifier Training [22.513575498491544]
コンフォーマル予測(CP)は、ブラックボックス分類器のラッパーとして機能する有望な不確実性定量化フレームワークである。
CPの標準的なキャリブレーション法は大きな予測セットを生成する傾向があるため、実際は役に立たない。
本稿では,予測集合のサイズを直接最小化するために,共形原理を深部分類器の訓練プロセスに統合する問題を考察する。
論文 参考訳(メタデータ) (2025-06-07T00:19:00Z) - Prediction-Powered Adaptive Shrinkage Estimation [0.9208007322096532]
予測パワー適応収縮(英: Prediction-Powered Adaptive Shrinkage、PAS)は、PPIを実証的なベイズ収縮で橋渡しし、複数の手段の推定を改善する手法である。
PASはML予測の信頼性に適応し、大規模アプリケーションにおいて従来のベースラインと現代的なベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-20T00:24:05Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。