論文の概要: The Finetuner's Fallacy: When to Pretrain with Your Finetuning Data
- arxiv url: http://arxiv.org/abs/2603.16177v1
- Date: Tue, 17 Mar 2026 06:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.136772
- Title: The Finetuner's Fallacy: When to Pretrain with Your Finetuning Data
- Title(参考訳): ファインチューナーの欠陥:いつデータでプレトレーニングするか
- Authors: Christina Baek, Ricardo Pio Monti, David Schwab, Amro Abbas, Rishabh Adiga, Cody Blakeney, Maximilian Böther, Paul Burstein, Aldo Gael Carranza, Alvin Deng, Parth Doshi, Vineeth Dorna, Alex Fang, Tony Jiang, Siddharth Joshi, Brett W. Larsen, Jason Chan Lee, Katherine L. Mentzer, Luke Merrick, Haakon Mongstad, Fan Pan, Anshuman Suri, Darren Teh, Jason Telanoff, Jack Urbanek, Zhengping Wang, Josh Wills, Haoli Yin, Aditi Raghunathan, J. Zico Kolter, Bogdan Gaza, Ari Morcos, Matthew Leavitt, Pratyush Maini,
- Abstract要約: 本稿では,トークンの総数に占めるプレトレーニングから始めて,小さなドメインデータセットを繰り返す,SPT(Special Pretraining)というシンプルな戦略について検討する。
我々の実験では、SPTは与えられたドメインの性能に到達するのに必要な事前学習トークンを最大1.75倍まで削減する。
ファインタニングは、ドメイン適応への最も安い道のように見えるが、事前訓練中に特別なドメインデータを導入することは、その実用性を広げる。
- 参考スコア(独自算出の注目度): 55.87500250831868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world model deployments demand strong performance on narrow domains where data is often scarce. Typically, practitioners finetune models to specialize them, but this risks overfitting to the domain and forgetting general knowledge. We study a simple strategy, specialized pretraining (SPT), where a small domain dataset, typically reserved for finetuning, is repeated starting from pretraining as a fraction of the total tokens. Across three specialized domains (ChemPile, MusicPile, and ProofPile), SPT improves domain performance and preserves general capabilities after finetuning compared to standard pretraining. In our experiments, SPT reduces the pretraining tokens needed to reach a given domain performance by up to 1.75x. These gains grow when the target domain is underrepresented in the pretraining corpus: on domains far from web text, a 1B SPT model outperforms a 3B standard pretrained model. Beyond these empirical gains, we derive overfitting scaling laws to guide practitioners in selecting the optimal domain-data repetition for a given pretraining compute budget. Our observations reveal the finetuner's fallacy: while finetuning may appear to be the cheapest path to domain adaptation, introducing specialized domain data during pretraining stretches its utility. SPT yields better specialized domain performance (via reduced overfitting across repeated exposures) and better general domain performance (via reduced forgetting during finetuning), ultimately achieving stronger results with fewer parameters and less total compute when amortized over inference. To get the most out of domain data, incorporate it as early in training as possible.
- Abstract(参考訳): 実世界のモデルデプロイメントは、データがほとんどない狭いドメインに対して強力なパフォーマンスを要求する。
通常、実践者はモデルを微調整して専門化しますが、このリスクはドメインに過度に適合し、一般的な知識を忘れます。
我々は、通常、微調整用に予約された小さなドメインデータセットを、トークン全体のごく一部として事前訓練から始める、単純な戦略、特殊事前訓練(SPT)について検討する。
3つの専門ドメイン(ChemPile、MusicPile、ProofPile)にわたって、SPTはドメインパフォーマンスを改善し、通常の事前トレーニングと比較して微調整後の一般的な機能を維持する。
我々の実験では、SPTは与えられたドメインの性能に到達するのに必要な事前学習トークンを最大1.75倍まで削減する。
Webテキストから遠い領域では、1B SPTモデルは3B標準の事前訓練されたモデルよりも優れています。
これらの経験的利益の他に、所定の事前訓練された計算予算に対して最適なドメインデータ繰り返しを選択する際に、実践者を支援するために、オーバーフィッティングのスケーリング法則を導出します。
ファインタニングは、ドメイン適応への最も安い道のように見えるが、事前訓練中に特別なドメインデータを導入することは、その実用性を広げる。
SPTは、(繰り返し露光によるオーバーフィッティングを減らし)より優れた特殊ドメイン性能と(微調整中の忘れを減らし)より優れた汎用ドメイン性能を得る。
ドメインデータを最大限に活用するには、可能な限り早期にトレーニングを組み込む必要がある。
関連論文リスト
- Is Large-Scale Pretraining the Secret to Good Domain Generalization? [69.80606575323691]
マルチソース・ドメイン・ジェネリゼーション(Multi-Source Domain Generalization, DG)は、複数のソース・ドメインをトレーニングし、未確認のターゲット・ドメインに対して高い分類性能を達成するタスクである。
最近の手法では、Webスケールの事前訓練されたバックボーンの堅牢な機能と、ソースデータから学んだ新機能を組み合わせることで、ベンチマーク結果を劇的に改善している。
評価されたDGメソッドはすべてDomainBed-OOPで苦労し、最近のメソッドはDomainBed-IPで優れています。
論文 参考訳(メタデータ) (2024-12-03T21:43:11Z) - Regex-augmented Domain Transfer Topic Classification based on a
Pre-trained Language Model: An application in Financial Domain [42.5087655999509]
本稿では,微調整過程におけるドメイン知識の特徴として,正規表現パターンの利用について論じる。
実シナリオ生成データを用いた実験により,本手法が下流のテキスト分類タスクを改善することを示す。
論文 参考訳(メタデータ) (2023-05-23T03:26:32Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。