論文の概要: Scaling Laws for Forgetting during Finetuning with Pretraining Data Injection
- arxiv url: http://arxiv.org/abs/2502.06042v1
- Date: Sun, 09 Feb 2025 21:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:56.719264
- Title: Scaling Laws for Forgetting during Finetuning with Pretraining Data Injection
- Title(参考訳): プレトレーニングデータ注入によるファインチューニングにおけるフォーッティングのスケーリング法則
- Authors: Louis Bethune, David Grangier, Dan Busbridge, Eleonora Gualdoni, Marco Cuturi, Pierre Ablin,
- Abstract要約: 対象領域のデータに対する教師なし予測を行うために、事前訓練されたモデルを微調整することは、2つの課題を示す。
我々は,事前学習データを微調整データ混合物に注入する効率を計測し,過度な適合を回避し,過度な適合を緩和する。
本研究の実際的な特徴は、微調整データ混合物に1%の事前学習データを注入することで、事前学習セットを忘れないようにすることである。
- 参考スコア(独自算出の注目度): 37.65064631532493
- License:
- Abstract: A widespread strategy to obtain a language model that performs well on a target domain is to finetune a pretrained model to perform unsupervised next-token prediction on data from that target domain. Finetuning presents two challenges: (i) if the amount of target data is limited, as in most practical applications, the model will quickly overfit, and (ii) the model will drift away from the original model, forgetting the pretraining data and the generic knowledge that comes with it. We aim to derive scaling laws that quantify these two phenomena for various target domains, amounts of available target data, and model scales. We measure the efficiency of injecting pretraining data into the finetuning data mixture to avoid forgetting and mitigate overfitting. A key practical takeaway from our study is that injecting as little as 1% of pretraining data in the finetuning data mixture prevents the model from forgetting the pretraining set.
- Abstract(参考訳): 対象領域で良好に機能する言語モデルを得るための広範にわたる戦略は、事前訓練されたモデルを微調整して、対象領域からのデータに対して教師なしの次トーケン予測を実行することである。
ファインタニングは2つの課題を提示します。
一 ターゲットデータの量に制限がある場合、ほとんどの実用アプリケーションのように、モデルは急速に過度に適合し、
(ii)モデルが元のモデルから逸脱し、事前学習されたデータとそれに伴う一般的な知識を忘れてしまう。
本研究の目的は、これらの2つの現象を、様々な対象領域、利用可能な対象データ量、モデルスケールで定量化するスケーリング法則を導出することである。
我々は,事前学習データを微調整データ混合物に注入する効率を計測し,過度な適合を回避し,過度な適合を緩和する。
本研究の実際的な特徴は、微調整データ混合物に1%以上の事前学習データを注入することで、事前学習セットを忘れないようにすることである。
関連論文リスト
- Early Stopping Against Label Noise Without Validation Data [54.27621957395026]
所望のモデルを選択するのに検証データを必要としないラベルウェーブと呼ばれる新しい早期停止手法を提案する。
各種設定におけるラベルウェーブ法の有効性と,ノイズラベルを用いた学習における既存手法の性能向上を両立させる能力について述べる。
論文 参考訳(メタデータ) (2025-02-11T13:40:15Z) - Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting [15.251425165987987]
下流タスクで事前訓練されたモデルを微調整すると、元の能力は劣化することが多い。
本稿では,事前学習したモデルの損失に基づく微調整データのサンプル重み付け手法を提案する。
我々は,言語と視覚の両方における手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-05T00:49:59Z) - How Much Do Code Language Models Remember? An Investigation on Data Extraction Attacks before and after Fine-tuning [2.3759432635713895]
我々は、事前訓練されたコード言語モデルと微調整されたコード言語モデルの両方を攻撃し、データの抽出可能性について調査する。
微調整は少ないリソースを必要とし、その特殊データに対する有効性のために、小規模でも大規模でもますます利用されている。
データキャリアとライセンス情報は、事前訓練されたモデルと微調整されたモデルから記憶される可能性が最も高い一方、後者は微調整後に忘れられる可能性が最も高い。
論文 参考訳(メタデータ) (2025-01-29T09:17:30Z) - The interplay between domain specialization and model size: a case study in the legal domain [8.653321928148547]
計算制約シナリオ下での連続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
私たちのゴールは、このシナリオの計算効率のよいトレーニング体制を特定することです。
モデルのサイズが大きくなると、特殊モデルと一般モデルの間の計算効率のギャップが広がる。
論文 参考訳(メタデータ) (2025-01-03T19:28:53Z) - Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - How to Learn when Data Gradually Reacts to Your Model [10.074466859579571]
我々は,これらの効果が存在する場合でも,性能損失を最小限に抑えるための新しいアルゴリズム Stateful Performative Gradient Descent (Stateful PerfGD) を提案する。
実験の結果, Stateful PerfGD は従来の最先端手法よりもかなり優れていたことが確認された。
論文 参考訳(メタデータ) (2021-12-13T22:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。