論文の概要: Mitigating Catastrophic Forgetting in Large Language Models with Forgetting-aware Pruning
- arxiv url: http://arxiv.org/abs/2509.08255v1
- Date: Wed, 10 Sep 2025 03:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.297667
- Title: Mitigating Catastrophic Forgetting in Large Language Models with Forgetting-aware Pruning
- Title(参考訳): 投機を考慮した大規模言語モデルにおけるカタストロフィック・フォーミングの緩和
- Authors: Wei Huang, Anda Cheng, Yinggui Wang,
- Abstract要約: 本稿では,破滅的フォーミング(CF)と下流タスク性能のバランスをとるために,FAPM(Forgetting-Aware Pruning Metric)を提案する。
我々は,自然言語推論,一般Q&A,医療Q&A,数学Q&A,理解の読解,クローゼテストなど8つのデータセットを対象に実験を行った。
その結果、FAPM は CF を 0.25% に制限し、下流のタスクでは 99.67% の精度を維持した。
- 参考スコア(独自算出の注目度): 10.61152477422108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have shown impressive capabilities in various downstream tasks but typically face Catastrophic Forgetting (CF) during fine-tuning. In this paper, we propose the Forgetting-Aware Pruning Metric (FAPM), a novel pruning-based approach to balance CF and downstream task performance. Our investigation reveals that the degree to which task vectors (i.e., the subtraction of pre-trained weights from the weights fine-tuned on downstream tasks) overlap with pre-trained model parameters is a critical factor for CF. Based on this finding, FAPM employs the ratio of the task vector to pre-trained model parameters as a metric to quantify CF, integrating this measure into the pruning criteria. Importantly, FAPM does not necessitate modifications to the training process or model architecture, nor does it require any auxiliary data. We conducted extensive experiments across eight datasets, covering natural language inference, General Q&A, Medical Q&A, Math Q&A, reading comprehension, and cloze tests. The results demonstrate that FAPM limits CF to just 0.25\% while maintaining 99.67\% accuracy on downstream tasks. We provide the code to reproduce our results.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な下流タスクにおいて印象的な機能を示しているが、通常、微調整中に破滅的フォーッティング(CF)に直面している。
本稿では,CF と下流タスク性能のバランスをとる新しいプルーニング方式である Forgetting-Aware Pruning Metric (FAPM) を提案する。
本研究により,タスクベクトル(下流タスクで微調整された重みからの事前学習重みの減算)と事前学習モデルパラメータが重なり合う程度が,CFにとって重要な要因であることが判明した。
この発見に基づいて、FAPMはCFを定量化するための指標として、事前訓練されたモデルパラメータに対するタスクベクトルの比率を使用し、この尺度をプルーニング基準に統合する。
重要なことは、FAPMはトレーニングプロセスやモデルアーキテクチャの変更を必要とせず、補助的なデータも必要としない。
自然言語推論,一般Q&A,医療Q&A,数学Q&A,読解,クローゼテストなど,8つのデータセットにわたる広範な実験を行った。
その結果、FAPM は CF を 0.25 % に制限し、下流タスクでは 99.67 % の精度を維持した。
結果を再現するコードを提供します。
関連論文リスト
- How Well Do Large-Scale Chemical Language Models Transfer to Downstream Tasks? [3.423332499970556]
大規模分子データに基づいて事前訓練された化学言語モデルは、分子特性予測に広く利用されている。
モデルサイズ、データセットサイズ、トレーニング計算などのトレーニングリソースの増加は、事前学習損失と下流タスクのパフォーマンスの両方を改善するという信念は、化学領域において体系的に検証されていない。
トレーニングリソースの増加に伴い、事前学習の損失は一貫して減少するが、ダウンストリームタスクのパフォーマンスは改善が限られている。
論文 参考訳(メタデータ) (2026-02-12T06:14:34Z) - Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training [11.179110411255708]
トレーニング予算からベンチマークパフォーマンスのスケーリングをモデル化するための直接的なフレームワークを提案する。
その結果, 直接的アプローチは従来提案していた2段階の手順よりも優れていることがわかった。
事前学習損失と下流評価結果の完全なセットを公表する。
論文 参考訳(メタデータ) (2025-12-09T18:33:48Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - To Pretrain or Not to Pretrain: Examining the Benefits of Pretraining on
Resource Rich Tasks [25.05882459314221]
トレーニングサンプルの数が数百万に増加するにつれ,細粒化BERTモデルと訓練用バニラLSTMとの精度のギャップは,スクラッチ狭さから1%以内に拡大した。
その結果,教師付きデータのサイズが大幅に大きくなるにつれて,事前学習したモデルではリターンポイントが低下する可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-15T18:18:59Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Beyond Fine-tuning: Few-Sample Sentence Embedding Transfer [23.64984600607274]
小データセットに事前訓練された文埋め込みモデルに制限があることが示されている。
対象データにのみ訓練された単純な文埋め込みモデルと事前学習されたモデルとの埋め込みを結合させることにより,FTの性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-04-10T16:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。