論文の概要: Mitigating Catastrophic Forgetting in Large Language Models with Forgetting-aware Pruning
- arxiv url: http://arxiv.org/abs/2509.08255v1
- Date: Wed, 10 Sep 2025 03:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.297667
- Title: Mitigating Catastrophic Forgetting in Large Language Models with Forgetting-aware Pruning
- Title(参考訳): 投機を考慮した大規模言語モデルにおけるカタストロフィック・フォーミングの緩和
- Authors: Wei Huang, Anda Cheng, Yinggui Wang,
- Abstract要約: 本稿では,破滅的フォーミング(CF)と下流タスク性能のバランスをとるために,FAPM(Forgetting-Aware Pruning Metric)を提案する。
我々は,自然言語推論,一般Q&A,医療Q&A,数学Q&A,理解の読解,クローゼテストなど8つのデータセットを対象に実験を行った。
その結果、FAPM は CF を 0.25% に制限し、下流のタスクでは 99.67% の精度を維持した。
- 参考スコア(独自算出の注目度): 10.61152477422108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have shown impressive capabilities in various downstream tasks but typically face Catastrophic Forgetting (CF) during fine-tuning. In this paper, we propose the Forgetting-Aware Pruning Metric (FAPM), a novel pruning-based approach to balance CF and downstream task performance. Our investigation reveals that the degree to which task vectors (i.e., the subtraction of pre-trained weights from the weights fine-tuned on downstream tasks) overlap with pre-trained model parameters is a critical factor for CF. Based on this finding, FAPM employs the ratio of the task vector to pre-trained model parameters as a metric to quantify CF, integrating this measure into the pruning criteria. Importantly, FAPM does not necessitate modifications to the training process or model architecture, nor does it require any auxiliary data. We conducted extensive experiments across eight datasets, covering natural language inference, General Q&A, Medical Q&A, Math Q&A, reading comprehension, and cloze tests. The results demonstrate that FAPM limits CF to just 0.25\% while maintaining 99.67\% accuracy on downstream tasks. We provide the code to reproduce our results.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な下流タスクにおいて印象的な機能を示しているが、通常、微調整中に破滅的フォーッティング(CF)に直面している。
本稿では,CF と下流タスク性能のバランスをとる新しいプルーニング方式である Forgetting-Aware Pruning Metric (FAPM) を提案する。
本研究により,タスクベクトル(下流タスクで微調整された重みからの事前学習重みの減算)と事前学習モデルパラメータが重なり合う程度が,CFにとって重要な要因であることが判明した。
この発見に基づいて、FAPMはCFを定量化するための指標として、事前訓練されたモデルパラメータに対するタスクベクトルの比率を使用し、この尺度をプルーニング基準に統合する。
重要なことは、FAPMはトレーニングプロセスやモデルアーキテクチャの変更を必要とせず、補助的なデータも必要としない。
自然言語推論,一般Q&A,医療Q&A,数学Q&A,読解,クローゼテストなど,8つのデータセットにわたる広範な実験を行った。
その結果、FAPM は CF を 0.25 % に制限し、下流タスクでは 99.67 % の精度を維持した。
結果を再現するコードを提供します。
関連論文リスト
- Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - To Pretrain or Not to Pretrain: Examining the Benefits of Pretraining on
Resource Rich Tasks [25.05882459314221]
トレーニングサンプルの数が数百万に増加するにつれ,細粒化BERTモデルと訓練用バニラLSTMとの精度のギャップは,スクラッチ狭さから1%以内に拡大した。
その結果,教師付きデータのサイズが大幅に大きくなるにつれて,事前学習したモデルではリターンポイントが低下する可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-15T18:18:59Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Beyond Fine-tuning: Few-Sample Sentence Embedding Transfer [23.64984600607274]
小データセットに事前訓練された文埋め込みモデルに制限があることが示されている。
対象データにのみ訓練された単純な文埋め込みモデルと事前学習されたモデルとの埋め込みを結合させることにより,FTの性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-04-10T16:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。