論文の概要: An Empirical Study of Catastrophic Forgetting in Large Language Models
During Continual Fine-tuning
- arxiv url: http://arxiv.org/abs/2308.08747v2
- Date: Mon, 21 Aug 2023 08:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 10:24:36.508832
- Title: An Empirical Study of Catastrophic Forgetting in Large Language Models
During Continual Fine-tuning
- Title(参考訳): 大規模言語モデルにおける連続的微調整時の破滅的蓄積に関する実証的研究
- Authors: Yun Luo and Zhen Yang and Fandong Meng and Yafu Li and Jie Zhou and
Yue Zhang
- Abstract要約: カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが新しい情報を学ぶ際に学習した情報を忘れたときに発生する現象である。
本研究では,大言語モデルの知識における忘れ現象を,ドメイン知識,推論,理解という観点から実証的に評価する。
- 参考スコア(独自算出の注目度): 74.02063290659893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Catastrophic forgetting (CF) is a phenomenon that occurs in machine learning
when a model forgets previously learned information as it learns new
information. As large language models (LLMs) have shown excellent performance,
it is interesting to uncover whether CF exists in the continual fine-tuning of
LLMs. In this study, we empirically evaluate the forgetting phenomenon in LLMs'
knowledge, from the perspectives of domain knowledge, reasoning, and reading
comprehension. The experiments demonstrate that catastrophic forgetting is
generally observed in LLMs ranging from 1b to 7b. Furthermore, as the scale
increases, the severity of forgetting also intensifies. Comparing the
decoder-only model BLOOMZ with the encoder-decoder model mT0, BLOOMZ suffers
less forgetting and maintains more knowledge. We also observe that LLMs can
mitigate language bias (e.g. gender bias) during continual fine-tuning.
Moreover, we find that ALPACA can maintain more knowledge and capacity compared
with LLAMA during the continual fine-tuning, which implies that general
instruction tuning can help mitigate the forgetting phenomenon of LLMs in the
further fine-tuning process.
- Abstract(参考訳): 破滅的忘れ (catastrophic forgetting, cf) は、モデルが新しい情報を学ぶときに学習した情報を忘れると、機械学習で起こる現象である。
大規模言語モデル(LLM)は優れた性能を示しており、LCMの連続的な微調整にCFが存在するかどうかを明らかにすることは興味深い。
本研究では,ドメイン知識,推論,読み理解の観点から,llmsの知識における忘れられる現象を実証的に評価する。
実験の結果,1bから7bまでのLSMでは破滅的忘れが一般的に見られることがわかった。
さらに、スケールが大きくなるにつれて、忘れることの重大さも増大する。
デコーダのみのモデルBLOOMZとエンコーダ-デコーダモデルmT0を比較すると、BLOOMZは忘れられにくく、より多くの知識を維持している。
また、llmは、連続的な微調整中に言語バイアス(例えば、性別バイアス)を軽減できることも観察する。
さらに,alpacaは,連続的微調整時のllamaに比べて知識と能力が向上し,さらに微調整過程におけるllmの忘れられる現象の軽減に寄与することが示唆された。
関連論文リスト
- Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新
既存の作業はこの特性を無視し、編集には一般化が欠けている。
実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文 参考訳(メタデータ) (2024-01-15T09:09:14Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - Probing Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
フィードフォワードネットワークやマルチヘッド・セルフアテンションなどの予測プロセスと内部メカニズムの理解は、いまだに未解明のままである。
論文 参考訳(メタデータ) (2023-10-08T16:16:21Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Understanding Finetuning for Factual Knowledge Extraction from Language
Models [1.7969777786551426]
ウェブから大量のテキストのコーパスに事前訓練された言語モデル(LM)は、世界に関する様々な種類の知識を含むことが観察されている。
そこで本研究では,一組の事実知識を微調整することで,異なる集合からの質問に対するより良い回答が得られることを示す。
次に, 1-モデル混合と 2-混合ファインタニングの2つの負の効果を, LMの事前学習タスクと組み合わせて検討する。
論文 参考訳(メタデータ) (2023-01-26T18:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。