Fugu-MT 論文翻訳(概要): An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

論文の概要: An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

arxiv url: http://arxiv.org/abs/2308.08747v2
Date: Mon, 21 Aug 2023 08:18:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 10:24:36.508832
Title: An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning
Title（参考訳）: 大規模言語モデルにおける連続的微調整時の破滅的蓄積に関する実証的研究
Authors: Yun Luo and Zhen Yang and Fandong Meng and Yafu Li and Jie Zhou and Yue Zhang
Abstract要約: カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが新しい情報を学ぶ際に学習した情報を忘れたときに発生する現象である。本研究では,大言語モデルの知識における忘れ現象を,ドメイン知識,推論,理解という観点から実証的に評価する。
参考スコア（独自算出の注目度）: 74.02063290659893
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Catastrophic forgetting (CF) is a phenomenon that occurs in machine learning when a model forgets previously learned information as it learns new information. As large language models (LLMs) have shown excellent performance, it is interesting to uncover whether CF exists in the continual fine-tuning of LLMs. In this study, we empirically evaluate the forgetting phenomenon in LLMs' knowledge, from the perspectives of domain knowledge, reasoning, and reading comprehension. The experiments demonstrate that catastrophic forgetting is generally observed in LLMs ranging from 1b to 7b. Furthermore, as the scale increases, the severity of forgetting also intensifies. Comparing the decoder-only model BLOOMZ with the encoder-decoder model mT0, BLOOMZ suffers less forgetting and maintains more knowledge. We also observe that LLMs can mitigate language bias (e.g. gender bias) during continual fine-tuning. Moreover, we find that ALPACA can maintain more knowledge and capacity compared with LLAMA during the continual fine-tuning, which implies that general instruction tuning can help mitigate the forgetting phenomenon of LLMs in the further fine-tuning process.
Abstract（参考訳）: 破滅的忘れ (catastrophic forgetting, cf) は、モデルが新しい情報を学ぶときに学習した情報を忘れると、機械学習で起こる現象である。大規模言語モデル(LLM)は優れた性能を示しており、LCMの連続的な微調整にCFが存在するかどうかを明らかにすることは興味深い。本研究では,ドメイン知識,推論,読み理解の観点から,llmsの知識における忘れられる現象を実証的に評価する。実験の結果,1bから7bまでのLSMでは破滅的忘れが一般的に見られることがわかった。さらに、スケールが大きくなるにつれて、忘れることの重大さも増大する。デコーダのみのモデルBLOOMZとエンコーダ-デコーダモデルmT0を比較すると、BLOOMZは忘れられにくく、より多くの知識を維持している。また、llmは、連続的な微調整中に言語バイアス(例えば、性別バイアス)を軽減できることも観察する。さらに,alpacaは,連続的微調整時のllamaに比べて知識と能力が向上し,さらに微調整過程におけるllmの忘れられる現象の軽減に寄与することが示唆された。

関連論文リスト

Unveiling Over-Memorization in Finetuning LLMs for Reasoning Tasks [12.00585546066413]
事前訓練された大言語モデル (LLM) はラベル付きデータで微調整され、人間の値に適合する。本研究では,LLMファインタニングの学習ダイナミクスを推論タスクで研究し,その過記憶現象を明らかにする。記憶過剰なモデルでは、通常のモデルと同等のテスト精度を示すが、頑健さの低下、分布外一般化の低下、生成の多様性の低下に悩まされている。
論文参考訳（メタデータ） (2025-08-06T06:34:12Z)
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文参考訳（メタデータ） (2025-02-20T12:31:03Z)
Information Anxiety in Large Language Models [21.574677910096735]
大規模言語モデル(LLM)は知識リポジトリとして高いパフォーマンスを示している。本研究は, LLMの内部推論と検索機構を包括的に分析することにより, さらなる調査を行う。我々の研究は、エンティティの人気の影響、クエリの定式化における語彙変化に対するモデルの感度、隠された状態表現の進行という3つの重要な側面に焦点を当てている。
論文参考訳（メタデータ） (2024-11-16T14:28:33Z)
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Causality for Large Language Models [37.10970529459278]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、膨大なデータセットでトレーニングされており、一連の言語タスクで前例のない成功を収めている。近年の研究では、LLMは因果オウムとして機能し、因果知識を真に理解したり応用したりすることなくリサイクリングすることができることが強調されている。本調査は, ライフサイクルのすべての段階において, 因果性がどのようにLCMを強化するかを検討することを目的としている。
論文参考訳（メタデータ） (2024-10-20T07:22:23Z)
Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文参考訳（メタデータ） (2024-10-14T13:10:45Z)
Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文参考訳（メタデータ） (2024-10-08T08:35:16Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。私たちの評価は幻覚を構成するものに関して微妙な点を呈する。既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文参考訳（メタデータ） (2024-06-05T17:49:47Z)
SLMRec: Distilling Large Language Models into Small for Sequential Recommendation [38.51895517016953]
シーケンシャルレコメンデーションタスクでは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測する。最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。 LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文参考訳（メタデータ） (2024-05-28T07:12:06Z)
Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文参考訳（メタデータ） (2024-04-27T05:49:11Z)
Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall [31.45796499298925]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示している。プレトレーニングから学んだ事実的知識をリコールするLLMの能力を評価することに注力する。 10のモデルファミリーから31のモデルをベンチマークし、その長所と短所を総合的に評価する。
論文参考訳（メタデータ） (2024-04-24T19:40:01Z)
PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。 LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文参考訳（メタデータ） (2024-04-06T20:02:20Z)
Small Models are LLM Knowledge Triggers on Medical Tabular Prediction [39.78560996984352]
小モデルを用いたシナジー学習による汎用的な自己プロンプト手法SERSALを提案する。本研究は,SERSALが言語的プロンプト法に比べて大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-03-03T17:35:52Z)
Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。 LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文参考訳（メタデータ） (2024-02-29T14:06:34Z)
Examining Forgetting in Continual Pre-training of Aligned Large Language Models [66.62800021628276]
本研究では,既存の微調整LDMの連続事前訓練中に発生する忘れ現象について検討する。実験結果は、連続的な事前訓練中に破滅的な忘れに対処する非自明な課題を浮き彫りにした。
論文参考訳（メタデータ） (2024-01-06T05:34:09Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。