論文の概要: Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient
Tuning
- arxiv url: http://arxiv.org/abs/2402.18865v1
- Date: Thu, 29 Feb 2024 05:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:03:49.824263
- Title: Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient
Tuning
- Title(参考訳): パラメーター効率の良いチューニングにおけるカタストロフィックフォーミングの解析と低減
- Authors: Weijieying Ren, Xinlong Li, Lei Wang, Tianxiang Zhao, Wei Qin
- Abstract要約: 大規模言語モデル(LLM)は、言語理解と生成において顕著な性能を示す。
LLMは、複雑で多様なドメイン固有の下流タスクを継続的に微調整する。
可塑性学習とメモリ安定性のトレードオフを維持する必要がある。
- 参考スコア(独自算出の注目度): 9.38259062204602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research has shown that large language models (LLMs) exhibit
remarkable performance in language understanding and generation. However, when
LLMs are continuously fine-tuned on complex and diverse domain-specific
downstream tasks, the inference performance on historical tasks decreases
dramatically, which is known as a catastrophic forgetting problem. A trade-off
needs to be kept between learning plasticity and memory stability. Plenty of
existing works have explored strategies like memory replay, regularization and
parameter isolation, but little is known about the geometric connection of
various adjacent minima in the continual LLMs fine-tuning scenarios. In this
work, we investigate the geometric connections of different minima through the
lens of mode connectivity, which means different minima can be connected by a
low-loss valley. Through extensive experiments, we uncover the mode
connectivity phenomenon in the LLMs continual learning scenario and find that
it can strike a balance between plasticity and stability. Building upon these
findings, we propose a simple yet effective method called Interpolation-based
LoRA (I-LoRA), which constructs a dual-memory experience replay framework based
on LoRA parameter interpolations. Extensive experiments and analysis on eight
domain-specific CL benchmarks demonstrate that I-LoRA consistently show
significant improvement over the previous state-of-the-art approaches with up
to $11\%$ performance gains, providing a strong baseline and insights for
future research on the large language model continual learning problem. Our
code is available at \url{https://github.com/which47/LLMCL}.
- Abstract(参考訳): 既存の研究では、言語理解と生成において大きな言語モデル(LLM)が顕著な性能を示した。
しかし、LLMが複雑で多様なドメイン固有の下流タスクに対して連続的に微調整されている場合、過去のタスクに対する推論性能は劇的に低下し、破滅的な忘れ問題として知られる。
可塑性学習とメモリ安定性のトレードオフを維持する必要がある。
メモリリプレイ、正規化、パラメータ分離といった既存の研究は数多く行われているが、連続的なLLMの微調整シナリオにおいて、隣接する様々なミニマの幾何学的接続についてはほとんど知られていない。
本研究では,モード接続のレンズを用いて,異なるミニマの幾何学的接続について検討する。
広範な実験を通じて,llms連続学習シナリオにおけるモード接続現象を明らかにし,可塑性と安定性のバランスをとれることを示す。
これらの知見に基づいて,LoRAパラメータの補間に基づくデュアルメモリ体験再生フレームワークを構築する,I-LoRA (Interpolation-based LoRA) というシンプルな手法を提案する。
8つのドメイン固有のCLベンチマークに関する大規模な実験と分析により、I-LoRAは、最大で11.%のパフォーマンス向上で、最先端のアプローチよりも一貫して大幅に改善されていることが示される。
私たちのコードは \url{https://github.com/which47/LLMCL} で利用可能です。
関連論文リスト
- Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models [38.97142043836567]
継続学習(CL)は、視覚変換器(ViT)が時間とともに新しいタスクを学習できるようにすることを目的としている。
破滅的な忘れ物は いまだに難題です
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Is Parameter Collision Hindering Continual Learning in LLMs? [50.57658782050275]
大規模言語モデル(LLM)は、複数のタスクを逐次学習する際に破滅的な忘れに悩まされることが多い。
CL問題に対処する上で,非衝突パラメータの構築はより重要な相互依存因子であることを示す。
低衝突速度を利用してLCMのCLを向上する単純なアプローチである非衝突低ランク適応(N-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-10-14T05:54:11Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Surgical Feature-Space Decomposition of LLMs: Why, When and How? [8.826164604720738]
トランス言語モデルにおける重みと特徴空間の分解の有効性を実験的に検討する。
本稿では, 外科的切除が, 圧縮と言語モデリング性能のトレードオフに関する重要な洞察を与えることを示す。
モデルバイアスに対する低ランク近似の影響について検討する。
論文 参考訳(メタデータ) (2024-05-17T07:34:03Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。