論文の概要: Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient
Tuning
- arxiv url: http://arxiv.org/abs/2402.18865v1
- Date: Thu, 29 Feb 2024 05:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:03:49.824263
- Title: Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient
Tuning
- Title(参考訳): パラメーター効率の良いチューニングにおけるカタストロフィックフォーミングの解析と低減
- Authors: Weijieying Ren, Xinlong Li, Lei Wang, Tianxiang Zhao, Wei Qin
- Abstract要約: 大規模言語モデル(LLM)は、言語理解と生成において顕著な性能を示す。
LLMは、複雑で多様なドメイン固有の下流タスクを継続的に微調整する。
可塑性学習とメモリ安定性のトレードオフを維持する必要がある。
- 参考スコア(独自算出の注目度): 9.38259062204602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research has shown that large language models (LLMs) exhibit
remarkable performance in language understanding and generation. However, when
LLMs are continuously fine-tuned on complex and diverse domain-specific
downstream tasks, the inference performance on historical tasks decreases
dramatically, which is known as a catastrophic forgetting problem. A trade-off
needs to be kept between learning plasticity and memory stability. Plenty of
existing works have explored strategies like memory replay, regularization and
parameter isolation, but little is known about the geometric connection of
various adjacent minima in the continual LLMs fine-tuning scenarios. In this
work, we investigate the geometric connections of different minima through the
lens of mode connectivity, which means different minima can be connected by a
low-loss valley. Through extensive experiments, we uncover the mode
connectivity phenomenon in the LLMs continual learning scenario and find that
it can strike a balance between plasticity and stability. Building upon these
findings, we propose a simple yet effective method called Interpolation-based
LoRA (I-LoRA), which constructs a dual-memory experience replay framework based
on LoRA parameter interpolations. Extensive experiments and analysis on eight
domain-specific CL benchmarks demonstrate that I-LoRA consistently show
significant improvement over the previous state-of-the-art approaches with up
to $11\%$ performance gains, providing a strong baseline and insights for
future research on the large language model continual learning problem. Our
code is available at \url{https://github.com/which47/LLMCL}.
- Abstract(参考訳): 既存の研究では、言語理解と生成において大きな言語モデル(LLM)が顕著な性能を示した。
しかし、LLMが複雑で多様なドメイン固有の下流タスクに対して連続的に微調整されている場合、過去のタスクに対する推論性能は劇的に低下し、破滅的な忘れ問題として知られる。
可塑性学習とメモリ安定性のトレードオフを維持する必要がある。
メモリリプレイ、正規化、パラメータ分離といった既存の研究は数多く行われているが、連続的なLLMの微調整シナリオにおいて、隣接する様々なミニマの幾何学的接続についてはほとんど知られていない。
本研究では,モード接続のレンズを用いて,異なるミニマの幾何学的接続について検討する。
広範な実験を通じて,llms連続学習シナリオにおけるモード接続現象を明らかにし,可塑性と安定性のバランスをとれることを示す。
これらの知見に基づいて,LoRAパラメータの補間に基づくデュアルメモリ体験再生フレームワークを構築する,I-LoRA (Interpolation-based LoRA) というシンプルな手法を提案する。
8つのドメイン固有のCLベンチマークに関する大規模な実験と分析により、I-LoRAは、最大で11.%のパフォーマンス向上で、最先端のアプローチよりも一貫して大幅に改善されていることが示される。
私たちのコードは \url{https://github.com/which47/LLMCL} で利用可能です。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [64.33702161898469]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential
Reasoning Ability [29.1826948551409]
AQA-Benchは、大規模言語モデルの逐次推論能力を評価するための新しいベンチマークである。
AQA-Benchは,2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築されている。
我々の調査では興味深い発見がいくつか示されている。
論文 参考訳(メタデータ) (2024-02-14T18:59:33Z) - Parameter-Efficient Multilingual Summarisation: An Empirical Study [64.15037970163392]
本稿では,Low-Rank Adaptation (LoRA) に着目した多言語要約タスクについて述べる。
フルデータ、ローデータ、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは低データシナリオや言語間移動に優れており,完全微調整の遅れが判明した。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Switching Autoregressive Low-rank Tensor Models [12.461139675114818]
自己回帰型低ランクテンソル(SALT)モデルを切り替える方法について述べる。
SALTはARHMMのテンソルを低ランクの分解でパラメータ化し、パラメータの数を制御する。
本稿では,SALT,線形力学系,SLDS間の実用的関係を理論的に検証し議論する。
論文 参考訳(メタデータ) (2023-06-05T22:25:28Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Exploring Mode Connectivity for Pre-trained Language Models [91.33378704580295]
本研究では,プレトレーニング言語モデル(PLM)を高性能なミニマに効果的に適応させる方法について検討する。
本稿では,モード接続のレンズを用いて,異なるミニマの幾何学的接続について検討する。
論文 参考訳(メタデータ) (2022-10-25T15:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。