Fugu-MT 論文翻訳(概要): Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient Tuning

論文の概要: Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient Tuning

arxiv url: http://arxiv.org/abs/2402.18865v1
Date: Thu, 29 Feb 2024 05:27:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 16:03:49.824263
Title: Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient Tuning
Title（参考訳）: パラメーター効率の良いチューニングにおけるカタストロフィックフォーミングの解析と低減
Authors: Weijieying Ren, Xinlong Li, Lei Wang, Tianxiang Zhao, Wei Qin
Abstract要約: 大規模言語モデル(LLM)は、言語理解と生成において顕著な性能を示す。 LLMは、複雑で多様なドメイン固有の下流タスクを継続的に微調整する。可塑性学習とメモリ安定性のトレードオフを維持する必要がある。
参考スコア（独自算出の注目度）: 9.38259062204602
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing research has shown that large language models (LLMs) exhibit remarkable performance in language understanding and generation. However, when LLMs are continuously fine-tuned on complex and diverse domain-specific downstream tasks, the inference performance on historical tasks decreases dramatically, which is known as a catastrophic forgetting problem. A trade-off needs to be kept between learning plasticity and memory stability. Plenty of existing works have explored strategies like memory replay, regularization and parameter isolation, but little is known about the geometric connection of various adjacent minima in the continual LLMs fine-tuning scenarios. In this work, we investigate the geometric connections of different minima through the lens of mode connectivity, which means different minima can be connected by a low-loss valley. Through extensive experiments, we uncover the mode connectivity phenomenon in the LLMs continual learning scenario and find that it can strike a balance between plasticity and stability. Building upon these findings, we propose a simple yet effective method called Interpolation-based LoRA (I-LoRA), which constructs a dual-memory experience replay framework based on LoRA parameter interpolations. Extensive experiments and analysis on eight domain-specific CL benchmarks demonstrate that I-LoRA consistently show significant improvement over the previous state-of-the-art approaches with up to $11\%$ performance gains, providing a strong baseline and insights for future research on the large language model continual learning problem. Our code is available at \url{https://github.com/which47/LLMCL}.
Abstract（参考訳）: 既存の研究では、言語理解と生成において大きな言語モデル(LLM)が顕著な性能を示した。しかし、LLMが複雑で多様なドメイン固有の下流タスクに対して連続的に微調整されている場合、過去のタスクに対する推論性能は劇的に低下し、破滅的な忘れ問題として知られる。可塑性学習とメモリ安定性のトレードオフを維持する必要がある。メモリリプレイ、正規化、パラメータ分離といった既存の研究は数多く行われているが、連続的なLLMの微調整シナリオにおいて、隣接する様々なミニマの幾何学的接続についてはほとんど知られていない。本研究では,モード接続のレンズを用いて,異なるミニマの幾何学的接続について検討する。広範な実験を通じて,llms連続学習シナリオにおけるモード接続現象を明らかにし,可塑性と安定性のバランスをとれることを示す。これらの知見に基づいて,LoRAパラメータの補間に基づくデュアルメモリ体験再生フレームワークを構築する,I-LoRA (Interpolation-based LoRA) というシンプルな手法を提案する。 8つのドメイン固有のCLベンチマークに関する大規模な実験と分析により、I-LoRAは、最大で11.%のパフォーマンス向上で、最先端のアプローチよりも一貫して大幅に改善されていることが示される。私たちのコードは \url{https://github.com/which47/LLMCL} で利用可能です。

関連論文リスト

Replay to Remember: Retaining Domain Knowledge in Streaming Language Models [0.0]
大規模言語モデル(LLM)における継続的な学習は、破滅的な忘れ込みという重要な課題に直面するのが普通である。現実的なストリーミング環境では,LoRAと最小限の再生機構を組み合わせた手法を実証する。我々の実験では、破滅的な忘れが自然に起こるが、最小限のリプレイでさえ、ドメイン固有の知識を著しく安定化し、部分的に復元する。
論文参考訳（メタデータ） (2025-04-24T17:56:22Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文参考訳（メタデータ） (2025-01-22T20:00:41Z)
Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models [38.97142043836567]
継続学習(CL)は、視覚変換器(ViT)が時間とともに新しいタスクを学習できるようにすることを目的としている。破滅的な忘れ物はいまだに難題です DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文参考訳（メタデータ） (2024-11-01T14:28:39Z)
Is Parameter Collision Hindering Continual Learning in LLMs? [50.57658782050275]
大規模言語モデル(LLM)は、複数のタスクを逐次学習する際に破滅的な忘れに悩まされることが多い。 CL問題に対処する上で,非衝突パラメータの構築はより重要な相互依存因子であることを示す。低衝突速度を利用してLCMのCLを向上する単純なアプローチである非衝突低ランク適応(N-LoRA)を提案する。
論文参考訳（メタデータ） (2024-10-14T05:54:11Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Surgical Feature-Space Decomposition of LLMs: Why, When and How? [8.826164604720738]
トランス言語モデルにおける重みと特徴空間の分解の有効性を実験的に検討する。本稿では, 外科的切除が, 圧縮と言語モデリング性能のトレードオフに関する重要な洞察を与えることを示す。モデルバイアスに対する低ランク近似の影響について検討する。
論文参考訳（メタデータ） (2024-05-17T07:34:03Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文参考訳（メタデータ） (2023-10-24T03:08:58Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。