論文の概要: Is Parameter Collision Hindering Continual Learning in LLMs?
- arxiv url: http://arxiv.org/abs/2410.10179v1
- Date: Mon, 14 Oct 2024 05:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:34:41.225158
- Title: Is Parameter Collision Hindering Continual Learning in LLMs?
- Title(参考訳): LLMにおけるパラメータ衝突は継続学習を妨げるか?
- Authors: Shuo Yang, Kun-Peng Ning, Yu-Yang Liu, Jia-Yu Yao, Yong-Hong Tian, Yi-Bing Song, Li Yuan,
- Abstract要約: 大規模言語モデル(LLM)は、複数のタスクを逐次学習する際に破滅的な忘れに悩まされることが多い。
CL問題に対処する上で,非衝突パラメータの構築はより重要な相互依存因子であることを示す。
低衝突速度を利用してLCMのCLを向上する単純なアプローチである非衝突低ランク適応(N-LoRA)を提案する。
- 参考スコア(独自算出の注目度): 50.57658782050275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often suffer from catastrophic forgetting when learning multiple tasks sequentially, making continual learning (CL) essential for their dynamic deployment. Existing state-of-the-art (SOTA) methods, such as O-LoRA, typically focus on constructing orthogonality tasks to decouple parameter interdependence from various domains.In this paper, we reveal that building non-collision parameters is a more critical factor in addressing CL challenges. Our theoretical and experimental analyses demonstrate that non-collision parameters can provide better task orthogonality, which is a sufficient but unnecessary condition. Furthermore, knowledge from multiple domains will be preserved in non-collision parameter subspaces, making it more difficult to forget previously seen data. Leveraging this insight, we propose Non-collision Low-Rank Adaptation (N-LoRA), a simple yet effective approach leveraging low collision rates to enhance CL in LLMs. Experimental results on multiple CL benchmarks indicate that N-LoRA achieves superior performance (+2.9), higher task orthogonality (*4.1 times), and lower parameter collision (*58.1 times) than SOTA methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のタスクを逐次学習する際の破滅的な忘れ込みに悩まされることが多いため、動的デプロイメントには継続学習(CL)が不可欠である。
O-LoRAのような既存のSOTA(State-of-the-art)手法は、様々な領域からパラメータ相互依存を分離する直交性タスクの構築に重点を置いている。
我々の理論的および実験的分析は、非衝突パラメータが十分だが不要な条件であるより優れたタスク直交性を提供できることを示した。
さらに、複数のドメインからの知識は非衝突パラメータのサブスペースに保存される。
この知見を生かして,低衝突速度を利用したLLMにおけるCL向上のための簡易かつ効果的な非衝突低ランク適応法(N-LoRA)を提案する。
複数のCLベンチマーク実験の結果、N-LoRAはSOTA法よりも優れた性能(+2.9)、高いタスク直交性(*4.1倍)、低いパラメータ衝突(*58.1倍)を達成することが示された。
関連論文リスト
- Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models [38.97142043836567]
継続学習(CL)は、視覚変換器(ViT)が時間とともに新しいタスクを学習できるようにすることを目的としている。
破滅的な忘れ物は いまだに難題です
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Controlled Low-Rank Adaptation with Subspace Regularization for Continued Training on Large Language Models [13.56631686493347]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示すが、新しいタスクを学ぶ際に破滅的な忘れに直面している。
本稿では,LoRA 構造上の部分空間正規化手法である Controlled LoRA (CLoRA) を提案する。
論文 参考訳(メタデータ) (2024-10-22T08:27:23Z) - MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文 参考訳(メタデータ) (2024-10-12T08:32:26Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation [0.0]
CURLoRAは、大規模な言語モデルを微調整するための新しいアプローチである。
破滅的な忘れ込みを軽減し、訓練可能なパラメータの数を減らします。
モデルの安定性とタスク間のパフォーマンスを維持しながら、トレーニング可能なパラメータの数を著しく削減します。
論文 参考訳(メタデータ) (2024-08-26T18:42:59Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient
Tuning [9.38259062204602]
大規模言語モデル(LLM)は、言語理解と生成において顕著な性能を示す。
LLMは、複雑で多様なドメイン固有の下流タスクを継続的に微調整する。
可塑性学習とメモリ安定性のトレードオフを維持する必要がある。
論文 参考訳(メタデータ) (2024-02-29T05:27:45Z) - LoRA Meets Dropout under a Unified Framework [38.5176197615878]
大規模言語モデル(LLM)は、多くのNLPアプリケーションにおいて重要な要素として現れている。
様々なドロップアウト手法は、当初は全てのパラメータを更新した完全な微調整のために設計されていたが、過剰なパラメータ冗長性に関連する過度な適合を緩和した。
我々は,これらの手法を,落下位置,構造パターン,補償基準に基づいてインスタンス化する総合的な調査のための統一的な枠組みを導入する。
論文 参考訳(メタデータ) (2024-02-25T07:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。