論文の概要: KlF: Knowledge Localization and Fusion for Language Model Continual Learning
- arxiv url: http://arxiv.org/abs/2408.05200v3
- Date: Wed, 18 Dec 2024 12:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:07.633488
- Title: KlF: Knowledge Localization and Fusion for Language Model Continual Learning
- Title(参考訳): KlF: 言語モデル継続学習のための知識ローカライゼーションと融合
- Authors: Yujie Feng, Xu Chu, Yongxin Xu, Zexin Lu, Bo Liu, Philip S. Yu, Xiao-Ming Wu,
- Abstract要約: 大規模言語モデル(LLM)は、リトレーニングなしで動的現実世界のシナリオに適応することができる。
この領域における大きな課題は、モデルが新しいタスクを学ぶ際に獲得した知識を失う、破滅的な忘れ事である。
既存のアプローチでは、タスク固有の知識を得るために、複数のパラメータ効率の微調整(PEFT)ブロックを利用するのが一般的である。
- 参考スコア(独自算出の注目度): 41.28933724210434
- License:
- Abstract: Language model continual learning (CL) has recently attracted significant interest for its ability to adapt large language models (LLMs) to dynamic real-world scenarios without retraining. A major challenge in this domain is catastrophic forgetting, where models lose previously acquired knowledge upon learning new tasks. Existing approaches commonly utilize multiple parameter-efficient fine-tuning (PEFT) blocks to acquire task-specific knowledge, yet these methods are inefficient and fail to leverage potential knowledge transfer across tasks. In this paper, we introduce a novel CL framework for language models, named Knowledge Localization and Fusion (KlF), which boosts knowledge transfer without depending on memory replay. KlF initially segregates the model into 'skill units' based on parameter dependencies, allowing for more precise control. Subsequently, it employs a novel group-wise knowledge localization technique to ascertain the importance distribution of skill units for a new task. By comparing this importance distribution with those from previous tasks, we implement a fine-grained knowledge fusion strategy that retains task-specific knowledge, thereby preventing forgetting, and updates task-shared knowledge, which facilitates bi-directional knowledge transfer. As a result, KlF achieves an optimal balance between retaining prior knowledge and excelling in new tasks. KlF also demonstrates strong generalizability, making it suitable for various base models and adaptable to PEFT methods like LoRA. Furthermore, it offers notable extensibility, supporting enhancements through integration with memory replay techniques. Comprehensive experiments conducted on two CL benchmarks, involving models ranging from 220M to 7B parameters, affirm the effectiveness of KlF and its variants across different settings.
- Abstract(参考訳): 言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、リトレーニングなしで動的現実のシナリオに適応できる能力に対して、近年大きな関心を集めている。
この領域における大きな課題は、モデルが新しいタスクを学ぶ際に獲得した知識を失う、破滅的な忘れ事である。
既存のアプローチでは、複数のパラメータ効率の細かい調整(PEFT)ブロックを使用してタスク固有の知識を取得するが、これらの手法は非効率であり、タスク間の潜在的な知識伝達を利用できない。
本稿では,知識局所化と融合(KlF)という言語モデルのための新しいCLフレームワークを提案する。
KlFは当初、パラメータ依存に基づいてモデルを"スキルユニット"に分離し、より正確な制御を可能にする。
その後、新しい課題に対するスキルユニットの重要性の分布を確認するために、グループ単位の知識ローカライズ技術を用いる。
この重要度分布を従来の課題と比較することにより,タスク固有の知識を保持し,忘れないようにし,双方向の知識伝達を容易にするタスク共有知識を更新する,きめ細かい知識融合戦略を実現する。
その結果、KlFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
KlFは強力な一般化可能性を示し、様々なベースモデルに適合し、LoRAのようなPEFTメソッドに適応できる。
さらに、メモリリプレイ技術との統合による拡張をサポートすることで、顕著な拡張性を提供する。
220Mから7Bパラメータのモデルを含む2つのCLベンチマークで包括的な実験を行い、KlFとその変種の有効性を異なる設定で確認した。
関連論文リスト
- DATA: Decomposed Attention-based Task Adaptation for Rehearsal-Free Continual Learning [22.386864304549285]
大規模言語モデル(LLM)では、継続的な学習(CL)が現実の要求に適応するために不可欠である。
近年のリハーサルフリー手法では、モデルベースおよび正規化ベースの戦略を用いてこの問題に対処している。
我々は、$textbfD$e $textbfA$ttention-based $textbfTask $textbfA$daptation ( data)を提案する。
データは、ハイランクなタスクアダプタとローランクなタスクアダプタを使用して、タスク固有の知識とタスク共有の知識を明示的に分離し、学習する。
論文 参考訳(メタデータ) (2025-02-17T06:35:42Z) - KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models [11.07333593086842]
知識認識型特異値適応(KaSA)
本稿では,知識認識特異値を用いた特異値分解(SVD)を利用したPEFT手法である知識認識特異値適応(KaSA)を導入し,その課題との関連性に基づいて,知識を動的に活性化する。
実験の結果、KaSAは16のベンチマークと4つの合成データセットでFFTと14のPEFTベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-08T21:26:22Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - TRELM: Towards Robust and Efficient Pre-training for Knowledge-Enhanced Language Models [31.209774088374374]
本稿では,知識強化言語モデルのためのロバストかつ効率的な事前学習フレームワークであるTRELMを紹介する。
我々は、知識を3倍に注入するための堅牢なアプローチと、価値ある情報を取得するための知識強化されたメモリバンクを採用しています。
我々は,TRELMが事前学習時間を少なくとも50%削減し,知識探索タスクや複数の知識認識言語理解タスクにおいて,他のKEPLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-17T13:04:35Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Learning an evolved mixture model for task-free continual learning [11.540150938141034]
タスク自由連続学習(TFCL)では,非定常データストリーム上で,明示的なタスク情報を持たないモデルを訓練する。
メモリ過負荷を回避するため,記憶されているサンプルを選択的に削除する2つの単純なドロップアウト機構を導入する。
論文 参考訳(メタデータ) (2022-07-11T16:01:27Z) - A Framework of Meta Functional Learning for Regularising Knowledge
Transfer [89.74127682599898]
本研究では,データ豊富なタスクから一般化可能な関数型モデルをメタ学習することで,メタ関数型学習(MFL)の新たなフレームワークを提案する。
MFLは、限定ラベル付きデータに対する機能訓練が学習すべきより差別的な機能を促進することにより、異なる学習タスクに一般化可能な機能正規化に関するメタ知識を計算する。
論文 参考訳(メタデータ) (2022-03-28T15:24:09Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。