論文の概要: TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning
- arxiv url: http://arxiv.org/abs/2408.05200v1
- Date: Fri, 9 Aug 2024 17:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:05:23.675617
- Title: TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning
- Title(参考訳): TaSL: 言語モデル継続学習のためのタスクスキルのローカライゼーションと統合
- Authors: Yujie Feng, Xu Chu, Yongxin Xu, Zexin Lu, Bo Liu, Philip S. Yu, Xiao-Ming Wu,
- Abstract要約: 言語モデル継続学習(CL)は、大規模な言語モデルを動的現実環境に適応させる可能性を秘めているため、最近大きな関心を集めている。
この分野で重要な課題は、新しいタスクを学ぶ際に、モデルが以前獲得した知識を失う、破滅的な忘れことである。
既存の手法では、タスク毎のタスク固有の知識を得るために、複数のパラメータ効率の良い微調整ブロック(PEFT)を用いることが多いが、これらの手法は効率を欠き、タスク間相互作用による知識伝達の可能性を見落としている。
- 参考スコア(独自算出の注目度): 41.28933724210434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model continual learning (CL) has recently garnered significant interest due to its potential to adapt large language models (LLMs) to dynamic real-world environments without re-training. A key challenge in this field is catastrophic forgetting, where models lose previously acquired knowledge when learning new tasks. Existing methods commonly employ multiple parameter-efficient fine-tuning (PEFT) blocks to acquire task-specific knowledge for each task, but these approaches lack efficiency and overlook the potential for knowledge transfer through task interaction. In this paper, we present a novel CL framework for language models called Task Skill Localization and Consolidation (TaSL), which enhances knowledge transfer without relying on memory replay. TaSL first divides the model into `skill units' based on parameter dependencies, enabling more granular control. It then employs a novel group-wise skill localization technique to identify the importance distribution of skill units for a new task. By comparing this importance distribution with those from previous tasks, we implement a fine-grained skill consolidation strategy that retains task-specific knowledge, thereby preventing forgetting, and updates task-shared knowledge, which facilitates bi-directional knowledge transfer. As a result, TaSL achieves a superior balance between retaining previous knowledge and excelling in new tasks. TaSL also shows strong generalizability, suitable for general models and customizable for PEFT methods like LoRA. Additionally, it demonstrates notable extensibility, allowing integration with memory replay to further enhance performance. Extensive experiments on two CL benchmarks, with varying model sizes (from 220M to 7B), demonstrate the effectiveness of TaSL and its variants across different settings.
- Abstract(参考訳): 言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、再学習せずに動的現実世界環境に適応できる可能性から、近年大きな関心を集めている。
この分野で重要な課題は、新しいタスクを学ぶ際に、モデルが以前獲得した知識を失う、破滅的な忘れことである。
既存の手法では、タスク毎のタスク固有の知識を得るために、複数のパラメータ効率の良い微調整ブロック(PEFT)を用いることが多いが、これらの手法は効率を欠き、タスク間相互作用による知識伝達の可能性を見落としている。
本稿では,タスクスキル・ローカライゼーションと統合(TaSL)と呼ばれる新しい言語モデルのためのCLフレームワークを提案する。
TaSLはまず、パラメータ依存に基づいてモデルを'スキルユニット'に分割し、よりきめ細かい制御を可能にします。
そして、新しいタスクのためのスキルユニットの重要性の分布を特定するために、新しいグループワイドスキルローカライズ技術を用いる。
この重要度分布を従来の課題と比較することにより、タスク固有の知識を保持し、忘れないようにし、双方向の知識伝達を容易にするタスク共有知識を更新する、きめ細かいスキル統合戦略を実現する。
その結果、TaSLは、以前の知識の保持と、新しいタスクにおける卓越した能力のバランスを保っている。
TaSLはまた、汎用モデルに適した強力な一般化可能性を示し、LoRAのようなPEFTメソッドをカスタマイズできる。
さらに、メモリリプレイとの統合によってパフォーマンスがさらに向上する、顕著な拡張性を示している。
2つのCLベンチマーク(モデルサイズが220Mから7Bまで)の大規模な実験は、さまざまな設定でTaSLとその変種の有効性を実証している。
関連論文リスト
- DATA: Decomposed Attention-based Task Adaptation for Rehearsal-Free Continual Learning [22.386864304549285]
大規模言語モデル(LLM)では、継続的な学習(CL)が現実の要求に適応するために不可欠である。
近年のリハーサルフリー手法では、モデルベースおよび正規化ベースの戦略を用いてこの問題に対処している。
我々は、$textbfD$e $textbfA$ttention-based $textbfTask $textbfA$daptation ( data)を提案する。
データは、ハイランクなタスクアダプタとローランクなタスクアダプタを使用して、タスク固有の知識とタスク共有の知識を明示的に分離し、学習する。
論文 参考訳(メタデータ) (2025-02-17T06:35:42Z) - KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models [11.07333593086842]
知識認識型特異値適応(KaSA)
本稿では,知識認識特異値を用いた特異値分解(SVD)を利用したPEFT手法である知識認識特異値適応(KaSA)を導入し,その課題との関連性に基づいて,知識を動的に活性化する。
実験の結果、KaSAは16のベンチマークと4つの合成データセットでFFTと14のPEFTベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-08T21:26:22Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - TRELM: Towards Robust and Efficient Pre-training for Knowledge-Enhanced Language Models [31.209774088374374]
本稿では,知識強化言語モデルのためのロバストかつ効率的な事前学習フレームワークであるTRELMを紹介する。
我々は、知識を3倍に注入するための堅牢なアプローチと、価値ある情報を取得するための知識強化されたメモリバンクを採用しています。
我々は,TRELMが事前学習時間を少なくとも50%削減し,知識探索タスクや複数の知識認識言語理解タスクにおいて,他のKEPLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-17T13:04:35Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Learning an evolved mixture model for task-free continual learning [11.540150938141034]
タスク自由連続学習(TFCL)では,非定常データストリーム上で,明示的なタスク情報を持たないモデルを訓練する。
メモリ過負荷を回避するため,記憶されているサンプルを選択的に削除する2つの単純なドロップアウト機構を導入する。
論文 参考訳(メタデータ) (2022-07-11T16:01:27Z) - A Framework of Meta Functional Learning for Regularising Knowledge
Transfer [89.74127682599898]
本研究では,データ豊富なタスクから一般化可能な関数型モデルをメタ学習することで,メタ関数型学習(MFL)の新たなフレームワークを提案する。
MFLは、限定ラベル付きデータに対する機能訓練が学習すべきより差別的な機能を促進することにより、異なる学習タスクに一般化可能な機能正規化に関するメタ知識を計算する。
論文 参考訳(メタデータ) (2022-03-28T15:24:09Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。