論文の概要: TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning
- arxiv url: http://arxiv.org/abs/2408.05200v2
- Date: Fri, 30 Aug 2024 11:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 17:38:33.005998
- Title: TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning
- Title(参考訳): TaSL: 言語モデル継続学習のためのタスクスキルのローカライゼーションと統合
- Authors: Yujie Feng, Xu Chu, Yongxin Xu, Zexin Lu, Bo Liu, Philip S. Yu, Xiao-Ming Wu,
- Abstract要約: 言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、リトレーニングなしで動的現実のシナリオに適応できる能力に対して、近年大きな関心を集めている。
既存のアプローチでは、複数のパラメータ効率の細かい調整(PEFT)ブロックを使用してタスク固有の知識を取得するが、これらの手法は非効率であり、タスク間の潜在的な知識伝達を利用できない。
本稿では,タスクスキルのローカライゼーションと統合(TaSL)という,言語モデルのための新しいCLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.28933724210434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model continual learning (CL) has recently attracted significant interest for its ability to adapt large language models (LLMs) to dynamic real-world scenarios without retraining. A major challenge in this domain is catastrophic forgetting, where models lose previously acquired knowledge upon learning new tasks. Existing approaches commonly utilize multiple parameter-efficient fine-tuning (PEFT) blocks to acquire task-specific knowledge, yet these methods are inefficient and fail to leverage potential knowledge transfer across tasks. In this paper, we introduce a novel CL framework for language models, named Task Skill Localization and Consolidation (TaSL), which boosts knowledge transfer without depending on memory replay. TaSL initially segregates the model into 'skill units' based on parameter dependencies, allowing for more precise control. Subsequently, it employs a novel group-wise skill localization technique to ascertain the importance distribution of skill units for a new task. By comparing this importance distribution with those from previous tasks, we implement a fine-grained skill consolidation strategy that retains task-specific knowledge, thereby preventing forgetting, and updates task-shared knowledge, which facilitates bi-directional knowledge transfer. As a result, TaSL achieves an optimal balance between retaining prior knowledge and excelling in new tasks. TaSL also demonstrates strong generalizability, making it suitable for various base models and adaptable to PEFT methods like LoRA. Furthermore, it offers notable extensibility, supporting enhancements through integration with memory replay techniques. Comprehensive experiments conducted on two CL benchmarks, involving models ranging from 220M to 7B parameters, affirm the effectiveness of TaSL and its variants across different settings.
- Abstract(参考訳): 言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、リトレーニングなしで動的現実のシナリオに適応できる能力に対して、近年大きな関心を集めている。
この領域における大きな課題は、モデルが新しいタスクを学ぶ際に獲得した知識を失う、破滅的な忘れ事である。
既存のアプローチでは、複数のパラメータ効率の細かい調整(PEFT)ブロックを使用してタスク固有の知識を取得するが、これらの手法は非効率であり、タスク間の潜在的な知識伝達を利用できない。
本稿では,タスクスキル・ローカライゼーションと統合(TaSL)と呼ばれる,言語モデルのための新しいCLフレームワークを提案する。
TaSLは当初、パラメータ依存に基づいてモデルを"スキルユニット"に分離し、より正確な制御を可能にする。
その後、新規なグループワイドスキルローカライズ技術を用いて、新しいタスクにおけるスキルユニットの重要性の分布を確認する。
この重要度分布を従来の課題と比較することにより、タスク固有の知識を保持し、忘れないようにし、双方向の知識伝達を容易にするタスク共有知識を更新する、きめ細かいスキル統合戦略を実現する。
結果として、TaSLは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
TaSLは強力な一般化可能性を示し、様々なベースモデルに適合し、LoRAのようなPEFTメソッドに適応できる。
さらに、メモリリプレイ技術との統合による拡張をサポートすることで、顕著な拡張性を提供する。
220Mから7Bパラメータのモデルを含む2つのCLベンチマークで包括的な実験を行い、異なる設定でTaSLとその変種の有効性を確認した。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - TaSL: Continual Dialog State Tracking via Task Skill Localization and Consolidation [14.533890076297393]
タスクスキルのローカライゼーションと統合のための新しいフレームワークであるTaSLを提案する。
TaSLは、タスク特化領域とタスク共有領域をピンポイントする、新しいグループワイド技術を使用している。
結果として、TaSLは以前の知識の保存と新しいタスクの達成のバランスをとることになる。
論文 参考訳(メタデータ) (2024-08-19T10:01:28Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - A Framework of Meta Functional Learning for Regularising Knowledge
Transfer [89.74127682599898]
本研究では,データ豊富なタスクから一般化可能な関数型モデルをメタ学習することで,メタ関数型学習(MFL)の新たなフレームワークを提案する。
MFLは、限定ラベル付きデータに対する機能訓練が学習すべきより差別的な機能を促進することにより、異なる学習タスクに一般化可能な機能正規化に関するメタ知識を計算する。
論文 参考訳(メタデータ) (2022-03-28T15:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。