論文の概要: SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.08295v3
- Date: Thu, 6 Jun 2024 12:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:00:12.541507
- Title: SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models
- Title(参考訳): SAPT:大規模言語モデルのパラメータ効率の良い連続学習のための共有注意フレームワーク
- Authors: Weixiang Zhao, Shilong Wang, Yulin Hu, Yanyan Zhao, Bing Qin, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che,
- Abstract要約: 大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
- 参考スコア(独自算出の注目度): 71.78800549517298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continual learning (CL) ability is vital for deploying large language models (LLMs) in the dynamic world. Existing methods devise the learning module to acquire task-specific knowledge with parameter-efficient tuning (PET) block and the selection module to pick out the corresponding one for the testing input, aiming at handling the challenges of catastrophic forgetting and knowledge transfer in CL. However, these methods tend to address only one of the challenges, ignoring the potential of aligning the two modules to effectively address catastrophic forgetting and knowledge transfer simultaneously. To this end, we propose a novel Shared Attention Framework (SAPT), to align the PET learning and selection via the Shared Attentive Learning \& Selection module. Extensive Experiments on two CL benchmarks demonstrate the superiority of SAPT. Moreover, SAPT consistently demonstrates its superiority when we scale it to different model sizes (from 770M to 13B), different model architectures (T5 and LLaMA-2) and unseen tasks.
- Abstract(参考訳): 継続的な学習(CL)能力は、動的世界における大規模言語モデル(LLM)の展開に不可欠である。
既存の手法では、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得する学習モジュールと、CLにおける破滅的な忘れと知識伝達の課題に対処することを目的として、テスト入力に対応するタスクを選択する選択モジュールを考案している。
しかし、これらの手法は一つの課題にのみ対処する傾向にあり、2つのモジュールを協調させて破滅的な忘れと知識伝達を同時に効果的に解決する可能性を無視している。
そこで本研究では,新しい共有注意フレームワーク(SAPT, Shared Attention Framework)を提案する。
2つのCLベンチマークの大規模な実験は、SAPTの優位性を示している。
さらに、SAPTは、異なるモデルサイズ(770Mから13B)、異なるモデルアーキテクチャ(T5とLLaMA-2)、見えないタスクにスケールする場合、その優位性を一貫して示しています。
関連論文リスト
- Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models [56.93608812478369]
本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。
その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。
その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
論文 参考訳(メタデータ) (2024-08-16T23:57:29Z) - TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning [41.28933724210434]
言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、リトレーニングなしで動的現実のシナリオに適応できる能力に対して、近年大きな関心を集めている。
既存のアプローチでは、複数のパラメータ効率の細かい調整(PEFT)ブロックを使用してタスク固有の知識を取得するが、これらの手法は非効率であり、タスク間の潜在的な知識伝達を利用できない。
本稿では,タスクスキルのローカライゼーションと統合(TaSL)という,言語モデルのための新しいCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - FedYolo: Augmenting Federated Learning with Pretrained Transformers [61.56476056444933]
本研究では,デバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討する。
大規模化により,代替手法間の精度ギャップが小さくなり,ロバスト性も向上することを示す。
最後に、クライアントは単一のPTFを使用して複数の無関係なタスクを同時に解決できる。
論文 参考訳(メタデータ) (2023-07-10T21:08:52Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Class-Specific Channel Attention for Few-Shot Learning [16.019616787091202]
Few-Shot Learningは、過剰なデータを必要としないモデルトレーニングの能力のために、コンピュータビジョンにおいて注目を集めている。
大規模ラベル付きトレーニングセットから学習した知識をターゲットテストセットに伝達することを目的とした,従来のトランスファーベースのソリューションは限られている。
そこで我々は,各クラスにCSCA重みベクトルを割り当てることで,各クラスにおける識別チャネルの強調を学習するCSCAモジュールを提案する。
論文 参考訳(メタデータ) (2022-09-03T05:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。