論文の概要: SAPT: A Shared Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.08295v2
- Date: Fri, 16 Feb 2024 10:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:35:22.265600
- Title: SAPT: A Shared Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models
- Title(参考訳): SAPT:大規模言語モデルのパラメータ効率の良い連続学習のための共有注意フレームワーク
- Authors: Weixiang Zhao, Shilong Wang, Yulin Hu, Yanyan Zhao, Bing Qin, Xuanyu
Zhang, Qing Yang, Dongliang Xu, Wanxiang Che
- Abstract要約: 大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
- 参考スコア(独自算出の注目度): 74.48765681246947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continual learning (CL) ability is vital for deploying large language
models (LLMs) in the dynamic world. Existing methods devise the learning module
to acquire task-specific knowledge with parameter-efficient tuning (PET) block
and the selection module to pick out the corresponding one for the testing
input, aiming at handling the challenges of catastrophic forgetting and
knowledge transfer in CL. However, these methods tend to address only one of
the challenges, ignoring the potential of aligning the two modules to
effectively address catastrophic forgetting and knowledge transfer
simultaneously. To this end, we propose a novel Shared Attention Framework
(SAPT), to align the PET learning and selection via the Shared Attentive
Learning \& Selection module. Extensive Experiments on two CL benchmarks
demonstrate the superiority of SAPT. Moreover, SAPT consistently demonstrates
its superiority when we scale it to different model sizes (from 770M to 13B),
different model architectures (T5 and LLaMA-2) and unseen tasks.
- Abstract(参考訳): 連続学習(cl)能力は、動的世界に大規模言語モデル(llm)を展開するのに不可欠である。
既存の手法では、パラメータ効率チューニング(pet)ブロックと選択モジュールを用いてタスク固有の知識を取得するための学習モジュールを考案し、clにおける壊滅的な忘れることや知識の伝達の課題に対処する。
しかし、これらの手法は難題の1つのみに対処しがちであり、2つのモジュールが破滅的な忘れ物と知識の伝達を同時に扱う可能性を無視している。
そこで,本稿では,ペットの学習と選択を共通注意学習と選択モジュールで調整する新しい共有注意フレームワーク(sapt)を提案する。
2つのCLベンチマークの大規模な実験は、SAPTの優位性を示している。
さらにSAPTは、異なるモデルサイズ(770Mから13B)、異なるモデルアーキテクチャ(T5とLLaMA-2)、見えないタスクにスケールする場合、その優位性を一貫して示しています。
関連論文リスト
- Interactive Continual Learning: Fast and Slow Thinking [18.363276470822427]
本稿では,対話型連続学習(Interactive Continual Learning, ICL)フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
また、ハードサンプルを特定するために、von Mises-Fisher Outlier Detection and Interaction (vMF-ODI)戦略を導入する。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - Towards Plastic and Stable Exemplar-Free Incremental Learning: A
Dual-Learner Framework with Cumulative Parameter Averaging [13.293105226880616]
In this proposed a Dual-Learner framework with Cumulative。
平均化(DLCPA)
DLCPA は Task-IL と Class-IL の両方の設定において,最先端の既定ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-28T08:48:44Z) - FedYolo: Augmenting Federated Learning with Pretrained Transformers [61.56476056444933]
本研究では,デバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討する。
大規模化により,代替手法間の精度ギャップが小さくなり,ロバスト性も向上することを示す。
最後に、クライアントは単一のPTFを使用して複数の無関係なタスクを同時に解決できる。
論文 参考訳(メタデータ) (2023-07-10T21:08:52Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Class-Specific Channel Attention for Few-Shot Learning [16.019616787091202]
Few-Shot Learningは、過剰なデータを必要としないモデルトレーニングの能力のために、コンピュータビジョンにおいて注目を集めている。
大規模ラベル付きトレーニングセットから学習した知識をターゲットテストセットに伝達することを目的とした,従来のトランスファーベースのソリューションは限られている。
そこで我々は,各クラスにCSCA重みベクトルを割り当てることで,各クラスにおける識別チャネルの強調を学習するCSCAモジュールを提案する。
論文 参考訳(メタデータ) (2022-09-03T05:54:20Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z) - A Combinatorial Perspective on Transfer Learning [27.7848044115664]
モジュラーソリューションの学習によって、目に見えない分散データと潜在的に異なる分散データの両方を効果的に一般化することができるかを検討する。
タスクセグメンテーション,モジュール型学習,メモリベースアンサンブルの組み合わせによって,指数関数的に増加する多くの未確認タスクの一般化がもたらされる。
論文 参考訳(メタデータ) (2020-10-23T09:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。