論文の概要: DAPT: A Dual Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.08295v1
- Date: Tue, 16 Jan 2024 11:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:12:07.217703
- Title: DAPT: A Dual Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models
- Title(参考訳): DAPT:大規模言語モデルのパラメータ効率の良い連続学習のための二重注意フレームワーク
- Authors: Weixiang Zhao, Shilong Wang, Yulin Hu, Yanyan Zhao, Bing Qin, Xuanyu
Zhang, Qing Yang, Dongliang Xu, Wanxiang Che
- Abstract要約: 継続的学習(CL)の能力は、動的世界における大規模言語モデル(LLM)の展開に不可欠である。
既存の手法では、CLにおける破滅的忘れ(CF)と知識伝達(KT)の課題に対処するため、学習モジュールと選択モジュールを考案している。
本稿では,PET学習と選択を両立させる新しい2つの注意枠組みを提案する。
- 参考スコア(独自算出の注目度): 74.48765681246947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continual learning (CL) ability is vital for deploying large language
models (LLMs) in the dynamic world. Based on parameter-efficient tuning (PET),
existing methods devise the learning module and the selection module to handle
the challenges of catastrophic forgetting (CF) and knowledge transfer (KT) in
CL. The learning module allocates separate PET blocks for each continually
emerged task and the selection module function to choose the correct one for
the input at testing time. However, there are limitations in their deigns of
both modules and they ignore the potential of aligning the two module to
address CF and KT simultaneously. To this end, we propose a novel Dual
Attention Framework , to align the PET learning and selection via the Dual
Attentive Learning\&Selection module. Extensive Experiments on two CL
benchmarks demonstrate the superiority of DAPT to resist CF and facilitate KT
at the same time. Moreover, DAPT exhibits the superiority when we scale it to
different model sizes (from 770M to 11B) and unseen tasks.
- Abstract(参考訳): 連続学習(cl)能力は、動的世界に大規模言語モデル(llm)を展開するのに不可欠である。
パラメータ効率チューニング(PET)に基づいて,既存手法では学習モジュールと選択モジュールを考案し,CLにおける破滅的忘れ (CF) と知識伝達 (KT) の課題に対処する。
学習モジュールは、連続したタスクごとに別々のPETブロックを割り当て、選択モジュール関数は、テスト時に入力に対して正しいPETブロックを選択する。
しかし、両方のモジュールに制限があり、2つのモジュールをCFとKTに同時に対応させる可能性を無視している。
そこで本研究では,2重注意学習モジュールを用いてペット学習と選択を整合させる,新しい2重注意フレームワークを提案する。
2つのCLベンチマークの大規模な実験は、CFに抵抗し、同時にKTを促進するDAPTの優位性を示している。
さらに、DAPTは、異なるモデルサイズ(770Mから11B)と見えないタスクにスケールする際の優位性を示す。
関連論文リスト
- Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models [56.93608812478369]
本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。
その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。
その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
論文 参考訳(メタデータ) (2024-08-16T23:57:29Z) - TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning [41.28933724210434]
言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、リトレーニングなしで動的現実のシナリオに適応できる能力に対して、近年大きな関心を集めている。
既存のアプローチでは、複数のパラメータ効率の細かい調整(PEFT)ブロックを使用してタスク固有の知識を取得するが、これらの手法は非効率であり、タスク間の潜在的な知識伝達を利用できない。
本稿では,タスクスキルのローカライゼーションと統合(TaSL)という,言語モデルのための新しいCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - FedYolo: Augmenting Federated Learning with Pretrained Transformers [61.56476056444933]
本研究では,デバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討する。
大規模化により,代替手法間の精度ギャップが小さくなり,ロバスト性も向上することを示す。
最後に、クライアントは単一のPTFを使用して複数の無関係なタスクを同時に解決できる。
論文 参考訳(メタデータ) (2023-07-10T21:08:52Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Class-Specific Channel Attention for Few-Shot Learning [16.019616787091202]
Few-Shot Learningは、過剰なデータを必要としないモデルトレーニングの能力のために、コンピュータビジョンにおいて注目を集めている。
大規模ラベル付きトレーニングセットから学習した知識をターゲットテストセットに伝達することを目的とした,従来のトランスファーベースのソリューションは限られている。
そこで我々は,各クラスにCSCA重みベクトルを割り当てることで,各クラスにおける識別チャネルの強調を学習するCSCAモジュールを提案する。
論文 参考訳(メタデータ) (2022-09-03T05:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。