論文の概要: DAPT: A Dual Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.08295v1
- Date: Tue, 16 Jan 2024 11:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:12:07.217703
- Title: DAPT: A Dual Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models
- Title(参考訳): DAPT:大規模言語モデルのパラメータ効率の良い連続学習のための二重注意フレームワーク
- Authors: Weixiang Zhao, Shilong Wang, Yulin Hu, Yanyan Zhao, Bing Qin, Xuanyu
Zhang, Qing Yang, Dongliang Xu, Wanxiang Che
- Abstract要約: 継続的学習(CL)の能力は、動的世界における大規模言語モデル(LLM)の展開に不可欠である。
既存の手法では、CLにおける破滅的忘れ(CF)と知識伝達(KT)の課題に対処するため、学習モジュールと選択モジュールを考案している。
本稿では,PET学習と選択を両立させる新しい2つの注意枠組みを提案する。
- 参考スコア(独自算出の注目度): 74.48765681246947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continual learning (CL) ability is vital for deploying large language
models (LLMs) in the dynamic world. Based on parameter-efficient tuning (PET),
existing methods devise the learning module and the selection module to handle
the challenges of catastrophic forgetting (CF) and knowledge transfer (KT) in
CL. The learning module allocates separate PET blocks for each continually
emerged task and the selection module function to choose the correct one for
the input at testing time. However, there are limitations in their deigns of
both modules and they ignore the potential of aligning the two module to
address CF and KT simultaneously. To this end, we propose a novel Dual
Attention Framework , to align the PET learning and selection via the Dual
Attentive Learning\&Selection module. Extensive Experiments on two CL
benchmarks demonstrate the superiority of DAPT to resist CF and facilitate KT
at the same time. Moreover, DAPT exhibits the superiority when we scale it to
different model sizes (from 770M to 11B) and unseen tasks.
- Abstract(参考訳): 連続学習(cl)能力は、動的世界に大規模言語モデル(llm)を展開するのに不可欠である。
パラメータ効率チューニング(PET)に基づいて,既存手法では学習モジュールと選択モジュールを考案し,CLにおける破滅的忘れ (CF) と知識伝達 (KT) の課題に対処する。
学習モジュールは、連続したタスクごとに別々のPETブロックを割り当て、選択モジュール関数は、テスト時に入力に対して正しいPETブロックを選択する。
しかし、両方のモジュールに制限があり、2つのモジュールをCFとKTに同時に対応させる可能性を無視している。
そこで本研究では,2重注意学習モジュールを用いてペット学習と選択を整合させる,新しい2重注意フレームワークを提案する。
2つのCLベンチマークの大規模な実験は、CFに抵抗し、同時にKTを促進するDAPTの優位性を示している。
さらに、DAPTは、異なるモデルサイズ(770Mから11B)と見えないタスクにスケールする際の優位性を示す。
関連論文リスト
- Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models [56.93608812478369]
本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。
その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。
その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
論文 参考訳(メタデータ) (2024-08-16T23:57:29Z) - KIF: Knowledge Identification and Fusion for Language Model Continual Learning [41.28933724210434]
言語モデルのための新しいフレームワーク、Knowledge Identification and Fusion (KIF)を紹介する。
KIFはパラメータ依存に基づいてモデルを'スキルユニット'に分離し、より正確な制御を可能にする。
新たな課題に対するスキルユニットの重要性の分布を確認するために,新しいグループ単位の知識識別技術を採用している。
その結果、KIFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - FedYolo: Augmenting Federated Learning with Pretrained Transformers [61.56476056444933]
本研究では,デバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討する。
大規模化により,代替手法間の精度ギャップが小さくなり,ロバスト性も向上することを示す。
最後に、クライアントは単一のPTFを使用して複数の無関係なタスクを同時に解決できる。
論文 参考訳(メタデータ) (2023-07-10T21:08:52Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Class-Specific Channel Attention for Few-Shot Learning [16.019616787091202]
Few-Shot Learningは、過剰なデータを必要としないモデルトレーニングの能力のために、コンピュータビジョンにおいて注目を集めている。
大規模ラベル付きトレーニングセットから学習した知識をターゲットテストセットに伝達することを目的とした,従来のトランスファーベースのソリューションは限られている。
そこで我々は,各クラスにCSCA重みベクトルを割り当てることで,各クラスにおける識別チャネルの強調を学習するCSCAモジュールを提案する。
論文 参考訳(メタデータ) (2022-09-03T05:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。