論文の概要: Lifelong Language Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2010.02123v1
- Date: Mon, 5 Oct 2020 16:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:34:38.609718
- Title: Lifelong Language Knowledge Distillation
- Title(参考訳): 生涯の言語知識蒸留
- Authors: Yung-Sung Chuang, Shang-Yu Su, Yun-Nung Chen
- Abstract要約: パフォーマンスを低下させることなく、さまざまなタスクのストリームで生涯の言語学習を実行することは困難である。
既存のLLLアーキテクチャに容易に適用可能な,単純かつ効率的な手法であるLifelong Language Knowledge Distillation (L2KD)を提案する。
実験の結果,提案したL2KDは従来モデルよりも一貫して改善されていることがわかった。
- 参考スコア(独自算出の注目度): 35.251935231914366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is challenging to perform lifelong language learning (LLL) on a stream of
different tasks without any performance degradation comparing to the multi-task
counterparts. To address this issue, we present Lifelong Language Knowledge
Distillation (L2KD), a simple but efficient method that can be easily applied
to existing LLL architectures in order to mitigate the degradation.
Specifically, when the LLL model is trained on a new task, we assign a teacher
model to first learn the new task, and pass the knowledge to the LLL model via
knowledge distillation. Therefore, the LLL model can better adapt to the new
task while keeping the previously learned knowledge. Experiments show that the
proposed L2KD consistently improves previous state-of-the-art models, and the
degradation comparing to multi-task models in LLL tasks is well mitigated for
both sequence generation and text classification tasks.
- Abstract(参考訳): マルチタスクと比較した場合、パフォーマンスの低下を伴わずに、さまざまなタスクのストリームで生涯言語学習(lll)を行うことは困難である。
この問題に対処するために,既存のLLLアーキテクチャに容易に適用可能な簡易かつ効率的な方法であるLifelong Language Knowledge Distillation (L2KD)を提案する。
具体的には、LLLモデルを新しいタスクで訓練すると、まず教師モデルを割り当てて新しいタスクを学習し、知識蒸留を通してLLLモデルに知識を渡す。
したがって、LLLモデルは、学習済みの知識を維持しながら、新しいタスクに適応することができる。
実験により,提案するl2kdは従来の最先端モデルと一貫して改良され,lllタスクにおけるマルチタスクモデルとの比較による劣化はシーケンス生成とテキスト分類タスクの両方において十分に軽減された。
関連論文リスト
- TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning [41.28933724210434]
言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、リトレーニングなしで動的現実のシナリオに適応できる能力に対して、近年大きな関心を集めている。
既存のアプローチでは、複数のパラメータ効率の細かい調整(PEFT)ブロックを使用してタスク固有の知識を取得するが、これらの手法は非効率であり、タスク間の潜在的な知識伝達を利用できない。
本稿では,タスクスキルのローカライゼーションと統合(TaSL)という,言語モデルのための新しいCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Towards Plastic and Stable Exemplar-Free Incremental Learning: A Dual-Learner Framework with Cumulative Parameter Averaging [12.168402195820649]
In this proposed a Dual-Learner framework with Cumulative。
平均化(DLCPA)
DLCPA は Task-IL と Class-IL の両方の設定において,最先端の既定ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-28T08:48:44Z) - Lifelong Sequence Generation with Dynamic Module Expansion and
Adaptation [39.886149621730915]
寿命シーケンス生成(LSG)は、連続した世代タスクに基づいてモデルを継続的に訓練し、常に新しい世代パターンを学ぶことを目的としている。
人間の学習パラダイムにヒントを得て,動的モジュール拡張適応(DMEA)を提案する。
DMEAにより、タスク相関に基づいて新しい知識を取得するためのアーキテクチャを動的に決定し、最も類似したタスクを選択して、新しいタスクへの適応を容易にすることができる。
論文 参考訳(メタデータ) (2023-10-15T16:51:11Z) - Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong
Learning in Task-Oriented Dialogue [80.05509768165135]
生成的再生法は、過去の知識と生成された擬似サンプルを統合するために広く用いられている。
既存の生成的再生法の多くは、モデルを制御するために単一のタスク固有のトークンのみを使用する。
本稿では,タスクの統計を取り入れて生成的再生を向上させるために,生涯学習のための新しい条件付きVAEを提案する。
論文 参考訳(メタデータ) (2022-10-14T13:12:14Z) - Lifelong Learning of Few-shot Learners across NLP Tasks [45.273018249235705]
私たちは、さまざまなNLPタスクのシーケンスを通じて、生涯学習の難しさを研究します。
アダプタウェイトの生成をいくつかの例から学ぶ,継続的なメタラーニングアプローチを提案する。
私たちのアプローチは、トレーニングタスクよりもモデルのパフォーマンスを維持し、将来のタスクが学習されるとポジティブな知識伝達につながります。
論文 参考訳(メタデータ) (2021-04-18T10:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。