論文の概要: Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study
- arxiv url: http://arxiv.org/abs/2303.01081v1
- Date: Thu, 2 Mar 2023 09:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:13:54.263978
- Title: Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study
- Title(参考訳): BERTはシークエンシャルタスクの予測を控えることができるか?
調査研究
- Authors: Mingxu Tao, Yansong Feng, Dongyan Zhao
- Abstract要約: BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
- 参考スコア(独自算出の注目度): 68.75670223005716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained language models help to achieve state of the art on a
variety of natural language processing (NLP) tasks, nevertheless, they still
suffer from forgetting when incrementally learning a sequence of tasks. To
alleviate this problem, recent works enhance existing models by sparse
experience replay and local adaption, which yield satisfactory performance.
However, in this paper we find that pre-trained language models like BERT have
a potential ability to learn sequentially, even without any sparse memory
replay. To verify the ability of BERT to maintain old knowledge, we adopt and
re-finetune single-layer probe networks with the parameters of BERT fixed. We
investigate the models on two types of NLP tasks, text classification and
extractive question answering. Our experiments reveal that BERT can actually
generate high quality representations for previously learned tasks in a long
term, under extremely sparse replay or even no replay. We further introduce a
series of novel methods to interpret the mechanism of forgetting and how memory
rehearsal plays a significant role in task incremental learning, which bridges
the gap between our new discovery and previous studies about catastrophic
forgetting.
- Abstract(参考訳): 大規模な事前訓練された言語モデルは、さまざまな自然言語処理(NLP)タスクの最先端を実現するのに役立ちます。
この問題を軽減するため、近年の研究では、スパース体験リプレイと局所適応により既存のモデルを強化し、良好な性能が得られる。
しかし,本論文では,BERTのような事前学習型言語モデルが,メモリリプレイが少なくても逐次学習できる可能性を見出した。
BERTが古い知識を維持する能力を検証するために、BERTのパラメータを固定した単一層プローブネットワークを採用し、再定義する。
テキスト分類と抽出質問応答という2種類のNLPタスクのモデルについて検討する。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイやリプレイを行なわずに,長期間にわたって高品質な表現を生成できることがわかった。
さらに,記憶のリハーサルがタスクインクリメンタル学習においてどのように重要な役割を果たすか,そのメカニズムを解釈する一連の新しい手法を導入し,新たな発見と壊滅的なリハーサルに関するこれまでの研究とのギャップを橋渡しする。
関連論文リスト
- Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong
Learning in Task-Oriented Dialogue [80.05509768165135]
生成的再生法は、過去の知識と生成された擬似サンプルを統合するために広く用いられている。
既存の生成的再生法の多くは、モデルを制御するために単一のタスク固有のトークンのみを使用する。
本稿では,タスクの統計を取り入れて生成的再生を向上させるために,生涯学習のための新しい条件付きVAEを提案する。
論文 参考訳(メタデータ) (2022-10-14T13:12:14Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Lifelong Learning of Few-shot Learners across NLP Tasks [45.273018249235705]
私たちは、さまざまなNLPタスクのシーケンスを通じて、生涯学習の難しさを研究します。
アダプタウェイトの生成をいくつかの例から学ぶ,継続的なメタラーニングアプローチを提案する。
私たちのアプローチは、トレーニングタスクよりもモデルのパフォーマンスを維持し、将来のタスクが学習されるとポジティブな知識伝達につながります。
論文 参考訳(メタデータ) (2021-04-18T10:41:56Z) - Learning Invariant Representation for Continual Learning [5.979373021392084]
継続的学習の重要な課題は、エージェントが新しいタスクに直面したときに、以前に学んだタスクを壊滅的に忘れることです。
連続学習のための学習不変表現(IRCL)という新しい擬似リハーサル法を提案する。
共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。
論文 参考訳(メタデータ) (2021-01-15T15:12:51Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight
Gated Injection Method [29.352569563032056]
本稿では,言語知識を単語埋め込みの形で,事前学習したBERTに明示的に注入する手法を提案する。
依存性ベースと逆適合の埋め込みを注入する場合、複数のセマンティックな類似性データセットのパフォーマンス改善は、そのような情報が有益であり、現在元のモデルから欠落していることを示している。
論文 参考訳(メタデータ) (2020-10-23T17:00:26Z) - Hierarchical Multitask Learning Approach for BERT [0.36525095710982913]
BERTは、マスク付き言語モデル(masked LM)と次の文予測(NSP)である2つのタスクを解くことで埋め込みを学習する
BERT事前学習には階層型マルチタスク学習アプローチを採用する。
この結果から,タスク階層を事前学習に組み込むことで,組込み性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-10-17T09:23:04Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。