論文の概要: Recent Advances of Foundation Language Models-based Continual Learning: A Survey
- arxiv url: http://arxiv.org/abs/2405.18653v1
- Date: Tue, 28 May 2024 23:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:23:36.504599
- Title: Recent Advances of Foundation Language Models-based Continual Learning: A Survey
- Title(参考訳): 基礎言語モデルに基づく継続的学習の最近の進歩
- Authors: Yutao Yang, Jie Zhou, Xuanwen Ding, Tianyu Huai, Shunyu Liu, Qin Chen, Liang He, Yuan Xie,
- Abstract要約: 基礎言語モデル (LM) は自然言語処理 (NLP) とコンピュータビジョン (CV) の分野において重要な成果を上げている。
しかし、破滅的な忘れ物のため、人間のような継続的学習をエミュレートすることはできない。
従来の知識を忘れずに新しいタスクに適応できるように、様々な連続学習(CL)ベースの方法論が開発されている。
- 参考スコア(独自算出の注目度): 31.171203978742447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, foundation language models (LMs) have marked significant achievements in the domains of natural language processing (NLP) and computer vision (CV). Unlike traditional neural network models, foundation LMs obtain a great ability for transfer learning by acquiring rich commonsense knowledge through pre-training on extensive unsupervised datasets with a vast number of parameters. However, they still can not emulate human-like continuous learning due to catastrophic forgetting. Consequently, various continual learning (CL)-based methodologies have been developed to refine LMs, enabling them to adapt to new tasks without forgetting previous knowledge. However, a systematic taxonomy of existing approaches and a comparison of their performance are still lacking, which is the gap that our survey aims to fill. We delve into a comprehensive review, summarization, and classification of the existing literature on CL-based approaches applied to foundation language models, such as pre-trained language models (PLMs), large language models (LLMs) and vision-language models (VLMs). We divide these studies into offline CL and online CL, which consist of traditional methods, parameter-efficient-based methods, instruction tuning-based methods and continual pre-training methods. Offline CL encompasses domain-incremental learning, task-incremental learning, and class-incremental learning, while online CL is subdivided into hard task boundary and blurry task boundary settings. Additionally, we outline the typical datasets and metrics employed in CL research and provide a detailed analysis of the challenges and future work for LMs-based continual learning.
- Abstract(参考訳): 近年,基盤言語モデル (LM) は自然言語処理 (NLP) とコンピュータビジョン (CV) の分野において重要な成果を上げている。
従来のニューラルネットワークモデルとは異なり、ファンデーションLMは、膨大な数のパラメータを持つ広範囲な教師なしデータセットの事前トレーニングを通じて、豊富なコモンセンス知識を取得することによって、伝達学習の優れた能力を得る。
しかし、破滅的な忘れ物のために、人間のような継続的学習をエミュレートすることはできない。
その結果,従来の知識を忘れずに新たなタスクに適応できるように,様々な連続学習(CL)ベースの手法が開発されている。
しかし、既存のアプローチの体系的な分類とそれらの性能の比較はいまだに欠落しており、これは我々の調査が目指すギャップである。
予備学習言語モデル(PLM)、大規模言語モデル(LLM)、視覚言語モデル(VLM)など、基礎言語モデルに適用されたCLに基づく既存文献の包括的なレビュー、要約、分類について検討する。
我々はこれらの研究を,従来の手法,パラメータ効率に基づく手法,命令チューニングに基づく手法,連続的な事前学習手法からなるオフラインCLとオンラインCLに分割する。
オフラインCLはドメイン・インクリメンタル・ラーニング、タスク・インクリメンタル・ラーニング、クラス・インクリメンタル・ラーニングを含む。
さらに,CL研究で使用される典型的なデータセットとメトリクスを概説し,LMを用いた連続学習における課題と今後の課題を詳細に分析する。
関連論文リスト
- Zero-shot Model-based Reinforcement Learning using Large Language Models [12.930241182192988]
本稿では,マルコフ決定過程の動的状態を予測するために,事前学習した大規模言語モデルをどのように活用することができるかを検討する。
本稿では,モデルに基づく政策評価とデータ強化型オフ政治強化学習という2つの強化学習環境における概念実証の応用について述べる。
論文 参考訳(メタデータ) (2024-10-15T15:46:53Z) - Recent Advances of Multimodal Continual Learning: A Comprehensive Survey [64.82070119713207]
本研究は,マルチモーダル連続学習法に関する総合的な調査である。
既存のMMCLメソッドは,正規化ベース,アーキテクチャベース,リプレイベース,プロンプトベースという4つのカテゴリに分類される。
今後の研究・開発への道筋について論じる。
論文 参考訳(メタデータ) (2024-10-07T13:10:40Z) - Probing the Decision Boundaries of In-context Learning in Large Language Models [31.977886254197138]
本稿では,テキスト内二項分類のための決定境界のレンズからテキスト内学習を探索し,理解するための新しいメカニズムを提案する。
驚いたことに、単純な二項分類タスクにおいて、現在のLLMによって学習される決定境界は、しばしば不規則で非滑らかである。
論文 参考訳(メタデータ) (2024-06-17T06:00:24Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models [15.847302755988506]
本研究では,非定常分布から連続的なタスク列を学習しなければならない連続学習問題に対処する。
プレトレーニングネットワークの複数の中間層からの2次特徴統計量を利用する,CL に対する新しいプロトタイプベースのアプローチである LayUP を提案する。
その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。
論文 参考訳(メタデータ) (2023-12-13T13:11:44Z) - Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。
簡単なベースラインは、この評価の下で最先端のCL法より優れている。
これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文 参考訳(メタデータ) (2023-02-02T12:21:10Z) - Continual Lifelong Learning in Natural Language Processing: A Survey [3.9103337761169943]
連続学習(continual learning, cl)は,情報システムが時間を越えた連続的なデータストリームから学ぶことを可能にする。
既存のディープラーニングアーキテクチャでは、以前獲得した知識をほとんど忘れずに新しいタスクを学習することは困難である。
我々は様々なnlpタスクのレンズを通してclの問題を検討する。
論文 参考訳(メタデータ) (2020-12-17T18:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。