論文の概要: Continual Learning for Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2402.01364v1
- Date: Fri, 2 Feb 2024 12:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:27:02.188694
- Title: Continual Learning for Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルのための連続学習:調査
- Authors: Tongtong Wu, Linhao Luo, Yuan-Fang Li, Shirui Pan, Thuy-Trang Vu,
Gholamreza Haffari
- Abstract要約: 大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
- 参考スコア(独自算出の注目度): 95.79977915131145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are not amenable to frequent re-training, due to
high training costs arising from their massive scale. However, updates are
necessary to endow LLMs with new skills and keep them up-to-date with rapidly
evolving human knowledge. This paper surveys recent works on continual learning
for LLMs. Due to the unique nature of LLMs, we catalog continue learning
techniques in a novel multi-staged categorization scheme, involving continual
pretraining, instruction tuning, and alignment. We contrast continual learning
for LLMs with simpler adaptation methods used in smaller models, as well as
with other enhancement strategies like retrieval-augmented generation and model
editing. Moreover, informed by a discussion of benchmarks and evaluation, we
identify several challenges and future work directions for this crucial task.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
しかし、llmに新しいスキルを与え、急速に進化する人間の知識を最新に保つためには、更新が必要である。
本稿では,LLMの連続学習に関する最近の研究について述べる。
LLMの独特な性質のため、連続的な事前学習、命令チューニング、アライメントを含む、新しい多段階分類方式で継続学習手法をカタログ化する。
llmの連続学習と,より小さなモデルで使用される単純な適応法と,検索型生成やモデル編集などの拡張戦略を比較した。
さらに、ベンチマークと評価に関する議論から、この重要なタスクに対するいくつかの課題と今後の作業の方向性を明らかにする。
関連論文リスト
- Recent Advances of Foundation Language Models-based Continual Learning: A Survey [31.171203978742447]
基礎言語モデル (LM) は自然言語処理 (NLP) とコンピュータビジョン (CV) の分野において重要な成果を上げている。
しかし、破滅的な忘れ物のため、人間のような継続的学習をエミュレートすることはできない。
従来の知識を忘れずに新しいタスクに適応できるように、様々な連続学習(CL)ベースの方法論が開発されている。
論文 参考訳(メタデータ) (2024-05-28T23:32:46Z) - When Life gives you LLMs, make LLM-ADE: Large Language Models with Adaptive Data Engineering [0.0]
LLM-ADEは、大規模言語モデルのトレーニングを継続するための方法論である。
それは破滅的な忘れと二重降下の課題に対処する。
これは、以前に取得した知識を保持しながら、新しいデータに対するモデル適応性を高める。
論文 参考訳(メタデータ) (2024-04-19T17:43:26Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Rethinking Learning Rate Tuning in the Era of Large Language Models [11.87985768634266]
大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するために、近年のディープラーニングの成功を表している。
ファインチューニングを活用して、様々な現実世界のアプリケーションにLLMを適用するための主要な戦略となっている。
既存の学習率ポリシは、主に従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
論文 参考訳(メタデータ) (2023-09-16T03:37:00Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Online Fast Adaptation and Knowledge Accumulation: a New Approach to
Continual Learning [74.07455280246212]
継続的な学習は、新しいタスクに適応しながら、以前のタスクを忘れずにタスクの流れから学ぶエージェントを研究する。
この新たなシナリオでは、現在の連続学習、メタ学習、メタ連続学習、および連続メタ学習技術が失敗することを示します。
本稿では,このシナリオの強力なベースラインとして,人気のあるMAMLアルゴリズムのオンライン拡張であるContinual-MAMLを提案する。
論文 参考訳(メタデータ) (2020-03-12T15:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。