論文の概要: In-context Continual Learning Assisted by an External Continual Learner
- arxiv url: http://arxiv.org/abs/2412.15563v1
- Date: Fri, 20 Dec 2024 04:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:46.536161
- Title: In-context Continual Learning Assisted by an External Continual Learner
- Title(参考訳): 外部連続学習者が支援する文脈内連続学習
- Authors: Saleh Momeni, Sahisnu Mazumder, Zixuan Ke, Bing Liu,
- Abstract要約: 既存の継続学習(CL)手法は、大規模言語モデル(LLM)の微調整や適応に頼っている。
InCAは、外部連続学習者(ECL)をICLと統合し、CFなしでスケーラブルなCLを実現する新しいアプローチである。
- 参考スコア(独自算出の注目度): 19.382196203113836
- License:
- Abstract: Existing continual learning (CL) methods mainly rely on fine-tuning or adapting large language models (LLMs). They still suffer from catastrophic forgetting (CF). Little work has been done to exploit in-context learning (ICL) to leverage the extensive knowledge within LLMs for CL without updating any parameters. However, incrementally learning each new task in ICL necessitates adding training examples from each class of the task to the prompt, which hampers scalability as the prompt length increases. This issue not only leads to excessively long prompts that exceed the input token limit of the underlying LLM but also degrades the model's performance due to the overextended context. To address this, we introduce InCA, a novel approach that integrates an external continual learner (ECL) with ICL to enable scalable CL without CF. The ECL is built incrementally to pre-select a small subset of likely classes for each test instance. By restricting the ICL prompt to only these selected classes, InCA prevents prompt lengths from becoming excessively long, while maintaining high performance. Experimental results demonstrate that InCA significantly outperforms existing CL baselines, achieving substantial performance gains.
- Abstract(参考訳): 既存の継続学習(CL)手法は、主に細調整や大規模言語モデル(LLM)の適応に頼っている。
それらは依然として破滅的な忘れ物(CF)に悩まされている。
ICL(In-context Learning)を活用して、パラメータを更新することなくLLM内の知識をCLに活用する作業はほとんど行われていない。
しかし、ICLで各新しいタスクを漸進的に学習するには、タスクの各クラスからプロンプトへのトレーニング例を追加する必要がある。
この問題は、LLMの入力トークン制限を超える過度に長いプロンプトを引き起こすだけでなく、過度に拡張されたコンテキストのためにモデルの性能を低下させる。
そこで本研究では,外部連続学習者(ECL)をICLと統合し,CFを使わずにスケーラブルなCLを実現する新しいアプローチであるInCAを紹介する。
ECLは段階的に構築され、各テストインスタンスに対して、潜在的クラスの小さなサブセットを事前に選択する。
ICLプロンプトをこれらの選択されたクラスのみに制限することにより、INAはハイパフォーマンスを維持しながら、プロンプトの長さが過度に長くなるのを防ぐ。
実験の結果,InCAは既存のCLベースラインを著しく上回り,大幅な性能向上を実現していることがわかった。
関連論文リスト
- ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z) - CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models [23.398619576886375]
継続学習(CL)は、ディープラーニングが学習したものを保持しながら、新しい知識を学ぶのを支援することを目的としている。
タスクごとの視覚誘導テキスト機能に対する確率的モデリングフレームワークであるCLAP(Continuous LeArning with Probabilistic Finetuning)を提案する。
論文 参考訳(メタデータ) (2024-03-28T04:15:58Z) - Investigating the Learning Behaviour of In-context Learning: A
Comparison with Supervised Learning [67.25698169440818]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な能力を示している。
我々は、ICLと教師あり学習(SL)を通して、同じ実演例で同じLLMを訓練し、ラベル摂動下での性能を調査する。
まず、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を与えることを発見した。
第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。
論文 参考訳(メタデータ) (2023-07-28T09:03:19Z) - On the Effectiveness of Equivariant Regularization for Robust Online
Continual Learning [17.995662644298974]
継続的な学習(CL)アプローチは、このギャップを埋めるために、以前のタスクと将来のタスクの両方への知識の伝達を容易にする。
近年の研究では、多種多様な下流タスクをうまく一般化できる多目的モデルを作成することができることが示されている。
等変正則化(CLER)による連続学習を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:10:31Z) - OpenICL: An Open-Source Framework for In-context Learning [48.75452105457122]
In-context Learning (ICL) と大規模言語モデル評価のためのオープンソースツールキット OpenICL を紹介する。
OpenICLは、ユーザが自分のニーズに合ったさまざまなコンポーネントを簡単に組み合わせられるように、非常に柔軟なアーキテクチャで研究に親しみやすい。
OpenICLの有効性は、分類、QA、機械翻訳、意味解析を含む幅広いNLPタスクで検証されている。
論文 参考訳(メタデータ) (2023-03-06T06:20:25Z) - Beyond Supervised Continual Learning: a Review [69.9674326582747]
連続学習(Continuous Learning, CL)は、定常データ分布の通常の仮定を緩和または省略する機械学習のフレーバーである。
データ分布の変化は、いわゆる破滅的な忘れ(CF)効果、すなわち、過去の知識の突然の喪失を引き起こす可能性がある。
本稿では、CLを他の環境で研究する文献をレビューする。例えば、監督を減らした学習、完全に教師なしの学習、強化学習などである。
論文 参考訳(メタデータ) (2022-08-30T14:44:41Z) - Learning with Multiple Complementary Labels [94.8064553345801]
補ラベル(CL)は、単に例の不正なクラスを示すが、CLで学習すると、多クラス分類器が生成される。
そこで本研究では,MCLを各例に示すための新しい問題設定と,MCLを学習するための2つの方法を提案する。
論文 参考訳(メタデータ) (2019-12-30T13:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。