論文の概要: Concept-1K: A Novel Benchmark for Instance Incremental Learning
- arxiv url: http://arxiv.org/abs/2402.08526v2
- Date: Tue, 21 May 2024 08:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:31:52.028525
- Title: Concept-1K: A Novel Benchmark for Instance Incremental Learning
- Title(参考訳): Concept-1K: インスタンス増分学習のための新しいベンチマーク
- Authors: Junhao Zheng, Shengjie Qiu, Qianli Ma,
- Abstract要約: 既存のILシナリオとデータセットは、PLMにおける忘れの評価には適していない。
我々は、インスタンスインクリメンタルラーニング(IIL)と呼ばれる挑戦的なILシナリオと、より大規模なILステップをサポートするConcept-1Kと呼ばれる新しいデータセットを提案する。
本研究は, PLMの破滅的な忘れ方を探究する新たなシナリオを提供し, PLMの忘れ方を軽減するために, より強力な手法を考案する。
- 参考スコア(独自算出の注目度): 21.95081572612883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incremental learning (IL) is essential to realize the human-level intelligence in the neural network. However, existing IL scenarios and datasets are unqualified for assessing forgetting in PLMs, giving an illusion that PLMs do not suffer from catastrophic forgetting. To this end, we propose a challenging IL scenario called instance-incremental learning (IIL) and a novel dataset called Concept-1K, which supports an order of magnitude larger IL steps. Based on the experiments on Concept-1K, we reveal that billion-parameter PLMs still suffer from catastrophic forgetting, and the forgetting is affected by both model scale, pretraining, and buffer size. Furthermore, existing IL methods and a popular finetuning technique, LoRA, fail to achieve satisfactory performance. Our study provides a novel scenario for future studies to explore the catastrophic forgetting of PLMs and encourage more powerful techniques to be designed for alleviating the forgetting in PLMs. The data, code and scripts are publicly available at https://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm.
- Abstract(参考訳): インクリメンタルラーニング(IL)は、ニューラルネットワークにおける人間レベルのインテリジェンスを実現するために不可欠である。
しかしながら、既存のILシナリオやデータセットは、PLMにおける忘れの評価には適していないため、PLMが破滅的な忘れに苦しむことはないという幻想を与える。
そこで本研究では,インスタンスインクリメンタル・ラーニング(IIL)と呼ばれる挑戦的なILシナリオと,それよりはるかに大きなILステップをサポートするConcept-1Kという新しいデータセットを提案する。
概念1Kの実験から,10億パラメータのPLMは依然として破滅的な忘れ込みに悩まされており,その忘れはモデルスケール,事前学習,バッファサイズの両方に影響されていることが明らかとなった。
さらに、既存のILメソッドと一般的なファインタニング技術であるLoRAは、満足のいく性能を達成できなかった。
本研究は, PLMの破滅的な忘れ方を探究する新たなシナリオを提供し, PLMの忘れ方を軽減するために, より強力な手法を考案する。
データ、コード、スクリプトはhttps://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm.comで公開されている。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Does your LLM truly unlearn? An embarrassingly simple approach to recover unlearned knowledge [36.524827594501495]
未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを示す。
実用性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21%を完全な精度で保持する。
論文 参考訳(メタデータ) (2024-10-21T19:28:37Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Knowledge Unlearning for LLMs: Tasks, Methods, and Challenges [11.228131492745842]
大規模言語モデル(LLM)は、自然言語処理における新しい研究パラダイムを刺激している。
知識に基づく質問応答と推論の優れた能力にもかかわらず、欠陥や有害な知識を保持する可能性は、悪意のあるアプリケーションにリスクをもたらす。
機械学習の類似研究から派生した知識アンラーニングは、この問題に対処するための有望な道を示す。
論文 参考訳(メタデータ) (2023-11-27T12:37:51Z) - Enabling Large Language Models to Learn from Rules [99.16680531261987]
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
まず, LLMの強い文脈内能力を用いて, テキスト規則から知識を抽出する規則蒸留法を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
論文 参考訳(メタデータ) (2023-11-15T11:42:41Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Knowledge Solver: Teaching LLMs to Search for Domain Knowledge from
Knowledge Graphs [19.0797968186656]
大規模言語モデル(LLM)は汎用的であり、その創発的能力と一般化性のために異なるタスクを解くことができる。
以前の研究では、グラフニューラルネットワーク(GNN)のような追加モジュールは、外部の知識ベースから取得した知識に基づいて訓練されている。
論文 参考訳(メタデータ) (2023-09-06T15:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。