論文の概要: Concept-1K: A Novel Benchmark for Instance Incremental Learning
- arxiv url: http://arxiv.org/abs/2402.08526v1
- Date: Tue, 13 Feb 2024 15:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:52:06.870229
- Title: Concept-1K: A Novel Benchmark for Instance Incremental Learning
- Title(参考訳): concept-1k: インクリメンタル学習のための新しいベンチマーク
- Authors: Junhao Zheng, Shengjie Qiu, Qianli Ma
- Abstract要約: 既存のILシナリオとデータセットは、PLMにおける忘れの評価には適していない。
我々は、インスタンスインクリメンタルラーニング(IIL)と呼ばれる挑戦的なILシナリオと、より大規模なILステップをサポートするConcept-1Kと呼ばれる新しいデータセットを提案する。
本研究は, PLMの破滅的な忘れ方を探究する新たなシナリオを提供し, PLMの忘れ方を軽減するために, より強力な手法を考案する。
- 参考スコア(独自算出の注目度): 24.670517078015543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incremental learning (IL) is essential to realize the human-level
intelligence in the neural network. However, existing IL scenarios and datasets
are unqualified for assessing forgetting in PLMs, giving an illusion that PLMs
do not suffer from catastrophic forgetting. To this end, we propose a
challenging IL scenario called instance-incremental learning (IIL) and a novel
dataset called Concept-1K, which supports an order of magnitude larger IL
steps. Based on the experiments on Concept-1K, we reveal that billion-parameter
PLMs still suffer from catastrophic forgetting, and the forgetting is affected
by both model scale, pretraining, and buffer size. Furthermore, existing IL
methods and a popular finetuning technique, LoRA, fail to achieve satisfactory
performance. Our study provides a novel scenario for future studies to explore
the catastrophic forgetting of PLMs and encourage more powerful techniques to
be designed for alleviating the forgetting in PLMs. The data, code and scripts
are publicly available at
https://github.com/zzz47zzz/pretrained-lm-for-incremental-learning.
- Abstract(参考訳): インクリメンタル学習(il)は、ニューラルネットワークにおける人間レベルの知性を実現するために不可欠である。
しかしながら、既存のILシナリオやデータセットは、PLMの忘れを評価できないため、PLMが破滅的な忘れを負わないという錯覚を与える。
この目的のために、インスタンスインクリメンタル学習(iil)と呼ばれる挑戦的なilシナリオと、大きなilステップをサポートするconcept-1kと呼ばれる新しいデータセットを提案する。
概念1Kの実験から,10億パラメータのPLMは依然として破滅的な忘れ込みに悩まされており,その忘れはモデルスケール,事前学習,バッファサイズの両方に影響されていることが明らかとなった。
さらに、既存のILメソッドと一般的なファインタニング技術であるLoRAは、満足のいく性能を達成できなかった。
本研究は, PLMの破滅的な忘れ方を探究する新たなシナリオを提供し, PLMの忘れ方を軽減するために, より強力な手法を考案する。
データ、コード、スクリプトはhttps://github.com/zzz47zzz/pretrained-lm-for-incremental-learningで公開されている。
関連論文リスト
- Pandora's White-Box: Increased Training Data Leakage in Open LLMs [4.458307330781945]
我々はオープンソースのLarge Language Models(LLM)に対するプライバシー攻撃について研究する。
我々は,標準に基づく攻撃,教師付きニューラルネットワーク,単一ステップ損失比攻撃の3つの新しいホワイトボックスMIAを提案する。
微調整では、細調整されたモデルとベースモデルの損失を考慮に入れれば、細調整された損失比攻撃FLoRAは、ほぼ完全なMIA性能を実現することができる。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Few-Shot Class-Incremental Learning with Prior Knowledge [94.95569068211195]
本稿では,事前学習モデルの一般化能力を高めるために,先行知識を用いた学習(LwPK)を提案する。
実験結果から,LwPKは破滅的忘れ込みに対するモデルレジリエンスを効果的に向上させることが示された。
論文 参考訳(メタデータ) (2024-02-02T08:05:35Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Learn or Recall? Revisiting Incremental Learning with Pre-trained
Language Models [24.670517078015543]
殆どの人は、破滅的な忘れが優れたIL性能を達成するための最大の障害であると仮定している。
PLMを用いたILのためのSEQ*と呼ばれるフラストレーションに簡単な手法を提案する。
その結果,SEQ* は最先端 (SOTA) IL 法と比較して,競争力や性能に優れていた。
論文 参考訳(メタデータ) (2023-12-13T04:14:22Z) - DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training [33.11416096294998]
ゼロオーダー(ZO)最適化は、機械学習(ML)問題を解決する一般的なテクニックとなっている。
ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性を、パフォーマンスを著しく低下させることなく実証した以前の研究はない。
我々は,ZO最適化をDNNトレーニングにスクラッチから拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。
論文 参考訳(メタデータ) (2023-10-03T13:05:36Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - On the Usage of Continual Learning for Out-of-Distribution
Generalization in Pre-trained Language Models of Code [12.708117108874083]
事前学習型言語モデル(PLM)は、コードの深層学習において一般的な技術となっている。
本稿では,APIコールとAPI利用予測という2つの下流タスクで広く利用されているPLMアーキテクチャについて検討する。
これらの課題に対処するため,リプレイベースおよび正規化ベースの手法を含む5つの連続学習手法を実装した。
論文 参考訳(メタデータ) (2023-05-06T18:00:21Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z) - Dissecting Continual Learning a Structural and Data Analysis [0.0]
連続学習(Continuous Learning)は、生涯学習が可能なアルゴリズムを考案するための分野である。
ディープラーニングの手法は、モデル化されたデータがその後の学習セッションでかなりの分散シフトを受けていない場合、印象的な結果が得られる。
このようなシステムをこのインクリメンタルな設定に公開すると、パフォーマンスは急速に低下します。
論文 参考訳(メタデータ) (2023-01-03T10:37:11Z) - Neural Semi-supervised Learning for Text Classification Under
Large-Scale Pretraining [51.19885385587916]
我々は、大規模LM事前学習の文脈下で、テキスト分類タスクにおける半教師あり学習の研究を行う。
我々の研究は、大規模事前学習の文脈下でのセミ教師付き学習モデルの振る舞いを理解するための最初のステップである。
論文 参考訳(メタデータ) (2020-11-17T13:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。