論文の概要: An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates
- arxiv url: http://arxiv.org/abs/2405.18069v1
- Date: Tue, 28 May 2024 11:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:58:39.232186
- Title: An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates
- Title(参考訳): インクリメンタル低ランク更新を伴う事前学習モデルにおける蓄積の実証分析
- Authors: Albin Soutif--Cormerais, Simone Magistri, Joost van de Weijer, Andew D. Bagdanov,
- Abstract要約: 本研究は,ローランド適応(LoRA)のランクが,事前学習の基礎課題の忘れ方,可塑性およびその後の課題の忘れ方に及ぼす影響について検討する。
また、この方法で微調整された視覚トランスフォーマーは、残余のネットワークでは観測できないような、ある種の文脈的「忘れ」を示す。
- 参考スコア(独自算出の注目度): 11.90029443742706
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Broad, open source availability of large pretrained foundation models on the internet through platforms such as HuggingFace has taken the world of practical deep learning by storm. A classical pipeline for neural network training now typically consists of finetuning these pretrained network on a small target dataset instead of training from scratch. In the case of large models this can be done even on modest hardware using a low rank training technique known as Low-Rank Adaptation (LoRA). While Low Rank training has already been studied in the continual learning setting, existing works often consider storing the learned adapter along with the existing model but rarely attempt to modify the weights of the pretrained model by merging the LoRA with the existing weights after finishing the training of each task. In this article we investigate this setting and study the impact of LoRA rank on the forgetting of the pretraining foundation task and on the plasticity and forgetting of subsequent ones. We observe that this rank has an important impact on forgetting of both the pretraining and downstream tasks. We also observe that vision transformers finetuned in that way exhibit a sort of ``contextual'' forgetting, a behaviour that we do not observe for residual networks and that we believe has not been observed yet in previous continual learning works.
- Abstract(参考訳): HuggingFaceのようなプラットフォームを通じて、インターネット上でトレーニング済みの大規模な基礎モデルを広く、オープンソースで利用可能にすることは、嵐による実用的なディープラーニングの世界を席巻した。
ニューラルネットワークトレーニングのための古典的なパイプラインは、通常、スクラッチからトレーニングする代わりに、小さなターゲットデータセット上でトレーニング済みのネットワークを微調整する。
大型モデルの場合、低ランク適応(LoRA)と呼ばれる低ランクのトレーニング技術を使用して、控えめなハードウェアでもこれを行うことができる。
低ランクトレーニングはすでに継続学習環境で研究されているが、既存のモデルと共に学習したアダプタを格納することを検討する場合が多いが、各タスクのトレーニングを終えた後、LoRAと既存の重みをマージすることで、事前訓練されたモデルの重みを修正しようとすることは稀である。
本稿では,この設定について検討し,LoRAランクが学習前の基礎課題の忘れ方,塑性とその後の課題の忘れ方に与える影響について考察する。
我々は,このランクが,事前学習タスクと下流タスクの両方を忘れることに重要な影響を与えることを観察した。
また,この方法で微調整された視覚変換器は,従来の連続学習作業ではまだ観察されていないと信じている,残余のネットワークに対して観察しない動作である「文脈的」な記憶を示すものであることも確認した。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文 参考訳(メタデータ) (2024-06-16T15:14:56Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - A surprisingly simple technique to control the pretraining bias for
better transfer: Expand or Narrow your representation [22.866948071297767]
Self-Supervised Learning (SSL)モデルは、表現を学ぶためのプリテキストタスクに依存している。
背骨の最も最後のブロックのサイズだけを変えることで、単に寸法を変えるだけで、トレーニング前のバイアスを軽減するのに非常に効果的なテクニックであることが示されています。
論文 参考訳(メタデータ) (2023-04-11T17:24:29Z) - Continual Pre-Training Mitigates Forgetting in Language and Vision [43.80547864450793]
絶え間なく事前訓練されたモデルは破滅的な忘れ物に対して堅牢であることを示す。
本稿では,自己指導型事前学習が,教師付きプロトコルよりも事前知識の保持に有効であることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2022-05-19T07:27:12Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。