論文の概要: Gradient Projection For Parameter-Efficient Continual Learning
- arxiv url: http://arxiv.org/abs/2405.13383v1
- Date: Wed, 22 May 2024 06:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:04:57.095922
- Title: Gradient Projection For Parameter-Efficient Continual Learning
- Title(参考訳): パラメータ効率のよい連続学習のための勾配投影法
- Authors: Jingyang Qiao, Zhizhong Zhang, Xin Tan, Yanyun Qu, Wensheng Zhang, Yuan Xie,
- Abstract要約: パラメータ効率チューニング(PET)に基づく手法は連続学習において顕著な性能を示した。
破滅的な忘れ物は、継続的な学習における主要な課題である。
- 参考スコア(独自算出の注目度): 42.140425870544895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Catastrophic forgetting poses the primary challenge in the continual learning. Nowadays, methods based on parameter-efficient tuning (PET) have demonstrated impressive performance in continual learning. However, these methods are still confronted with a common problem: fine-tuning on consecutive distinct tasks can disrupt the existing parameter distribution and lead to forgetting. Recent progress mainly focused in empirically designing efficient tuning engineering, lacking investigation of forgetting generation mechanism, anti-forgetting criteria and providing theoretical support. Additionally, the unresolved trade-off between learning new content and protecting old knowledge further complicates these challenges. The gradient projection methodology restricts gradient updates to the orthogonal direction of the old feature space, preventing distribution of the parameters from being damaged during updating and significantly suppressing forgetting. Developing on it, in this paper, we reformulate Adapter, LoRA, Prefix, and Prompt to continual learning setting from the perspective of gradient projection, and propose a unified framework called Parameter Efficient Gradient Projection (PEGP). Based on the hypothesis that old tasks should have the same results after model updated, we introduce orthogonal gradient projection into different PET paradigms and theoretically demonstrate that the orthogonal condition for the gradient can effectively resist forgetting in PET-based continual methods. Notably, PEGP is the first unified method to provide an anti-forgetting mechanism with mathematical demonstration for different tuning paradigms. We extensively evaluate our method with different backbones on diverse datasets, and experiments demonstrate its efficiency in reducing forgetting in various incremental settings.
- Abstract(参考訳): 破滅的な忘れ物は、継続的な学習における主要な課題である。
近年,パラメータ効率チューニング(PET)に基づく手法は,連続学習において顕著な性能を示した。
しかし、これらの手法は相変わらず共通の問題に直面しており、連続的なタスクの微調整は既存のパラメータ分布を乱し、忘れてしまう可能性がある。
近年の進歩は, 効率的なチューニング工学を実証的に設計すること, 生成機構の忘れ方, 偽造防止基準, 理論的支援の欠如に主眼を置いている。
さらに、新しいコンテンツを学ぶことと古い知識を保護することの間の未解決のトレードオフは、これらの課題をさらに複雑にします。
勾配予測手法は、古い特徴空間の直交方向の勾配更新を制限し、更新中にパラメータの分布が損傷されることを防止し、忘れを著しく抑制する。
そこで本研究では,Adapter,LoRA,Prefix,Promptを勾配投影の観点から連続的な学習環境に再構成し,パラメータ効率勾配投影(PEGP)と呼ばれる統一的なフレームワークを提案する。
従来のタスクはモデル更新後に同じ結果を得るべきだという仮説に基づいて,異なるPETパラダイムに直交勾配投影を導入し,その直交勾配条件がPETに基づく連続的手法の忘れ込みに効果的に抵抗できることを理論的に実証する。
特に、PEGPは、異なるチューニングパラダイムのための数学的実演を備えたアンチフォッゲッティングメカニズムを提供するための最初の統一手法である。
多様なデータセット上で異なるバックボーンを用いて本手法を広範囲に評価し,様々な段階的設定における忘れの低減効果を実証する実験を行った。
関連論文リスト
- PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
PACEは、拡張一般化のための勾配を暗黙的に正規化するだけでなく、微調整および事前訓練されたモデルも暗黙的に整列して知識を保持することを示す。
PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文 参考訳(メタデータ) (2024-06-11T15:01:20Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning [54.68180752416519]
パノプティカルセグメンテーション(英: Panoptic segmentation)は、コンピュータビジョンの最先端タスクである。
ECLIPSE と呼ばれる Visual Prompt Tuning をベースとした,新規で効率的なパノプティカルセグメンテーション手法を提案する。
我々のアプローチは、基本モデルのパラメータを凍結し、小さなプロンプト埋め込みだけを微調整することであり、破滅的な忘れ物と塑性の両方に対処する。
論文 参考訳(メタデータ) (2024-03-29T11:31:12Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。