論文の概要: Mixture of Experts Meets Prompt-Based Continual Learning
- arxiv url: http://arxiv.org/abs/2405.14124v2
- Date: Sat, 02 Nov 2024 04:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:38:07.524489
- Title: Mixture of Experts Meets Prompt-Based Continual Learning
- Title(参考訳): プロンプトをベースとした継続的学習を専門とするMixture of Experts
- Authors: Minh Le, An Nguyen, Huy Nguyen, Trang Nguyen, Trang Pham, Linh Van Ngo, Nhat Ho,
- Abstract要約: 本稿では、連続学習におけるそのような利点をいかにもたらすかを明らかにするための理論的分析を行う。
我々は,新しいタスク固有の専門家の追加として,プレフィックスチューニングに関する新しい視点を提供し,新しいゲーティング機構の設計を刺激する。
NoRGaの有効性は、様々なベンチマークや事前学習パラダイムで理論的にも経験的にも裏付けられている。
- 参考スコア(独自算出の注目度): 23.376460019465235
- License:
- Abstract: Exploiting the power of pre-trained models, prompt-based approaches stand out compared to other continual learning solutions in effectively preventing catastrophic forgetting, even with very few learnable parameters and without the need for a memory buffer. While existing prompt-based continual learning methods excel in leveraging prompts for state-of-the-art performance, they often lack a theoretical explanation for the effectiveness of prompting. This paper conducts a theoretical analysis to unravel how prompts bestow such advantages in continual learning, thus offering a new perspective on prompt design. We first show that the attention block of pre-trained models like Vision Transformers inherently encodes a special mixture of experts architecture, characterized by linear experts and quadratic gating score functions. This realization drives us to provide a novel view on prefix tuning, reframing it as the addition of new task-specific experts, thereby inspiring the design of a novel gating mechanism termed Non-linear Residual Gates (NoRGa). Through the incorporation of non-linear activation and residual connection, NoRGa enhances continual learning performance while preserving parameter efficiency. The effectiveness of NoRGa is substantiated both theoretically and empirically across diverse benchmarks and pretraining paradigms.
- Abstract(参考訳): 学習可能なパラメータがほとんどなく、メモリバッファを必要とせずとも、破滅的な忘れ込みを効果的に防ぐために、他の連続学習ソリューションと比較して、事前訓練されたモデルのパワーをエクスプロイトベースのアプローチは際立っている。
既存のプロンプトベースの連続学習手法は、最先端のパフォーマンスにプロンプトを活用するのに優れているが、プロンプトの有効性に関する理論的説明が欠けていることが多い。
本稿では、連続学習におけるこのような利点をいかに促進するかを解明するために理論的解析を行い、即興設計の新しい視点を提供する。
まず、視覚変換器のような事前学習モデルの注意ブロックは、本質的には、線形専門家と二次ゲーティングスコア関数によって特徴づけられる、専門家アーキテクチャの特別な混合を符号化していることを示す。
この実現によって私たちは,新しいタスク固有の専門家の追加としてプレフィックスチューニングの新たな視点を提供することができ,非線形残留ゲート(NoRGa)と呼ばれる新しいゲーティング機構の設計を刺激することができる。
非線形活性化と残差接続の一体化により、NoRGaはパラメータ効率を保ちながら連続学習性能を向上させる。
NoRGaの有効性は、様々なベンチマークや事前学習パラダイムで理論的にも経験的にも裏付けられている。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Revisiting Prefix-tuning: Statistical Benefits of Reparameterization among Prompts [36.88984387787463]
本研究では,大規模事前学習モデルの微調整のためのプロンプトベース手法の理論的基礎について検討する。
再パラメータ化は単なる工学的トリックではなく、深い理論的基礎に根ざしていることを示す。
本研究は,プロンプトベース手法の理解を深める上で,理論的および経験的貢献を提供するものである。
論文 参考訳(メタデータ) (2024-10-03T04:30:24Z) - Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective [125.00228936051657]
本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-24T09:30:04Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - CODA-Prompt: COntinual Decomposed Attention-based Prompting for
Rehearsal-Free Continual Learning [30.676509834338884]
コンピュータビジョンモデルは、継続的なトレーニングデータから新しい概念を学ぶ際に、破滅的な忘れという現象に悩まされる。
データリハーサルに代わるアプローチを提案する。
我々は,従来のSOTA法であるDualPromptを,平均的な最終精度で最大4.5%上回っていることを示す。
論文 参考訳(メタデータ) (2022-11-23T18:57:11Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - A Closer Look at Rehearsal-Free Continual Learning [26.09061715039747]
リハーサルを伴わない強力な連続学習性能を実現する方法を示す。
まず、パラメータ正規化手法が1つの拡張タスクのリハーサルなし連続学習に失敗するという一般的な仮定を論じる。
次に、リハーサルなし連続学習における事前学習モデルからの知識を活用する方法について検討し、バニラL2パラメータ正則化がEWCパラメータ正則化および特徴蒸留より優れていることを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。