論文の概要: Mixture of Experts Meets Prompt-Based Continual Learning
- arxiv url: http://arxiv.org/abs/2405.14124v2
- Date: Sat, 02 Nov 2024 04:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:38:07.524489
- Title: Mixture of Experts Meets Prompt-Based Continual Learning
- Title(参考訳): プロンプトをベースとした継続的学習を専門とするMixture of Experts
- Authors: Minh Le, An Nguyen, Huy Nguyen, Trang Nguyen, Trang Pham, Linh Van Ngo, Nhat Ho,
- Abstract要約: 本稿では、連続学習におけるそのような利点をいかにもたらすかを明らかにするための理論的分析を行う。
我々は,新しいタスク固有の専門家の追加として,プレフィックスチューニングに関する新しい視点を提供し,新しいゲーティング機構の設計を刺激する。
NoRGaの有効性は、様々なベンチマークや事前学習パラダイムで理論的にも経験的にも裏付けられている。
- 参考スコア(独自算出の注目度): 23.376460019465235
- License:
- Abstract: Exploiting the power of pre-trained models, prompt-based approaches stand out compared to other continual learning solutions in effectively preventing catastrophic forgetting, even with very few learnable parameters and without the need for a memory buffer. While existing prompt-based continual learning methods excel in leveraging prompts for state-of-the-art performance, they often lack a theoretical explanation for the effectiveness of prompting. This paper conducts a theoretical analysis to unravel how prompts bestow such advantages in continual learning, thus offering a new perspective on prompt design. We first show that the attention block of pre-trained models like Vision Transformers inherently encodes a special mixture of experts architecture, characterized by linear experts and quadratic gating score functions. This realization drives us to provide a novel view on prefix tuning, reframing it as the addition of new task-specific experts, thereby inspiring the design of a novel gating mechanism termed Non-linear Residual Gates (NoRGa). Through the incorporation of non-linear activation and residual connection, NoRGa enhances continual learning performance while preserving parameter efficiency. The effectiveness of NoRGa is substantiated both theoretically and empirically across diverse benchmarks and pretraining paradigms.
- Abstract(参考訳): 学習可能なパラメータがほとんどなく、メモリバッファを必要とせずとも、破滅的な忘れ込みを効果的に防ぐために、他の連続学習ソリューションと比較して、事前訓練されたモデルのパワーをエクスプロイトベースのアプローチは際立っている。
既存のプロンプトベースの連続学習手法は、最先端のパフォーマンスにプロンプトを活用するのに優れているが、プロンプトの有効性に関する理論的説明が欠けていることが多い。
本稿では、連続学習におけるこのような利点をいかに促進するかを解明するために理論的解析を行い、即興設計の新しい視点を提供する。
まず、視覚変換器のような事前学習モデルの注意ブロックは、本質的には、線形専門家と二次ゲーティングスコア関数によって特徴づけられる、専門家アーキテクチャの特別な混合を符号化していることを示す。
この実現によって私たちは,新しいタスク固有の専門家の追加としてプレフィックスチューニングの新たな視点を提供することができ,非線形残留ゲート(NoRGa)と呼ばれる新しいゲーティング機構の設計を刺激することができる。
非線形活性化と残差接続の一体化により、NoRGaはパラメータ効率を保ちながら連続学習性能を向上させる。
NoRGaの有効性は、様々なベンチマークや事前学習パラダイムで理論的にも経験的にも裏付けられている。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - LSPT: Long-term Spatial Prompt Tuning for Visual Representation Learning [36.843950725332476]
ビジュアルプロンプトチューニング(VPT)技術は、プロンプトと呼ばれる特別な学習可能なトークンを使用して、トレーニング済みの視覚変換器(ViT)を下流の視覚タスクに適応させる。
本稿では,視覚表現学習の革新的アプローチであるLSPT(Long-term Spatial Prompt Tuning)を紹介する。
我々の経験的知見はLSPTの優位性を裏付けるものであり、視覚的プロンプトチューニング性能に新たなベンチマークを設定する能力を示している。
論文 参考訳(メタデータ) (2024-02-27T10:55:07Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z) - CODA-Prompt: COntinual Decomposed Attention-based Prompting for
Rehearsal-Free Continual Learning [30.676509834338884]
コンピュータビジョンモデルは、継続的なトレーニングデータから新しい概念を学ぶ際に、破滅的な忘れという現象に悩まされる。
データリハーサルに代わるアプローチを提案する。
我々は,従来のSOTA法であるDualPromptを,平均的な最終精度で最大4.5%上回っていることを示す。
論文 参考訳(メタデータ) (2022-11-23T18:57:11Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。