論文の概要: Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters
- arxiv url: http://arxiv.org/abs/2403.11549v2
- Date: Mon, 3 Jun 2024 07:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 15:47:27.008552
- Title: Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters
- Title(参考訳): Mixture-of-Experts Adapters を用いた視覚言語モデルの連続学習の促進
- Authors: Jiazuo Yu, Yunzhi Zhuge, Lu Zhang, Ping Hu, Dong Wang, Huchuan Lu, You He,
- Abstract要約: 本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
- 参考スコア(独自算出の注目度): 65.15700861265432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning can empower vision-language models to continuously acquire new knowledge, without the need for access to the entire historical dataset. However, mitigating the performance degradation in large-scale models is non-trivial due to (i) parameter shifts throughout lifelong learning and (ii) significant computational burdens associated with full-model tuning. In this work, we present a parameter-efficient continual learning framework to alleviate long-term forgetting in incremental learning with vision-language models. Our approach involves the dynamic expansion of a pre-trained CLIP model, through the integration of Mixture-of-Experts (MoE) adapters in response to new tasks. To preserve the zero-shot recognition capability of vision-language models, we further introduce a Distribution Discriminative Auto-Selector (DDAS) that automatically routes in-distribution and out-of-distribution inputs to the MoE Adapter and the original CLIP, respectively. Through extensive experiments across various settings, our proposed method consistently outperforms previous state-of-the-art approaches while concurrently reducing parameter training burdens by 60%. Our code locates at https://github.com/JiazuoYu/MoE-Adapters4CL
- Abstract(参考訳): 継続的な学習は、履歴データセット全体にアクセスする必要なしに、視覚言語モデルに新しい知識を継続的に取得する権限を与える。
しかし、大規模モデルの性能劣化を緩和するのは簡単ではない。
一 生涯学習を通してのパラメータシフト
(II)フルモデルチューニングに伴う計算負荷が大きい。
本研究では,視覚言語モデルを用いた漸進的学習における長期的忘れを軽減するためのパラメータ効率のよい連続学習フレームワークを提案する。
我々のアプローチは、新しいタスクに対応するMixture-of-Experts (MoE)アダプタの統合を通じて、事前訓練されたCLIPモデルの動的拡張を伴う。
さらに、視覚言語モデルのゼロショット認識能力を保ちつつ、分散識別オートセレクタ (DDAS) を導入し、各入力をMoEアダプタとオリジナルのCLIPに自動的にルーティングする。
提案手法は,様々な環境における広範囲な実験を通じて,パラメータ学習負荷を60%削減しつつ,従来手法よりも一貫して性能を向上する。
私たちのコードはhttps://github.com/JiazuoYu/MoE-Adapters4CLにあります。
関連論文リスト
- Adaptive Variational Continual Learning via Task-Heuristic Modelling [3.6119958671506707]
変分連続学習(英: variational continual learning, 英: Variational continual learning)は、最高の連続学習モデルの中で最先端のパフォーマンスを持つターンキー学習アルゴリズムである。
そこで本研究では,情報学習とモデル最適化のタスクを組み合わせた,一般化された変分連続学習(G)モデルの拡張について検討する。
論文 参考訳(メタデータ) (2024-08-29T13:28:11Z) - Semantically-Shifted Incremental Adapter-Tuning is A Continual ViTransformer [44.10678347943115]
クラスインクリメンタルラーニング(CIL)は、モデルが破滅的な忘れを克服しつつ、新しいクラスを継続的に学習できるようにすることを目的としている。
本稿では,連続学習の文脈において,異なるパラメータ効率チューニング(PET)手法を再検討する。
適応チューニングは,各学習セッションにおいてパラメータ拡張がなくても,プロンプトベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-29T05:23:12Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Learning an evolved mixture model for task-free continual learning [11.540150938141034]
タスク自由連続学習(TFCL)では,非定常データストリーム上で,明示的なタスク情報を持たないモデルを訓練する。
メモリ過負荷を回避するため,記憶されているサンプルを選択的に削除する2つの単純なドロップアウト機構を導入する。
論文 参考訳(メタデータ) (2022-07-11T16:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。