論文の概要: Class Incremental Learning with Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2310.20348v1
- Date: Tue, 31 Oct 2023 10:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:30:43.907513
- Title: Class Incremental Learning with Pre-trained Vision-Language Models
- Title(参考訳): 事前学習した視覚言語モデルによる授業インクリメンタル学習
- Authors: Xialei Liu, Xusheng Cao, Haori Lu, Jia-wen Xiao, Andrew D. Bagdanov,
Ming-Ming Cheng
- Abstract要約: 本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
- 参考スコア(独自算出の注目度): 59.15538370859431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of large-scale pre-trained models, interest in adapting and
exploiting them for continual learning scenarios has grown.
In this paper, we propose an approach to exploiting pre-trained
vision-language models (e.g. CLIP) that enables further adaptation instead of
only using zero-shot learning of new tasks. We augment a pre-trained CLIP model
with additional layers after the Image Encoder or before the Text Encoder. We
investigate three different strategies: a Linear Adapter, a Self-attention
Adapter, each operating on the image embedding, and Prompt Tuning which instead
modifies prompts input to the CLIP text encoder. We also propose a method for
parameter retention in the adapter layers that uses a measure of parameter
importance to better maintain stability and plasticity during incremental
learning. Our experiments demonstrate that the simplest solution -- a single
Linear Adapter layer with parameter retention -- produces the best results.
Experiments on several conventional benchmarks consistently show a significant
margin of improvement over the current state-of-the-art.
- Abstract(参考訳): 大規模事前学習モデルの出現に伴い,継続的な学習シナリオへの適応と活用への関心が高まっている。
本稿では,新しいタスクをゼロショットで学習するだけでなく,事前学習した視覚言語モデル(例えばCLIP)を活用するアプローチを提案する。
トレーニング済みのCLIPモデルを、Image Encoderの後またはText Encoderの前に追加レイヤで拡張します。
画像埋め込みをそれぞれ操作する線形適応器,自己注意適応器, 代わりにCLIPテキストエンコーダへのプロンプト入力を変更するPrompt Tuningの3つの戦略について検討する。
また,適応層におけるパラメータ保持手法を提案し,パラメータ重要度を測定することにより,漸進学習時の安定性と可塑性を向上する。
実験では,パラメータ保持を持つ単一線形アダプタ層である最も単純な解が最良の結果をもたらすことを示した。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
関連論文リスト
- CEAT: Continual Expansion and Absorption Transformer for Non-Exemplar
Class-Incremental Learning [34.59310641291726]
現実のアプリケーションでは、動的シナリオは、古い知識を忘れずに新しいタスクを継続的に学習する能力を持つ必要がある。
連続膨張吸収変圧器(CEAT)という新しいアーキテクチャを提案する。
このモデルは、凍結した前のパラメータと平行に拡散層を拡張することで、新しい知識を学ぶことができる。
モデルの学習能力を向上させるために,特徴空間における古クラスと新クラスの重複を低減するために,新しいプロトタイプを設計した。
論文 参考訳(メタデータ) (2024-03-11T12:40:12Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Parameter-efficient Model Adaptation for Vision Transformers [45.3460867776953]
画像分類タスクにおける視覚変換器のパラメータ効率モデル適応戦略について検討する。
本稿では,局所固有次元を測定することで,まずサブモジュールを選択するパラメータ効率のよいモデル適応フレームワークを提案する。
提案手法は,20画像分類データセット間の精度とパラメータ効率のトレードオフを最良とする。
論文 参考訳(メタデータ) (2022-03-29T05:30:09Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。