論文の概要: Class Incremental Learning with Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2310.20348v1
- Date: Tue, 31 Oct 2023 10:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:30:43.907513
- Title: Class Incremental Learning with Pre-trained Vision-Language Models
- Title(参考訳): 事前学習した視覚言語モデルによる授業インクリメンタル学習
- Authors: Xialei Liu, Xusheng Cao, Haori Lu, Jia-wen Xiao, Andrew D. Bagdanov,
Ming-Ming Cheng
- Abstract要約: 本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
- 参考スコア(独自算出の注目度): 59.15538370859431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of large-scale pre-trained models, interest in adapting and
exploiting them for continual learning scenarios has grown.
In this paper, we propose an approach to exploiting pre-trained
vision-language models (e.g. CLIP) that enables further adaptation instead of
only using zero-shot learning of new tasks. We augment a pre-trained CLIP model
with additional layers after the Image Encoder or before the Text Encoder. We
investigate three different strategies: a Linear Adapter, a Self-attention
Adapter, each operating on the image embedding, and Prompt Tuning which instead
modifies prompts input to the CLIP text encoder. We also propose a method for
parameter retention in the adapter layers that uses a measure of parameter
importance to better maintain stability and plasticity during incremental
learning. Our experiments demonstrate that the simplest solution -- a single
Linear Adapter layer with parameter retention -- produces the best results.
Experiments on several conventional benchmarks consistently show a significant
margin of improvement over the current state-of-the-art.
- Abstract(参考訳): 大規模事前学習モデルの出現に伴い,継続的な学習シナリオへの適応と活用への関心が高まっている。
本稿では,新しいタスクをゼロショットで学習するだけでなく,事前学習した視覚言語モデル(例えばCLIP)を活用するアプローチを提案する。
トレーニング済みのCLIPモデルを、Image Encoderの後またはText Encoderの前に追加レイヤで拡張します。
画像埋め込みをそれぞれ操作する線形適応器,自己注意適応器, 代わりにCLIPテキストエンコーダへのプロンプト入力を変更するPrompt Tuningの3つの戦略について検討する。
また,適応層におけるパラメータ保持手法を提案し,パラメータ重要度を測定することにより,漸進学習時の安定性と可塑性を向上する。
実験では,パラメータ保持を持つ単一線形アダプタ層である最も単純な解が最良の結果をもたらすことを示した。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
関連論文リスト
- CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Class-Incremental Learning with CLIP: Adaptive Representation Adjustment and Parameter Fusion [10.322832012497722]
クラス増分学習(class-incremental learning)は難しい問題であり、目標は、時間とともに増加するクラスからデータを分類できるモデルをトレーニングすることである。
CLIPのような視覚言語で事前訓練されたモデルの進歩により、彼らは優れた一般化能力を示した。
しかし、単にモデルを微調整することで、下流タスクへのさらなる適応は、ひどく忘れてしまう。
事前訓練されたモデルを用いた既存の研究の多くは、モデルが新しい知識を得るとき、古いクラスを忘れることは一様であると仮定している。
論文 参考訳(メタデータ) (2024-07-19T09:20:33Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Semantically-Shifted Incremental Adapter-Tuning is A Continual ViTransformer [44.10678347943115]
クラスインクリメンタルラーニング(CIL)は、モデルが破滅的な忘れを克服しつつ、新しいクラスを継続的に学習できるようにすることを目的としている。
本稿では,連続学習の文脈において,異なるパラメータ効率チューニング(PET)手法を再検討する。
適応チューニングは,各学習セッションにおいてパラメータ拡張がなくても,プロンプトベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-29T05:23:12Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。