論文の概要: Don't Stop Learning: Towards Continual Learning for the CLIP Model
- arxiv url: http://arxiv.org/abs/2207.09248v1
- Date: Tue, 19 Jul 2022 13:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 14:01:56.650383
- Title: Don't Stop Learning: Towards Continual Learning for the CLIP Model
- Title(参考訳): 学習をやめないで:CLIPモデルの継続的な学習を目指して
- Authors: Yuxuan Ding, Lingqiao Liu, Chunna Tian, Jingyuan Yang, Haoxuan Ding
- Abstract要約: Contrastive Language-Image Pre-Training(CLIP)モデルは、最近提案された大規模プレトレインモデルである。
本研究は,CLIPモデルの連続学習問題に関する体系的研究を行う。
筆者らは,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習という新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 21.212839450030838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Contrastive Language-Image Pre-training (CLIP) Model is a recently
proposed large-scale pre-train model which attracts increasing attention in the
computer vision community. Benefiting from its gigantic image-text training
set, the CLIP model has learned outstanding capabilities in zero-shot learning
and image-text matching. To boost the recognition performance of CLIP on some
target visual concepts, it is often desirable to further update the CLIP model
by fine-tuning some classes-of-interest on extra training data. This operation,
however, raises an important concern: will the update hurt the zero-shot
learning or image-text matching capability of the CLIP, i.e., the catastrophic
forgetting issue? If yes, could existing continual learning algorithms be
adapted to alleviate the risk of catastrophic forgetting? To answer these
questions, this work conducts a systemic study on the continual learning issue
of the CLIP model. We construct evaluation protocols to measure the impact of
fine-tuning updates and explore different ways to upgrade existing continual
learning methods to mitigate the forgetting issue of the CLIP model. Our study
reveals the particular challenges of CLIP continual learning problem and lays a
foundation for further researches. Moreover, we propose a new algorithm, dubbed
Learning without Forgetting via Replayed Vocabulary (VR-LwF), which shows exact
effectiveness for alleviating the forgetting issue of the CLIP model.
- Abstract(参考訳): Contrastive Language-Image Pre-Training(CLIP)モデルは、コンピュータビジョンコミュニティで注目を集める大規模な事前訓練モデルである。
巨大な画像テキストトレーニングセットから恩恵を受け、CLIPモデルはゼロショット学習と画像テキストマッチングの優れた能力を学んだ。
対象とする視覚概念におけるCLIPの認識性能を高めるために、追加のトレーニングデータに基づいてクラスを微調整することで、CLIPモデルをさらに更新することが望ましい場合が多い。
アップデートによって、CLIPのゼロショット学習や画像テキストマッチング能力、すなわち破滅的な忘れの問題が損なわれるだろうか?
もしそうなら、既存の連続学習アルゴリズムは破滅的な忘れのリスクを軽減できるのだろうか?
これらの疑問に答えるために,本研究では,CLIPモデルの継続的学習問題に関する体系的研究を行う。
我々は、微調整更新の影響を測定するための評価プロトコルを構築し、既存の継続学習手法を改良し、CLIPモデルの忘れる問題を緩和する様々な方法を模索する。
本研究は,CLIP継続学習問題の課題を明らかにし,さらなる研究の基盤となる。
さらに,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習アルゴリズムを提案する。
関連論文リスト
- Continual Learning with Pre-Trained Models: A Survey [66.49084129482239]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - Improving Plasticity in Online Continual Learning via Collaborative
Learning [24.692058640897372]
我々は、新しい知識(すなわち、モデル可塑性)を取得するモデルの能力は、オンラインCLにおけるもう一つの課題であると主張している。
我々は、新しい概念を習得する際のモデル能力を改善するために、協調学習に基づく戦略である協調継続学習(CCL)を提案する。
論文 参考訳(メタデータ) (2023-12-01T14:06:28Z) - Prototypical Contrastive Learning-based CLIP Fine-tuning for Object
Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。
私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。
提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文 参考訳(メタデータ) (2023-10-26T08:12:53Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Incremental Object Detection with CLIP [39.85017351940035]
インクリメンタルな検出タスクでは、インクリメンタルな分類タスクとは異なり、ラベル付きバウンディングボックスが異なるため、データのあいまいさが存在する。
本稿では,CLIPなどの言語視覚モデルを用いて,異なるクラスセットに対するテキスト特徴埋め込みを生成することを提案する。
次に、学習段階の未使用の新規クラスを置き換えるために、幅広いクラスを使用し、実際の段階的なシナリオをシミュレートします。
論文 参考訳(メタデータ) (2023-10-13T01:59:39Z) - Understanding Transferable Representation Learning and Zero-shot
Transfer in CLIP [92.7485653161698]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Multimodal Parameter-Efficient Few-Shot Class Incremental Learning [1.9220716793379256]
FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。
このタスクを成功させるためには、数発のトレーニングセットにおけるバイアス分布に起因する新しいクラスを過度に適合させるのを避ける必要がある。
CPE-CLIPは、最先端の提案と比較してFSCILの性能を著しく改善すると同時に、学習可能なパラメータの数やトレーニングコストを大幅に削減する。
論文 参考訳(メタデータ) (2023-03-08T17:34:15Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP model is an Efficient Continual Learner [26.835116431183625]
凍結したCLIPモデルでは、微調整をせずに驚くべき連続学習性能が得られる(ゼロショット評価)。
CLIPは、クラス増分、ドメイン増分、タスク非依存のインクリメンタルラーニングを含む5つの一般的なベンチマークで様々な設定で評価する。
論文 参考訳(メタデータ) (2022-10-06T17:59:15Z) - Online Continual Learning with Contrastive Vision Transformer [67.72251876181497]
本稿では,オンラインCLの安定性と塑性のトレードオフを改善するために,CVT(Contrastive Vision Transformer)フレームワークを提案する。
具体的には、従来のタスクに関する情報を暗黙的にキャプチャするオンラインCLのための新しい外部アテンション機構を設計する。
学習可能な焦点に基づいて、新しいクラスと過去のクラスの間でのコントラスト学習を再バランスさせ、事前学習した表現を統合化するための焦点コントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-24T08:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。