論文の概要: CLIP model is an Efficient Continual Learner
- arxiv url: http://arxiv.org/abs/2210.03114v1
- Date: Thu, 6 Oct 2022 17:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 17:03:33.922057
- Title: CLIP model is an Efficient Continual Learner
- Title(参考訳): CLIPモデルは効果的な継続的学習者である
- Authors: Vishal Thengane, Salman Khan, Munawar Hayat, Fahad Khan
- Abstract要約: 凍結したCLIPモデルでは、微調整をせずに驚くべき連続学習性能が得られる(ゼロショット評価)。
CLIPは、クラス増分、ドメイン増分、タスク非依存のインクリメンタルラーニングを含む5つの一般的なベンチマークで様々な設定で評価する。
- 参考スコア(独自算出の注目度): 26.835116431183625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The continual learning setting aims to learn new tasks over time without
forgetting the previous ones. The literature reports several significant
efforts to tackle this problem with limited or no access to previous task data.
Among such efforts, typical solutions offer sophisticated techniques involving
memory replay, knowledge distillation, model regularization, and dynamic
network expansion. The resulting methods have a retraining cost at each
learning task, dedicated memory requirements, and setting-specific design
choices. In this work, we show that a frozen CLIP (Contrastive Language-Image
Pretraining) model offers astounding continual learning performance without any
fine-tuning (zero-shot evaluation). We evaluate CLIP under a variety of
settings including class-incremental, domain-incremental and task-agnostic
incremental learning on five popular benchmarks (ImageNet-100 & 1K, CORe50,
CIFAR-100, and TinyImageNet). Without any bells and whistles, the CLIP model
outperforms the state-of-the-art continual learning approaches in the majority
of the settings. We show the effect on the CLIP model's performance by varying
text inputs with simple prompt templates. To the best of our knowledge, this is
the first work to report the CLIP zero-shot performance in a continual setting.
We advocate the use of this strong yet embarrassingly simple baseline for
future comparisons in the continual learning tasks.
- Abstract(参考訳): 継続的学習設定は、以前のタスクを忘れずに、時間とともに新しいタスクを学習することを目的としている。
文献では、この問題に以前のタスクデータに制限またはアクセスしないで対処するいくつかの重要な取り組みを報告している。
このような取り組みの中で、典型的なソリューションは、メモリリプレイ、知識の蒸留、モデル正規化、動的ネットワーク拡張を含む高度な技術を提供する。
得られた方法は、各学習タスク、専用のメモリ要件、設定固有の設計選択において、再トレーニングコストがかかる。
本研究では,凍結したCLIP(Contrastive Language- Image Pretraining)モデルが,微調整(ゼロショット評価)を伴わない連続学習性能を提供することを示す。
画像Net-100と1K、CORe50、CIFAR-100、TinyImageNetの5つのベンチマークにおいて、クラスインクリメンタル、ドメインインクリメンタル、タスク非依存のインクリメンタル学習を含む様々な設定でCLIPを評価した。
ベルとホイッスルがなければ、CLIPモデルは、ほとんどの設定において最先端の継続的学習アプローチよりも優れています。
簡単なプロンプトテンプレートによるテキスト入力の変化によるCLIPモデルの性能への影響を示す。
私たちの知る限りでは、CLIPゼロショットのパフォーマンスを連続的に報告するのはこれが初めてです。
継続学習タスクにおける将来の比較において、この強いが恥ずかしいほど単純なベースラインの使用を提唱する。
関連論文リスト
- CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP [56.199779065855004]
CLIPEraseは視覚的・テキスト的関連を選択的に忘れる新しいアプローチである。
CIFAR-100とFlickr30Kデータセットの実験は、CLIPEraseがマルチモーダルサンプルのゼロショットタスクにおける指定された関連性を効果的に忘れていることを示している。
論文 参考訳(メタデータ) (2024-10-30T17:51:31Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Incremental Object Detection with CLIP [36.478530086163744]
そこで本研究では,CLIPなどの視覚言語モデルを用いて,異なるクラス集合に対するテキスト特徴埋め込みを生成する。
次に、段階的なシナリオをシミュレートするために、早期の学習段階において利用できない新しいクラスを置き換えるために、スーパークラスを使用します。
そこで我々は,この微妙に認識された検出ボックスを擬似アノテーションとしてトレーニングプロセスに組み込むことにより,検出性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-13T01:59:39Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Don't Stop Learning: Towards Continual Learning for the CLIP Model [21.212839450030838]
Contrastive Language-Image Pre-Training(CLIP)モデルは、最近提案された大規模プレトレインモデルである。
本研究は,CLIPモデルの連続学習問題に関する体系的研究を行う。
筆者らは,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T13:03:14Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。