論文の概要: CLIP model is an Efficient Online Lifelong Learner
- arxiv url: http://arxiv.org/abs/2405.15155v1
- Date: Fri, 24 May 2024 02:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:28:28.255562
- Title: CLIP model is an Efficient Online Lifelong Learner
- Title(参考訳): CLIPモデルは、効率的なオンライン生涯学習者である
- Authors: Leyuan Wang, Liuyu Xiang, Yujie Wei, Yunlong Wang, Zhaofeng He,
- Abstract要約: Contrastive Language-Image Pretraining (CLIP)のような視覚言語モデルは、オンライン生涯学習に適した候補である。
我々は、画像とテキストの対称性を維持するために、Symmetric Image-Text(SIT)チューニング戦略を導入する。
- 参考スコア(独自算出の注目度): 5.170794699087535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online Lifelong Learning (OLL) addresses the challenge of learning from continuous and non-stationary data streams. Existing online lifelong learning methods based on image classification models often require preset conditions such as the total number of classes or maximum memory capacity, which hinders the realization of real never-ending learning and renders them impractical for real-world scenarios. In this work, we propose that vision-language models, such as Contrastive Language-Image Pretraining (CLIP), are more suitable candidates for online lifelong learning. We discover that maintaining symmetry between image and text is crucial during Parameter-Efficient Tuning (PET) for CLIP model in online lifelong learning. To this end, we introduce the Symmetric Image-Text (SIT) tuning strategy. We conduct extensive experiments on multiple lifelong learning benchmark datasets and elucidate the effectiveness of SIT through gradient analysis. Additionally, we assess the impact of lifelong learning on generalizability of CLIP and found that tuning the image encoder is beneficial for lifelong learning, while tuning the text encoder aids in zero-shot learning.
- Abstract(参考訳): Online Lifelong Learning (OLL)は、継続的および非定常的なデータストリームから学ぶことの課題に対処する。
既存の画像分類モデルに基づくオンライン生涯学習手法では、クラス総数や最大メモリ容量といった事前設定条件が要求されることが多く、現実の終わらない学習の実現を妨げ、現実のシナリオでは現実的ではない。
本研究では,Contrastive Language-Image Pretraining (CLIP) などの視覚言語モデルが,オンライン生涯学習に適した候補であることを示す。
オンライン生涯学習において,CLIPモデルのパラメータ効率調整(PET)において,画像とテキストの対称性の維持が不可欠であることが判明した。
そこで我々は,Symmetric Image-Text(SIT)チューニング戦略を導入する。
複数の生涯学習ベンチマークデータセットについて広範な実験を行い、勾配解析によりSITの有効性を解明する。
さらに、生涯学習がCLIPの一般化可能性に与える影響を評価し、画像エンコーダのチューニングが生涯学習に有用であるとともに、テキストエンコーダのチューニングがゼロショット学習に有効であることを示した。
関連論文リスト
- Learning Equi-angular Representations for Online Continual Learning [28.047867978274358]
特に, 神経崩壊を誘発し, 表現空間に単純な等角的タイトフレーム(ETF)構造を形成する。
提案手法は,様々なオンライン連続学習シナリオにおいて,最先端の手法よりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2024-04-02T04:29:01Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Don't Stop Learning: Towards Continual Learning for the CLIP Model [21.212839450030838]
Contrastive Language-Image Pre-Training(CLIP)モデルは、最近提案された大規模プレトレインモデルである。
本研究は,CLIPモデルの連続学習問題に関する体系的研究を行う。
筆者らは,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T13:03:14Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。