Fugu-MT 論文翻訳(概要): Don't Stop Learning: Towards Continual Learning for the CLIP Model

論文の概要: Don't Stop Learning: Towards Continual Learning for the CLIP Model

arxiv url: http://arxiv.org/abs/2207.09248v1
Date: Tue, 19 Jul 2022 13:03:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-20 14:01:56.650383
Title: Don't Stop Learning: Towards Continual Learning for the CLIP Model
Title（参考訳）: 学習をやめないで:CLIPモデルの継続的な学習を目指して
Authors: Yuxuan Ding, Lingqiao Liu, Chunna Tian, Jingyuan Yang, Haoxuan Ding
Abstract要約: Contrastive Language-Image Pre-Training(CLIP)モデルは、最近提案された大規模プレトレインモデルである。本研究は,CLIPモデルの連続学習問題に関する体系的研究を行う。筆者らは,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習という新しいアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 21.212839450030838
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Contrastive Language-Image Pre-training (CLIP) Model is a recently proposed large-scale pre-train model which attracts increasing attention in the computer vision community. Benefiting from its gigantic image-text training set, the CLIP model has learned outstanding capabilities in zero-shot learning and image-text matching. To boost the recognition performance of CLIP on some target visual concepts, it is often desirable to further update the CLIP model by fine-tuning some classes-of-interest on extra training data. This operation, however, raises an important concern: will the update hurt the zero-shot learning or image-text matching capability of the CLIP, i.e., the catastrophic forgetting issue? If yes, could existing continual learning algorithms be adapted to alleviate the risk of catastrophic forgetting? To answer these questions, this work conducts a systemic study on the continual learning issue of the CLIP model. We construct evaluation protocols to measure the impact of fine-tuning updates and explore different ways to upgrade existing continual learning methods to mitigate the forgetting issue of the CLIP model. Our study reveals the particular challenges of CLIP continual learning problem and lays a foundation for further researches. Moreover, we propose a new algorithm, dubbed Learning without Forgetting via Replayed Vocabulary (VR-LwF), which shows exact effectiveness for alleviating the forgetting issue of the CLIP model.
Abstract（参考訳）: Contrastive Language-Image Pre-Training(CLIP)モデルは、コンピュータビジョンコミュニティで注目を集める大規模な事前訓練モデルである。巨大な画像テキストトレーニングセットから恩恵を受け、CLIPモデルはゼロショット学習と画像テキストマッチングの優れた能力を学んだ。対象とする視覚概念におけるCLIPの認識性能を高めるために、追加のトレーニングデータに基づいてクラスを微調整することで、CLIPモデルをさらに更新することが望ましい場合が多い。アップデートによって、CLIPのゼロショット学習や画像テキストマッチング能力、すなわち破滅的な忘れの問題が損なわれるだろうか? もしそうなら、既存の連続学習アルゴリズムは破滅的な忘れのリスクを軽減できるのだろうか? これらの疑問に答えるために,本研究では,CLIPモデルの継続的学習問題に関する体系的研究を行う。我々は、微調整更新の影響を測定するための評価プロトコルを構築し、既存の継続学習手法を改良し、CLIPモデルの忘れる問題を緩和する様々な方法を模索する。本研究は,CLIP継続学習問題の課題を明らかにし,さらなる研究の基盤となる。さらに,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習アルゴリズムを提案する。

関連論文リスト

Mind the Gap: Preserving and Compensating for the Modality Gap in CLIP-Based Continual Learning [11.50324946279326]
コントラスト言語-画像事前訓練モデル(CLIP)は、様々な下流タスクに強い能力を示す。視覚言語事前学習モデルの微調整におけるモダリティギャップの変化を分析する。クラス増分学習におけるCLIPの性能を向上する単純なMG-CLIPを提案する。
論文参考訳（メタデータ） (2025-07-12T02:28:42Z)
AmorLIP: Efficient Language-Image Pretraining via Amortization [52.533088120633785]
Contrastive Language-Image Pretraining (CLIP) は、様々な下流のテキストイメージタスクにまたがる強力なゼロショット性能を示している。軽量ニューラルネットワークによるコントラスト学習に関わる高価な計算を記憶する,効率的なCLIP事前学習フレームワークであるAmorLIPを提案する。
論文参考訳（メタデータ） (2025-05-25T05:30:37Z)
Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文参考訳（メタデータ） (2025-03-30T02:41:55Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Toward a Holistic Evaluation of Robustness in CLIP Models [11.148206692373144]
対照的な言語-画像事前学習(CLIP)モデルは、ゼロショット分類において有意な可能性を示している。この作業は、いくつかの新しい視点を導入することで、より包括的なCLIPの評価を提供することを目的としている。それぞれの側面において、モデルアーキテクチャ、トレーニング配布、トレーニングセットサイズ、微調整、コントラスト損失、テストタイムプロンプトの6つの要因がCLIPモデルに与える影響を検討する。
論文参考訳（メタデータ） (2024-10-02T13:26:17Z)
CLIP model is an Efficient Online Lifelong Learner [5.170794699087535]
Contrastive Language-Image Pretraining (CLIP)のような視覚言語モデルは、オンライン生涯学習に適した候補である。我々は、画像とテキストの対称性を維持するために、Symmetric Image-Text(SIT)チューニング戦略を導入する。
論文参考訳（メタデータ） (2024-05-24T02:21:49Z)
ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning [54.68180752416519]
パノプティカルセグメンテーション(英: Panoptic segmentation)は、コンピュータビジョンの最先端タスクである。 ECLIPSE と呼ばれる Visual Prompt Tuning をベースとした,新規で効率的なパノプティカルセグメンテーション手法を提案する。我々のアプローチは、基本モデルのパラメータを凍結し、小さなプロンプト埋め込みだけを微調整することであり、破滅的な忘れ物と塑性の両方に対処する。
論文参考訳（メタデータ） (2024-03-29T11:31:12Z)
Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文参考訳（メタデータ） (2023-10-26T08:12:53Z)
Incremental Object Detection with CLIP [36.478530086163744]
そこで本研究では,CLIPなどの視覚言語モデルを用いて,異なるクラス集合に対するテキスト特徴埋め込みを生成する。次に、段階的なシナリオをシミュレートするために、早期の学習段階において利用できない新しいクラスを置き換えるために、スーパークラスを使用します。そこで我々は,この微妙に認識された検出ボックスを擬似アノテーションとしてトレーニングプロセスに組み込むことにより,検出性能をさらに向上させる。
論文参考訳（メタデータ） (2023-10-13T01:59:39Z)
Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文参考訳（メタデータ） (2023-10-02T06:41:30Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
CLIP model is an Efficient Continual Learner [26.835116431183625]
凍結したCLIPモデルでは、微調整をせずに驚くべき連続学習性能が得られる(ゼロショット評価)。 CLIPは、クラス増分、ドメイン増分、タスク非依存のインクリメンタルラーニングを含む5つの一般的なベンチマークで様々な設定で評価する。
論文参考訳（メタデータ） (2022-10-06T17:59:15Z)
Online Continual Learning with Contrastive Vision Transformer [67.72251876181497]
本稿では,オンラインCLの安定性と塑性のトレードオフを改善するために,CVT(Contrastive Vision Transformer)フレームワークを提案する。具体的には、従来のタスクに関する情報を暗黙的にキャプチャするオンラインCLのための新しい外部アテンション機構を設計する。学習可能な焦点に基づいて、新しいクラスと過去のクラスの間でのコントラスト学習を再バランスさせ、事前学習した表現を統合化するための焦点コントラスト損失を設計する。
論文参考訳（メタデータ） (2022-07-24T08:51:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。