論文の概要: External Knowledge Injection for CLIP-Based Class-Incremental Learning
- arxiv url: http://arxiv.org/abs/2503.08510v1
- Date: Tue, 11 Mar 2025 15:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:06.560307
- Title: External Knowledge Injection for CLIP-Based Class-Incremental Learning
- Title(参考訳): CLIPに基づくクラスインクリメンタル学習のための外部知識注入
- Authors: Da-Wei Zhou, Kai-Wen Li, Jingyi Ning, Han-Jia Ye, Lijun Zhang, De-Chuan Zhan,
- Abstract要約: CIL(Class-Incremental Learning)は、学習システムが進化するデータストリームに継続的に適応できるようにする。
本稿では,CLIP ベースの CIL のための ExterNal knowledGe INjEction (ENGINE) を紹介する。
- 参考スコア(独自算出の注目度): 62.516402566610395
- License:
- Abstract: Class-Incremental Learning (CIL) enables learning systems to continuously adapt to evolving data streams. With the advancement of pre-training, leveraging pre-trained vision-language models (e.g., CLIP) offers a promising starting point for CIL. However, CLIP makes decisions by matching visual embeddings to class names, overlooking the rich contextual information conveyed through language. For instance, the concept of ``cat'' can be decomposed into features like tail, fur, and face for recognition. Besides, since the model is continually updated, these detailed features are overwritten in CIL, requiring external knowledge for compensation. In this paper, we introduce ExterNal knowledGe INjEction (ENGINE) for CLIP-based CIL. To enhance knowledge transfer from outside the dataset, we propose a dual-branch injection tuning framework that encodes informative knowledge from both visual and textual modalities. The visual branch is enhanced with data augmentation to enrich the visual features, while the textual branch leverages GPT-4 to rewrite discriminative descriptors. In addition to this on-the-fly knowledge injection, we also implement post-tuning knowledge by re-ranking the prediction results during inference. With the injected knowledge, the model can better capture informative features for downstream tasks as data evolves. Extensive experiments demonstrate the state-of-the-art performance of ENGINE. Code is available at: https://github.com/RenaissCode/ENGINE
- Abstract(参考訳): CIL(Class-Incremental Learning)は、学習システムが進化するデータストリームに継続的に適応できるようにする。
事前トレーニングの進歩により、事前トレーニングされたビジョン言語モデル(例えば、CLIP)を活用することで、CILにとって有望な出発点となる。
しかし、CLIPはクラス名に視覚的な埋め込みをマッチさせ、言語を通して伝達されるリッチなコンテキスト情報を見渡すことで決定する。
例えば、‘cat’という概念は、認識のために尾、毛皮、顔などの機能に分解できる。
さらに、モデルを継続的に更新するため、これらの詳細機能はCILで上書きされ、補償のために外部の知識を必要とする。
本稿では,CLIP ベースの CIL のための ExterNal knowledGe INjEction (ENGINE) を紹介する。
データセットの外部からの知識伝達を向上させるために,視覚とテキストの両方から情報的知識を符号化するデュアルブランチインジェクションチューニングフレームワークを提案する。
ビジュアルブランチはデータ拡張によって拡張され、視覚的特徴が強化される一方、テキストブランチはGPT-4を利用して識別記述子を書き換える。
このオンザフライの知識注入に加えて、推論中に予測結果を再ランク付けすることで、学習後の知識も実装する。
インジェクションされた知識によって、モデルは、データが進化するにつれて、下流タスクの情報的特徴をよりよく捉えることができる。
大規模な実験により、ENGINEの最先端性能が実証された。
コードは、https://github.com/RenaissCode/ENGINEで入手できる。
関連論文リスト
- Adapter-Enhanced Semantic Prompting for Continual Learning [91.63494614012362]
継続学習(CL)は、モデルが進化するデータストリームに適応できるようにする。
従来のメソッドは通常、再生のために過去のデータを保持したり、新しい知識を学ぶためにモデルに追加のブランチを追加したりします。
本稿では,プロンプトチューニングとアダプタ技術を統合した軽量CLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-15T06:14:55Z) - Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。
画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。
テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文 参考訳(メタデータ) (2024-08-02T07:51:44Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong
Few-shot Learners [55.119101947682715]
CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。
私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
論文 参考訳(メタデータ) (2023-03-03T18:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。