論文の概要: LADA: Scalable Label-Specific CLIP Adapter for Continual Learning
- arxiv url: http://arxiv.org/abs/2505.23271v1
- Date: Thu, 29 May 2025 09:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.783294
- Title: LADA: Scalable Label-Specific CLIP Adapter for Continual Learning
- Title(参考訳): LADA: 継続的学習のためのスケーラブルなラベル特有CLIPアダプタ
- Authors: Mao-Lin Luo, Zi-Hao Zhou, Tong Wei, Min-Ling Zhang,
- Abstract要約: CLIPのようなビジョン言語モデルによる継続的な学習は、スケーラブルな機械学習システムへの道筋を提供する。
既存のCLIPベースのメソッドは、学習可能なパラメータの複数セットを追加することで、事前訓練されたイメージエンコーダに適応する。
フリーズされたCLIPイメージエンコーダに,軽量なラベル固有のメモリユニットを付加するLAD(Label-specific ADApter)を導入する。
- 参考スコア(独自算出の注目度): 46.99534301043413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning with vision-language models like CLIP offers a pathway toward scalable machine learning systems by leveraging its transferable representations. Existing CLIP-based methods adapt the pre-trained image encoder by adding multiple sets of learnable parameters, with each task using a partial set of parameters. This requires selecting the expected parameters for input images during inference, which is prone to error that degrades performance. To address this problem, we introduce LADA (Label-specific ADApter). Instead of partitioning parameters across tasks, LADA appends lightweight, label-specific memory units to the frozen CLIP image encoder, enabling discriminative feature generation by aggregating task-agnostic knowledge. To prevent catastrophic forgetting, LADA employs feature distillation for seen classes, preventing their features from being interfered with by new classes. Positioned after the image encoder, LADA prevents gradient flow to the frozen CLIP parameters, ensuring efficient training. Extensive results show that LADA achieves state-of-the-art performance in continual learning settings. The implementation code is available at https://github.com/MaolinLuo/LADA.
- Abstract(参考訳): CLIPのようなビジョン言語モデルによる継続的な学習は、転送可能な表現を活用することで、スケーラブルな機械学習システムへの道筋を提供する。
既存のCLIPベースのメソッドは、学習可能なパラメータの集合を複数追加することで、トレーニング済みの画像エンコーダに適応する。
これにより、推論中に入力画像の期待されるパラメータを選択する必要がある。
この問題に対処するため, LADA (Label-specific ADApter) を導入する。
タスク間でパラメータをパーティショニングする代わりに、LADAは軽量でラベル固有のメモリユニットを冷凍されたCLIPイメージエンコーダに追加し、タスク非依存の知識を集約することで識別的特徴生成を可能にする。
破滅的な忘れ物を防ぐため、LADは見かけのクラスに特徴蒸留を採用し、新しいクラスによって特徴が妨げられるのを防ぐ。
イメージエンコーダの後の位置にあるLADは、凍結したCLIPパラメータへの勾配フローを防止し、効率的なトレーニングを確実にする。
その結果,LADAは連続的な学習環境において,最先端の性能を達成できることが示唆された。
実装コードはhttps://github.com/MaolinLuo/LADAで公開されている。
関連論文リスト
- CLIP's Visual Embedding Projector is a Few-shot Cornucopia [45.93202559299953]
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Introducing Language Guidance in Prompt-based Continual Learning [95.03110230754423]
本稿では,Prompt-based Continual Learning (LGCL) のための言語指導手法を提案する。
LGCLは、新しい最先端技術を設定するために、プロンプトベースの連続学習手法の性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-08-30T08:03:49Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。