論文の概要: LiteEmbed: Adapting CLIP to Rare Classes
- arxiv url: http://arxiv.org/abs/2601.09661v1
- Date: Wed, 14 Jan 2026 17:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.492278
- Title: LiteEmbed: Adapting CLIP to Rare Classes
- Title(参考訳): LiteEmbed: CLIP をレアクラスに適応させる
- Authors: Aishwarya Agarwal, Srikrishna Karanam, Vineet Gandhi,
- Abstract要約: LiteEmbedはCLIPのパーソナライズのための軽量フレームワークである。
LiteEmbedは、CLIPの語彙内のテキスト埋め込みのサブスペース誘導最適化を実行する。
分類、検索、セグメンテーション、検出タスクにまたがるCLIPのオリジナルテキスト機能をシームレスに置き換える。
- 参考スコア(独自算出の注目度): 20.898059440239603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models such as CLIP achieve strong zero-shot recognition but struggle with classes that are rarely seen during pretraining, including newly emerging entities and culturally specific categories. We introduce LiteEmbed, a lightweight framework for few-shot personalization of CLIP that enables new classes to be added without retraining its encoders. LiteEmbed performs subspace-guided optimization of text embeddings within CLIP's vocabulary, leveraging a PCA-based decomposition that disentangles coarse semantic directions from fine-grained variations. Two complementary objectives, coarse alignment and fine separation, jointly preserve global semantic consistency while enhancing discriminability among visually similar classes. Once optimized, the embeddings are plug-and-play, seamlessly substituting CLIP's original text features across classification, retrieval, segmentation, and detection tasks. Extensive experiments demonstrate substantial gains over prior methods, establishing LiteEmbed as an effective approach for adapting CLIP to underrepresented, rare, or unseen classes.
- Abstract(参考訳): CLIPのような大規模視覚言語モデルは、強力なゼロショット認識を実現するが、新たに出現したエンティティや文化的に特定のカテゴリを含む、事前訓練中にめったに見られないクラスと競合する。
これはCLIPのパーソナライズのための軽量フレームワークで、エンコーダを再トレーニングすることなく、新しいクラスを追加できる。
LiteEmbedは、CLIPの語彙内のテキスト埋め込みのサブスペース誘導最適化を行い、PCAベースの分解を利用して、細粒度のバリエーションから粗いセマンティックな方向を乱す。
2つの相補的な目的、粗いアライメントと細かな分離は、視覚的に類似したクラス間の識別性を高めながら、グローバルな意味的一貫性を共同で維持する。
一度最適化されると、埋め込みはプラグ&プレイで、分類、検索、セグメンテーション、検出タスクにまたがってCLIPのオリジナルのテキスト機能をシームレスに置き換える。
大規模な実験は、以前の方法よりも大幅に向上し、LiteEmbedをCLIPを未表現、稀、あるいは未確認のクラスに適応させる効果的なアプローチとして確立した。
関連論文リスト
- SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。
近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。
分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文 参考訳(メタデータ) (2025-12-16T15:11:53Z) - Hierarchical Representation Matching for CLIP-based Class-Incremental Learning [80.2317078787969]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、進化するデータストリームに継続的に適応可能なモデルを提供することを目的とする。
事前訓練された視覚言語モデル(例えばCLIP)の最近の進歩は、このタスクの強力な基盤を提供する。
本稿では,CLIPベースのCILのためのHiErarchical Representation MAtchiNg(HERMAN)を紹介する。
論文 参考訳(メタデータ) (2025-09-26T17:59:51Z) - Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors [50.7383184560431]
連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
論文 参考訳(メタデータ) (2025-05-27T03:51:37Z) - Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - CLIP's Visual Embedding Projector is a Few-shot Cornucopia [45.93202559299953]
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - Open-Vocabulary Semantic Segmentation with Image Embedding Balancing [33.69721994194684]
本稿では,EBSegと呼ばれるオープン語彙セマンティックセグメンテーションのための新しいフレームワークを提案する。
AdaB Decoderは、トレーニングと新しいクラスの両方に異なるイメージ埋め込みを生成するように設計されている。
SSC Lossは画像特徴空間のクラス間の親和性とCLIPのテキスト特徴空間の親和性を調整する。
論文 参考訳(メタデータ) (2024-06-14T08:34:20Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。