論文の概要: Disentangling CLIP Features for Enhanced Localized Understanding
- arxiv url: http://arxiv.org/abs/2502.02977v2
- Date: Sat, 08 Feb 2025 22:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:25.615591
- Title: Disentangling CLIP Features for Enhanced Localized Understanding
- Title(参考訳): 局所的理解の強化を目的としたCLIP機能拡張
- Authors: Samyak Rawlekar, Yujun Cai, Yiwei Wang, Ming-Hsuan Yang, Narendra Ahuja,
- Abstract要約: 提案するUnmix-CLIPは,相互特徴情報(MFI)の低減と特徴の絡み合いの改善を目的とした新しいフレームワークである。
COCO-14データセットでは、Unmix-CLIPは機能の類似性を24.9%削減している。
- 参考スコア(独自算出の注目度): 58.73850193789384
- License:
- Abstract: Vision-language models (VLMs) demonstrate impressive capabilities in coarse-grained tasks like image classification and retrieval. However, they struggle with fine-grained tasks that require localized understanding. To investigate this weakness, we comprehensively analyze CLIP features and identify an important issue: semantic features are highly correlated. Specifically, the features of a class encode information about other classes, which we call mutual feature information (MFI). This mutual information becomes evident when we query a specific class and unrelated objects are activated along with the target class. To address this issue, we propose Unmix-CLIP, a novel framework designed to reduce MFI and improve feature disentanglement. We introduce MFI loss, which explicitly separates text features by projecting them into a space where inter-class similarity is minimized. To ensure a corresponding separation in image features, we use multi-label recognition (MLR) to align the image features with the separated text features. This ensures that both image and text features are disentangled and aligned across modalities, improving feature separation for downstream tasks. For the COCO- 14 dataset, Unmix-CLIP reduces feature similarity by 24.9%. We demonstrate its effectiveness through extensive evaluations of MLR and zeroshot semantic segmentation (ZS3). In MLR, our method performs competitively on the VOC2007 and surpasses SOTA approaches on the COCO-14 dataset, using fewer training parameters. Additionally, Unmix-CLIP consistently outperforms existing ZS3 methods on COCO and VOC
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像分類や検索のような粗粒度のタスクにおいて印象的な能力を示す。
しかし、彼らは局所的な理解を必要とするきめ細かいタスクに苦しむ。
この弱点を解明するために、我々はCLIPの特徴を包括的に分析し、重要な問題を特定する:意味的特徴は高い相関関係にある。
具体的には、クラスの特徴が他のクラスに関する情報を符号化し、相互特徴情報(MFI)と呼ぶ。
この相互情報は、特定のクラスに問い合わせると明らかになり、対象クラスと共に関連のないオブジェクトがアクティブになる。
この問題に対処するため,MFIの低減と機能障害の改善を目的とした新しいフレームワークUnmix-CLIPを提案する。
テキスト特徴をクラス間類似度を最小限に抑える空間に投影することで,テキスト特徴を明示的に分離するMFI損失を導入する。
画像特徴の分離を確実にするために,画像特徴とテキスト特徴との整合性を確保するためにマルチラベル認識(MLR)を用いる。
これにより、画像とテキストの両方の機能がアンタングル化され、モダリティ間で整列されることが保証され、下流タスクの機能分離が改善される。
COCO-14データセットでは、Unmix-CLIPは機能の類似性を24.9%削減している。
MLRとゼロショットセマンティックセグメンテーション(ZS3)の広範囲な評価により,その有効性を実証する。
MLRでは,本手法はVOC2007上で競合的に動作し,COCO-14データセット上でSOTAアプローチを上回り,トレーニングパラメータを減らした。
さらに、Unmix-CLIPはCOCOとVOCの既存のZS3メソッドよりも一貫して優れています。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed Multi-Label Visual Recognition [12.62835357920401]
本稿では,クラス固有の埋め込み損失(LMPT)を即時チューニングするLTMLの統一フレームワークを提案する。
LTMLにおける従来の最先端手法とゼロショットCLIPを大きく上回っている。
論文 参考訳(メタデータ) (2023-05-08T08:14:46Z) - Semantic Feature Integration network for Fine-grained Visual
Classification [5.182627302449368]
本稿では,これらの課題に対処するためにセマンティック・フィーチャー・インテグレーション・ネットワーク(SFI-Net)を提案する。
不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。
論文 参考訳(メタデータ) (2023-02-13T07:32:25Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - M2IOSR: Maximal Mutual Information Open Set Recognition [47.1393314282815]
オープンセット認識のための合理化アーキテクチャを用いた相互情報に基づく手法を提案する。
提案手法は, ベースラインの性能を著しく向上させ, 連続したベンチマークによる新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2021-08-05T05:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。