論文の概要: Disentangling CLIP for Multi-Object Perception
- arxiv url: http://arxiv.org/abs/2502.02977v3
- Date: Fri, 16 May 2025 17:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.080899
- Title: Disentangling CLIP for Multi-Object Perception
- Title(参考訳): マルチオブジェクト認識のためのディテンタングリングCLIP
- Authors: Samyak Rawlekar, Yujun Cai, Yiwei Wang, Ming-Hsuan Yang, Narendra Ahuja,
- Abstract要約: CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。
DCLIPはCLIP機能を2つの相補的な目的から切り離すフレームワークである。
実験の結果,DCLIPはCLIPと比較してクラス間特徴類似度を30%削減できることがわかった。
- 参考スコア(独自算出の注目度): 58.73850193789384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models like CLIP excel at recognizing the single, prominent object in a scene. However, they struggle in complex scenes containing multiple objects. We identify a fundamental reason behind this limitation: VLMs features space exhibits significant semantic entanglement, where features of one class contain substantial information about other unrelated classes, a phenomenon we term mutual feature information (MFI). This entanglement becomes evident during class-specific queries, as unrelated objects are activated alongside the queried class. To address this limitation, we propose DCLIP, a framework that disentangles CLIP features using two complementary objectives: a novel MFI Loss that orthogonalizes the text (class) features to reduce inter-class similarity, and the Asymmetric Loss (ASL) that aligns image features with the disentangled text features. Our experiment demonstrates that DCLIP reduces inter-class feature similarity by 30\% compared to CLIP, leading to significant performance gains on multi-label recognition (MLR) and zero-shot semantic segmentation (ZS3). In MLR, DCLIP outperforms SOTA approaches on VOC2007 and COCO-14 while using 75\% fewer parameters, and surpasses SOTA ZS3 methods by 3.4 mIoU on VOC2012 and 2.8 mIoU on COCO-17. These results establish feature disentanglement as a critical factor for effective multi-object perception in vision-language models.
- Abstract(参考訳): CLIPのようなビジョン言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れています。
しかし、複数の物体を含む複雑な場面で苦労している。
VLMsの特徴空間は重要な意味的絡み合いを示し、あるクラスの特徴には他の無関係なクラスに関する情報が含まれており、これは相互特徴情報(MFI)と呼ばれる現象である。
この絡み合いは、関連のないオブジェクトがクエリされたクラスと一緒に活性化されるため、クラス固有のクエリ中に明らかになる。
テキスト(クラス)機能を直交してクラス間類似性を減少させる新しいMFIロスと、画像特徴と非対称ロス(ASL)の2つの相補的な目的を用いてCLIP機能をアンタングル化するフレームワークであるDCLIPを提案する。
実験により,DCLIPはCLIPと比較してクラス間特徴類似度を30%削減し,マルチラベル認識(MLR)やゼロショットセマンティックセマンティックセグメンテーション(ZS3)に顕著な性能向上をもたらすことが示された。
MLR では、DCLIP は VOC2007 と COCO-14 で、パラメータを 75 % 削減し、SOTA ZS3 法を VOC2012 で 3.4 mIoU 、COCO-17 で 2.8 mIoU で上回っている。
これらの結果は、視覚言語モデルにおいて、効果的な多目的知覚の重要な要因として機能的ゆがみが確立される。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed Multi-Label Visual Recognition [12.62835357920401]
本稿では,クラス固有の埋め込み損失(LMPT)を即時チューニングするLTMLの統一フレームワークを提案する。
LTMLにおける従来の最先端手法とゼロショットCLIPを大きく上回っている。
論文 参考訳(メタデータ) (2023-05-08T08:14:46Z) - Semantic Feature Integration network for Fine-grained Visual
Classification [5.182627302449368]
本稿では,これらの課題に対処するためにセマンティック・フィーチャー・インテグレーション・ネットワーク(SFI-Net)を提案する。
不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。
論文 参考訳(メタデータ) (2023-02-13T07:32:25Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - M2IOSR: Maximal Mutual Information Open Set Recognition [47.1393314282815]
オープンセット認識のための合理化アーキテクチャを用いた相互情報に基づく手法を提案する。
提案手法は, ベースラインの性能を著しく向上させ, 連続したベンチマークによる新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2021-08-05T05:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。