論文の概要: CLIP Surgery for Better Explainability with Enhancement in
Open-Vocabulary Tasks
- arxiv url: http://arxiv.org/abs/2304.05653v1
- Date: Wed, 12 Apr 2023 07:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:00:33.585229
- Title: CLIP Surgery for Better Explainability with Enhancement in
Open-Vocabulary Tasks
- Title(参考訳): 開語彙課題における説明力向上のためのCLIP手術
- Authors: Yi Li, Hualiang Wang, Yiqun Duan, Xiaomeng Li
- Abstract要約: 推論アーキテクチャや特徴に対して,手術のような修正を可能にするCLIPオペレーショナル(CLIP surgery)を提案する。
提案手法は、畳み込みネットワークと視覚変換器の両方におけるCLIPの説明可能性を大幅に改善した。
また,オープンボキャブラリセグメンテーションやマルチラベル認識タスクの大幅な改善も示す。
- 参考スコア(独自算出の注目度): 13.98481829037268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) is a powerful multimodal large
vision model that has demonstrated significant benefits for downstream tasks,
including many zero-shot learning and text-guided vision tasks. However, we
notice some severe problems regarding the model's explainability, which
undermines its credibility and impedes related tasks. Specifically, we find
CLIP prefers the background regions than the foregrounds according to the
predicted similarity map, which contradicts human understanding. Besides, there
are obvious noisy activations on the visualization results at irrelevant
positions. To address these two issues, we conduct in-depth analyses and reveal
the reasons with new findings and evidences. Based on these insights, we
propose the CLIP Surgery, a method that enables surgery-like modifications for
the inference architecture and features, for better explainability and
enhancement in multiple open-vocabulary tasks. The proposed method has
significantly improved the explainability of CLIP for both convolutional
networks and vision transformers, surpassing existing methods by large margins.
Besides, our approach also demonstrates remarkable improvements in
open-vocabulary segmentation and multi-label recognition tasks. For examples,
the mAP improvement on NUS-Wide multi-label recognition is 4.41% without any
additional training, and our CLIP Surgery surpasses the state-of-the-art method
by 8.74% at mIoU on Cityscapes open-vocabulary semantic segmentation.
Furthermore, our method benefits other tasks including multimodal visualization
and interactive segmentation like Segment Anything Model (SAM). The code is
available at https://github.com/xmed-lab/CLIP_Surgery
- Abstract(参考訳): コントラスト型言語イメージ事前学習(clip)は,ゼロショット学習やテキスト誘導型視覚タスクなど,下流タスクに大きなメリットがある強力なマルチモーダル大規模視覚モデルである。
しかし,モデルの信頼性が損なわれ,関連するタスクが妨げられるような説明可能性に関する深刻な問題に気が付く。
特に,CLIPは,人的理解に矛盾する予測類似性マップに従って,前景よりも背景領域を好む。
さらに、無関係な位置での可視化結果には明らかなノイズアクティベーションがある。
この2つの問題に対処するために,我々は詳細な分析を行い,新たな発見と証拠によってその理由を明らかにする。
これらの知見に基づいて,複数のオープン語彙タスクにおいて,推論アーキテクチャや特徴に対する手術的な修正を可能にするCLIPオペレーション(CLIP Surgery)を提案する。
提案手法は、畳み込みネットワークとビジョントランスフォーマーの両方においてCLIPの説明可能性を大幅に改善し、既存の手法を大きなマージンで上回った。
また,オープン語彙のセグメンテーションや複数ラベル認識タスクの大幅な改善も示す。
例えば,NUS-Wideのマルチラベル認識におけるmAPの改善は,追加トレーニングなしで4.41%であり,CLIPオペレーションはmIoUでmIoUで8.74%超えている。
さらに,Segment Anything Model (SAM) のようなマルチモーダルな可視化や対話型セグメンテーションなどのタスクにも有効である。
コードはhttps://github.com/xmed-lab/CLIP_Surgeryで入手できる。
関連論文リスト
- Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
本研究では、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのための強力なベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP
Limitations [9.444540281544715]
オープン語彙認識のための新しいエージェントを提案する。
提案手法は,クラス固有の知識に頼ることなく,フレーム間の類似性や概念間の類似性を利用してエージェントの動きをナビゲートし,特徴を融合する。
論文 参考訳(メタデータ) (2023-11-28T19:24:07Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。