論文の概要: Toward Modality Gap: Vision Prototype Learning for Weakly-supervised Semantic Segmentation with CLIP
- arxiv url: http://arxiv.org/abs/2412.19650v1
- Date: Fri, 27 Dec 2024 13:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:15.262396
- Title: Toward Modality Gap: Vision Prototype Learning for Weakly-supervised Semantic Segmentation with CLIP
- Title(参考訳): モダリティギャップに向けて:CLIPを用いた弱教師付きセマンティックセマンティックセグメンテーションのための視覚プロトタイプ学習
- Authors: Zhongxing Xu, Feilong Tang, Zhe Chen, Yingxue Su, Zhiyi Zhao, Ge Zhang, Jionglong Su, Zongyuan Ge,
- Abstract要約: 本稿では,テキストプロトタイプの助けを借りて,視覚空間におけるクラス固有の視覚プロトタイプを学習するためのフレームワークを提案する。
また、対応するプロトタイプに埋め込まれた領域を対比する地域意味コントラストモジュールを提案する。
提案するフレームワークは,2つのベンチマークデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 19.697857943845012
- License:
- Abstract: The application of Contrastive Language-Image Pre-training (CLIP) in Weakly Supervised Semantic Segmentation (WSSS) research powerful cross-modal semantic understanding capabilities. Existing methods attempt to optimize input text prompts for improved alignment of images and text, by finely adjusting text prototypes to facilitate semantic matching. Nevertheless, given the modality gap between text and vision spaces, the text prototypes employed by these methods have not effectively established a close correspondence with pixel-level vision features. In this work, our theoretical analysis indicates that the inherent modality gap results in misalignment of text and region features, and that this gap cannot be sufficiently reduced by minimizing contrast loss in CLIP. To mitigate the impact of the modality gap, we propose a Vision Prototype Learning (VPL) framework, by introducing more representative vision prototypes. The core of this framework is to learn class-specific vision prototypes in vision space with the help of text prototypes, for capturing high-quality localization maps. Moreover, we propose a regional semantic contrast module that contrasts regions embedding with corresponding prototypes, leading to more comprehensive and robust feature learning. Experimental results show that our proposed framework achieves state-of-the-art performance on two benchmark datasets.
- Abstract(参考訳): Weakly Supervised Semantic Segmentation (WSSS) におけるContrastive Language-Image Pre-training (CLIP) の適用
既存の手法では,テキストのプロトタイプを微調整してセマンティックマッチングを容易にすることで,画像とテキストのアライメントを改善するための入力テキストプロンプトの最適化を試みる。
それにもかかわらず、テキスト空間と視覚空間のモダリティギャップを考えると、これらの手法を用いたテキストプロトタイプは、ピクセルレベルの視覚特徴との密接な対応を効果的に確立していない。
本論では,CLIPのコントラスト損失を最小限に抑えることで,本質的なモダリティギャップがテキストや地域特徴のずれを生じ,このギャップを十分に低減できないことを示す。
モダリティギャップの影響を軽減するために,より代表的な視覚プロトタイプを導入することで,視覚プロトタイプ学習(VPL)フレームワークを提案する。
このフレームワークの中核は、高品質なローカライゼーションマップを取得するために、テキストプロトタイプの助けを借りて、視覚空間におけるクラス固有の視覚プロトタイプを学習することである。
さらに,対応するプロトタイプに埋め込まれた領域を対比し,より包括的でロバストな特徴学習を実現する地域意味コントラストモジュールを提案する。
実験の結果,提案するフレームワークは2つのベンチマークデータセット上で最先端の性能を実現することがわかった。
関連論文リスト
- Dual-Modal Prototype Joint Learning for Compositional Zero-Shot Learning [15.183106475115583]
合成ゼロショット学習 (CZSL) は, 属性や対象の新規な構成を認識することを目的として, 目に見える構成から学習した知識を活用する。
CZSLタスクのための新しいデュアルモーダルプロトタイプ共同学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T17:30:27Z) - Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2021-08-16T13:16:58Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。