Fugu-MT 論文翻訳(概要): Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation

論文の概要: Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation

arxiv url: http://arxiv.org/abs/2503.20826v1
Date: Wed, 26 Mar 2025 02:00:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-27 12:10:32.506178
Title: Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation
Title（参考訳）: 弱教師付きセマンティックセグメンテーションのためのCLIPの難易度知識の探索
Authors: Zhiwei Yang, Yucong Meng, Kexue Fu, Feilong Tang, Shuo Wang, Zhijian Song,
Abstract要約: 画像レベルラベル付き弱スーパービジョンセマンティック(WSSS)は、クラスマップ(CAM)を用いた画素レベルの予測を実現することを目的としている。最近の手法は主にCAM生成のための画像テキストアライメントに重点を置いているが、パッチテキストアライメントにおけるCLIPの可能性はいまだ解明されていない。我々は,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。
参考スコア（独自算出の注目度）: 19.26516470653798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weakly Supervised Semantic Segmentation (WSSS) with image-level labels aims to achieve pixel-level predictions using Class Activation Maps (CAMs). Recently, Contrastive Language-Image Pre-training (CLIP) has been introduced in WSSS. However, recent methods primarily focus on image-text alignment for CAM generation, while CLIP's potential in patch-text alignment remains unexplored. In this work, we propose ExCEL to explore CLIP's dense knowledge via a novel patch-text alignment paradigm for WSSS. Specifically, we propose Text Semantic Enrichment (TSE) and Visual Calibration (VC) modules to improve the dense alignment across both text and vision modalities. To make text embeddings semantically informative, our TSE module applies Large Language Models (LLMs) to build a dataset-wide knowledge base and enriches the text representations with an implicit attribute-hunting process. To mine fine-grained knowledge from visual features, our VC module first proposes Static Visual Calibration (SVC) to propagate fine-grained knowledge in a non-parametric manner. Then Learnable Visual Calibration (LVC) is further proposed to dynamically shift the frozen features towards distributions with diverse semantics. With these enhancements, ExCEL not only retains CLIP's training-free advantages but also significantly outperforms other state-of-the-art methods with much less training cost on PASCAL VOC and MS COCO.
Abstract（参考訳）: 画像レベルのラベル付きWSSS(Weakly Supervised Semantic Segmentation)は,クラスアクティベーションマップ(CAM)を用いて画素レベルの予測を実現することを目的としている。近年,WSSS では CLIP (Contrastive Language- Image Pre-training) が導入されている。しかし、最近の手法は主にCAM生成のための画像-テキストアライメントに焦点を当てているが、パッチ-テキストアライメントにおけるCLIPの可能性はいまだ解明されていない。本稿では,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。具体的には,テキスト・セマンティック・エンリッチメント(TSE)とビジュアル・キャリブレーション(VC)モジュールを提案する。テキストの埋め込みを意味的に情報化するために、我々のTSEモジュールはLarge Language Models (LLMs) を用いてデータセット全体の知識ベースを構築し、暗黙の属性ハンティングプロセスでテキスト表現を強化する。視覚的特徴からきめ細かい知識を抽出するために、私たちのVCモジュールはまず、非パラメトリックな方法できめ細かな知識を伝播する静的ビジュアルキャリブレーション(SVC)を提案します。次に、Learnerable Visual Calibration (LVC) が提案され、凍結した特徴を多様な意味を持つ分布へ動的にシフトする。これらの強化により、ExCELはCLIPのトレーニング不要のアドバンテージを維持するだけでなく、PASCAL VOCやMS COCOのトレーニングコストを大幅に削減して、最先端の他の手法よりも大幅に向上する。

関連論文リスト

SAPL: Semantic-Agnostic Prompt Learning in CLIP for Weakly Supervised Image Manipulation Localization [45.19935082419337]
悪意のある画像操作は公衆の安全を脅かし、効率的な位置決め方法を必要とする。既存の弱教師付き手法は画像レベルのバイナリラベルに依存し、グローバルな分類に重点を置いている。本稿では,CLIPにおける意味非依存型プロンプト学習(SAPL)を提案し,非意味的,境界中心的なキューを意図的に符号化するテキストプロンプトを学習する。
論文参考訳（メタデータ） (2026-01-09T07:25:55Z)
InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer [13.655842827096611]
本稿では,事前学習したCLIPからセグメンテーションタスクへアライメント知識を伝達するInfoCLIPを提案する。まず、事前訓練されたCLIPからピクセル・テキスト・モダリティ・アライメントを圧縮し、その粗い局所的意味表現から生じるノイズを低減する。第2に,プレトレーニング済みCLIPのアライメント知識と微調整モデルとの相互情報を最大化し,セグメンテーションタスクに適したコンパクトな局所意味関係を伝達する。
論文参考訳（メタデータ） (2025-11-20T01:40:15Z)
Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning [19.210280671911278]
継続的な学習は、過去の知識を忘れずにタスクの流れから学習する能力をモデルに装備することを目的としている。本稿では,テキスト先行のアンチフォッゲッティングと構造化の性質を利用した統合フレームワークを提案し,セマンティック・アウェア・ナレッジ・トランスファーを導く。
論文参考訳（メタデータ） (2025-08-03T04:09:00Z)
LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-30T05:49:42Z)
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements [0.6990493129893112]
ビジョン言語モデルの最近の進歩は、コンピュータビジョンタスクにおける評価パラダイムを再形成している。これらの基礎モデル、特にCLIPは、オープン語彙コンピュータビジョンタスクの研究を加速してきた。本研究では,CLIPのセマンティックセグメンテーション性能を,新しいモジュールの導入と修正によって向上させる。 ITACLIPはセグメンテーションベンチマークの最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-11-18T20:31:38Z)
Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。 CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文参考訳（メタデータ） (2024-10-03T17:56:09Z)
DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。 DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文参考訳（メタデータ） (2024-09-24T06:51:49Z)
Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文参考訳（メタデータ） (2024-08-02T07:51:44Z)
SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。 SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-10-20T08:44:47Z)
Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。 CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文参考訳（メタデータ） (2023-10-08T04:00:20Z)
VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。 VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文参考訳（メタデータ） (2021-12-04T18:34:24Z)
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文参考訳（メタデータ） (2021-12-02T18:59:32Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。