論文の概要: Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2401.09883v1
- Date: Thu, 18 Jan 2024 10:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:56:45.651108
- Title: Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation
- Title(参考訳): 弱教師付き意味セグメンテーションのための質問応答型クロス言語画像マッチング
- Authors: Songhe Deng, Wei Zhuo, Jinheng Xie, Linlin Shen
- Abstract要約: クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.15828464616587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class Activation Map (CAM) has emerged as a popular tool for weakly
supervised semantic segmentation (WSSS), allowing the localization of object
regions in an image using only image-level labels. However, existing CAM
methods suffer from under-activation of target object regions and
false-activation of background regions due to the fact that a lack of detailed
supervision can hinder the model's ability to understand the image as a whole.
In this paper, we propose a novel Question-Answer Cross-Language-Image Matching
framework for WSSS (QA-CLIMS), leveraging the vision-language foundation model
to maximize the text-based understanding of images and guide the generation of
activation maps. First, a series of carefully designed questions are posed to
the VQA (Visual Question Answering) model with Question-Answer Prompt
Engineering (QAPE) to generate a corpus of both foreground target objects and
backgrounds that are adaptive to query images. We then employ contrastive
learning in a Region Image Text Contrastive (RITC) network to compare the
obtained foreground and background regions with the generated corpus. Our
approach exploits the rich textual information from the open vocabulary as
additional supervision, enabling the model to generate high-quality CAMs with a
more complete object region and reduce false-activation of background regions.
We conduct extensive analysis to validate the proposed method and show that our
approach performs state-of-the-art on both PASCAL VOC 2012 and MS COCO
datasets. Code is available at: https://github.com/CVI-SZU/QA-CLIMS
- Abstract(参考訳): クラスアクティベーションマップ(CAM)は、イメージレベルのラベルのみを使用して画像内のオブジェクト領域のローカライズを可能にする、弱教師付きセマンティックセグメンテーション(WSSS)の一般的なツールとして登場した。
しかし,既存のCAM手法では,詳細な監視の欠如が,画像全体を理解する能力の障害となるため,対象領域の過失や背景領域の誤動作に悩まされている。
本稿では、画像のテキストベース理解を最大化し、アクティベーションマップの生成を導く視覚言語基礎モデルを活用した、wsss(qa-clims)のための新しい質問応答型クロス言語画像マッチングフレームワークを提案する。
まず,質問応答技術(QAPE)を用いたVQA(Visual Question Answering)モデルを用いて,質問対象オブジェクトと検索対象背景の両方のコーパスを生成する。
次に、得られた前景および背景領域と生成されたコーパスを比較するために、Regional Image Text Contrastive (RITC) ネットワークにおいてコントラスト学習を用いる。
このアプローチでは、オープン語彙からの豊富なテキスト情報を追加の監督として活用し、より完全なオブジェクト領域で高品質なカムを生成し、背景領域の誤動作を低減できる。
提案手法の有効性を検証し,提案手法がPASCAL VOC 2012とMS COCOデータセットの両方で最先端の処理を行うことを示す。
コードは、https://github.com/CVI-SZU/QA-CLIMSで入手できる。
関連論文リスト
- DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Contrastive learning of Class-agnostic Activation Map for Weakly
Supervised Object Localization and Semantic Segmentation [32.76127086403596]
ラベルなし画像データを用いたクラス非依存型活性化マップ(C$2$AM)生成のためのコントラスト学習を提案する。
我々は上記の関係に基づいて正対と負の対を形成し、ネットワークを前景と背景を乱すように強制する。
ネットワークは画像前景を識別するために誘導されるため,本手法で学習したクラス非依存のアクティベーションマップは,より完全なオブジェクト領域を生成する。
論文 参考訳(メタデータ) (2022-03-25T08:46:24Z) - Cross Language Image Matching for Weakly Supervised Semantic
Segmentation [26.04918485403939]
本稿では,CLIP(Contrastive Language- Image Pre-training)モデルに基づく,CLIMS(Cross Language Image Matching)フレームワークを提案する。
我々のフレームワークの中核となる考え方は、より完全なオブジェクト領域を活性化し、密接に関連するオープンバックグラウンド領域を抑えるために自然言語の監督を導入することである。
さらに、モデルが密接に関連する背景領域を活性化しないように、共起した背景抑圧損失を設計する。
論文 参考訳(メタデータ) (2022-03-05T06:39:48Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Cross-Image Region Mining with Region Prototypical Network for Weakly
Supervised Segmentation [45.39679291105364]
トレーニングセットのクロスイメージオブジェクトの多様性を探索する領域ネットワークRPNetを提案する。
画像にまたがる類似の物体は、地域特徴比較によって識別される。
実験の結果,提案手法はより完全で正確な擬似物体マスクを生成することがわかった。
論文 参考訳(メタデータ) (2021-08-17T02:51:02Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。