論文の概要: GPT-Prompt Controlled Diffusion for Weakly-Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2310.09760v2
- Date: Thu, 18 Jan 2024 08:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 19:58:36.628524
- Title: GPT-Prompt Controlled Diffusion for Weakly-Supervised Semantic
Segmentation
- Title(参考訳): 弱改良セマンティックセグメンテーションのためのGPTプロンプト制御拡散
- Authors: Wangyu Wu, Tianhong Dai, Xiaowei Huang, Fei Ma, Jimin Xiao
- Abstract要約: データ拡張のためのGPCD(GPT-Prompt Controlled Diffusion)と呼ばれる新しい手法を提案する。
GPCDは、GPTプロンプトによって誘導される制御拡散によって達成される、様々な画像で拡張することで、現在のラベル付きデータセットを強化する。
提案手法は既存の最先端手法よりも明らかに優れている。
- 参考スコア(独自算出の注目度): 25.628382644404066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised semantic segmentation (WSSS), aiming to train segmentation
models solely using image-level labels, has received significant attention.
Existing approaches mainly concentrate on creating high-quality pseudo labels
by utilizing existing images and their corresponding image-level labels.
However, the quality of pseudo labels degrades significantly when the size of
available dataset is limited. Thus, in this paper, we tackle this problem from
a different view by introducing a novel approach called GPT-Prompt Controlled
Diffusion (GPCD) for data augmentation. This approach enhances the current
labeled datasets by augmenting with a variety of images, achieved through
controlled diffusion guided by GPT prompts. In this process, the existing
images and image-level labels provide the necessary control information, where
GPT is employed to enrich the prompts, leading to the generation of diverse
backgrounds. Moreover, we integrate data source information as tokens into the
Vision Transformer (ViT) framework. These tokens are specifically designed to
improve the ability of downstream WSSS framework to recognize the origins of
augmented images. Our proposed GPCD approach clearly surpasses existing
state-of-the-art methods. This effect is more obvious when the amount of
available data is small, demonstrating the effectiveness of our method.
- Abstract(参考訳): 画像レベルラベルのみを使用してセグメンテーションモデルを訓練することを目的としたweakly supervised semantic segmentation (wsss) が注目されている。
既存の手法は主に、既存の画像とその対応する画像レベルラベルを利用して高品質な擬似ラベルを作成することに集中している。
しかし、利用可能なデータセットのサイズが限られると、擬似ラベルの品質は大幅に低下する。
そこで本稿では,データ拡張のためのGPCD(GPT-Prompt Controlled Diffusion)と呼ばれる新しいアプローチを導入することで,この問題を異なる視点から解決する。
このアプローチは、GPTプロンプトによって誘導される制御拡散によって達成される、様々な画像で拡張することで、現在のラベル付きデータセットを強化する。
このプロセスでは、既存の画像と画像レベルのラベルが必要な制御情報を提供し、GPTはプロンプトの強化に使用され、多様な背景が生成される。
さらに、データソース情報をトークンとしてViT(Vision Transformer)フレームワークに統合する。
これらのトークンは、強調画像の起源を認識するために、下流のWSSSフレームワークの能力を改善するように設計されている。
提案するgpcdアプローチは,既存の最先端手法を明らかに上回っている。
この効果は、利用可能なデータ量が小さくなるとより明確になり、この方法の有効性が示される。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation [47.271784693700845]
本稿では,教師なしイベントベースセマンティックセマンティックセグメンテーション(HPL-ESS)のためのハイブリッド擬似ラベルフレームワークを提案する。
提案手法は,DSEC-Semanticデータセットにおいて,既存の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-25T14:02:33Z) - CLIP-Guided Source-Free Object Detection in Aerial Images [17.26407623526735]
高解像度の空中画像は、しばしばかなりのストレージスペースを必要とし、一般にはアクセスできない。
そこで本研究では,これらの課題に対処する新しいSFOD法を提案する。
自己学習における雑音ラベルを緩和するために,コントラスト言語画像事前学習(CLIP)を用いて擬似ラベルの生成を誘導する。
CLIPのゼロショット分類機能を利用することで、そのスコアを予測された元のバウンディングボックスに集約し、擬似ラベルの洗練されたスコアを得ることができる。
論文 参考訳(メタデータ) (2024-01-10T14:03:05Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Semi-weakly Supervised Contrastive Representation Learning for Retinal
Fundus Images [0.2538209532048867]
本稿では,半弱化アノテーションを用いた表現学習のための,半弱化教師付きコントラスト学習フレームワークを提案する。
SWCLの移動学習性能を7つの公立網膜眼底データセットで実証的に検証した。
論文 参考訳(メタデータ) (2021-08-04T15:50:09Z) - Pseudo Pixel-level Labeling for Images with Evolving Content [5.573543601558405]
画像の手動アノテーションの労力を削減するために,擬似ピクセルレベルのラベル生成手法を提案する。
VGGとResNetのバックボーンを用いた2つのセマンティックセグメンテーションモデルを、擬似ラベリング法と最先端手法を用いてラベル付けした画像上で学習する。
以上の結果から, トレーニングプロセスにおいて, 最先端手法を用いて生成したデータの代わりに擬似ラベルを用いることで, VGGおよびResNetに基づくセマンティックセマンティックセグメンテーションモデルの平均IoUと周波数重み付きIoUを3.36%, 2.58%, 10倍改善することがわかった。
論文 参考訳(メタデータ) (2021-05-20T18:14:19Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - SSKD: Self-Supervised Knowledge Distillation for Cross Domain Adaptive
Person Re-Identification [25.96221714337815]
ドメイン適応型人物再識別(re-ID)は、ソースドメインとターゲットドメインの間に大きな違いがあるため、難しい課題である。
既存の手法は主にクラスタリングアルゴリズムによって未ラベルのターゲット画像の擬似ラベルを生成する。
本稿では,識別学習とソフトラベル学習の2つのモジュールを含む自己監督的知識蒸留(SSKD)手法を提案する。
論文 参考訳(メタデータ) (2020-09-13T10:12:02Z) - Instance-Aware Graph Convolutional Network for Multi-Label
Classification [55.131166957803345]
グラフ畳み込みニューラルネットワーク(GCN)は、マルチラベル画像認識タスクを効果的に強化した。
マルチラベル分類のための事例対応グラフ畳み込みニューラルネットワーク(IA-GCN)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T12:49:28Z) - Data-driven Meta-set Based Fine-Grained Visual Classification [61.083706396575295]
本稿では, ノイズの多いWeb画像に対して, 微粒化認識のためのデータ駆動型メタセットベースアプローチを提案する。
具体的には、少量のクリーンなメタセットでガイドされ、メタラーニング方式で選択ネットを訓練し、分布内および分布外ノイズ画像の識別を行う。
論文 参考訳(メタデータ) (2020-08-06T03:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。