論文の概要: GPT-Prompt Controlled Diffusion for Weakly-Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2310.09760v2
- Date: Thu, 18 Jan 2024 08:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 19:58:36.628524
- Title: GPT-Prompt Controlled Diffusion for Weakly-Supervised Semantic
Segmentation
- Title(参考訳): 弱改良セマンティックセグメンテーションのためのGPTプロンプト制御拡散
- Authors: Wangyu Wu, Tianhong Dai, Xiaowei Huang, Fei Ma, Jimin Xiao
- Abstract要約: データ拡張のためのGPCD(GPT-Prompt Controlled Diffusion)と呼ばれる新しい手法を提案する。
GPCDは、GPTプロンプトによって誘導される制御拡散によって達成される、様々な画像で拡張することで、現在のラベル付きデータセットを強化する。
提案手法は既存の最先端手法よりも明らかに優れている。
- 参考スコア(独自算出の注目度): 25.628382644404066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised semantic segmentation (WSSS), aiming to train segmentation
models solely using image-level labels, has received significant attention.
Existing approaches mainly concentrate on creating high-quality pseudo labels
by utilizing existing images and their corresponding image-level labels.
However, the quality of pseudo labels degrades significantly when the size of
available dataset is limited. Thus, in this paper, we tackle this problem from
a different view by introducing a novel approach called GPT-Prompt Controlled
Diffusion (GPCD) for data augmentation. This approach enhances the current
labeled datasets by augmenting with a variety of images, achieved through
controlled diffusion guided by GPT prompts. In this process, the existing
images and image-level labels provide the necessary control information, where
GPT is employed to enrich the prompts, leading to the generation of diverse
backgrounds. Moreover, we integrate data source information as tokens into the
Vision Transformer (ViT) framework. These tokens are specifically designed to
improve the ability of downstream WSSS framework to recognize the origins of
augmented images. Our proposed GPCD approach clearly surpasses existing
state-of-the-art methods. This effect is more obvious when the amount of
available data is small, demonstrating the effectiveness of our method.
- Abstract(参考訳): 画像レベルラベルのみを使用してセグメンテーションモデルを訓練することを目的としたweakly supervised semantic segmentation (wsss) が注目されている。
既存の手法は主に、既存の画像とその対応する画像レベルラベルを利用して高品質な擬似ラベルを作成することに集中している。
しかし、利用可能なデータセットのサイズが限られると、擬似ラベルの品質は大幅に低下する。
そこで本稿では,データ拡張のためのGPCD(GPT-Prompt Controlled Diffusion)と呼ばれる新しいアプローチを導入することで,この問題を異なる視点から解決する。
このアプローチは、GPTプロンプトによって誘導される制御拡散によって達成される、様々な画像で拡張することで、現在のラベル付きデータセットを強化する。
このプロセスでは、既存の画像と画像レベルのラベルが必要な制御情報を提供し、GPTはプロンプトの強化に使用され、多様な背景が生成される。
さらに、データソース情報をトークンとしてViT(Vision Transformer)フレームワークに統合する。
これらのトークンは、強調画像の起源を認識するために、下流のWSSSフレームワークの能力を改善するように設計されている。
提案するgpcdアプローチは,既存の最先端手法を明らかに上回っている。
この効果は、利用可能なデータ量が小さくなるとより明確になり、この方法の有効性が示される。
関連論文リスト
- PEPL: Precision-Enhanced Pseudo-Labeling for Fine-Grained Image Classification in Semi-Supervised Learning [3.801446153948012]
半教師付き学習フレームワーク内でのきめ細かい画像分類のためのPEPL(Precision-Enhanced Pseudo-Labeling)手法を提案する。
提案手法は,高品質な擬似ラベルを生成することにより,ラベルなしデータの豊富さを活用する。
ベンチマークデータセット上での最先端のパフォーマンスを実現し、既存の半教師付き戦略よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-09-05T02:32:07Z) - HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation [47.271784693700845]
本稿では,教師なしイベントベースセマンティックセマンティックセグメンテーション(HPL-ESS)のためのハイブリッド擬似ラベルフレームワークを提案する。
提案手法は,DSEC-Semanticデータセットにおいて,既存の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-25T14:02:33Z) - Distilling Self-Supervised Vision Transformers for Weakly-Supervised
Few-Shot Classification & Segmentation [58.03255076119459]
視覚変換器(ViT)を利用した弱教師付き小ショット画像分類とセグメンテーションの課題に対処する。
提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を利用して分類とセグメンテーションの予測を行う。
Pascal-5iとCOCO-20iの実験は、様々な監視設定において大きなパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2023-07-07T06:16:43Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels [70.45813147115126]
部分ラベル付きマルチラベル画像認識(MLR-PL)は、アノテーションのコストを大幅に削減し、大規模なMLRを促進する。
それぞれの画像と異なる画像の間に強い意味的相関が存在することがわかった。
これらの相関関係は、未知のラベルを取得するために、既知のラベルが持つ知識を転送するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T08:37:38Z) - Inferring Prototypes for Multi-Label Few-Shot Image Classification with
Word Vector Guided Attention [45.6809084493491]
ML-FSIC (Multi-label few-shot Image Classification) は、画像に記述ラベルを割り当てるタスクである。
本稿では,ラベルの意味に関する事前知識の形式として,単語埋め込みを提案する。
我々のモデルは、モデルパラメータを微調整することなく、未確認ラベルのプロトタイプを推測することができる。
論文 参考訳(メタデータ) (2021-12-02T07:59:11Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z) - SSKD: Self-Supervised Knowledge Distillation for Cross Domain Adaptive
Person Re-Identification [25.96221714337815]
ドメイン適応型人物再識別(re-ID)は、ソースドメインとターゲットドメインの間に大きな違いがあるため、難しい課題である。
既存の手法は主にクラスタリングアルゴリズムによって未ラベルのターゲット画像の擬似ラベルを生成する。
本稿では,識別学習とソフトラベル学習の2つのモジュールを含む自己監督的知識蒸留(SSKD)手法を提案する。
論文 参考訳(メタデータ) (2020-09-13T10:12:02Z) - Instance-Aware Graph Convolutional Network for Multi-Label
Classification [55.131166957803345]
グラフ畳み込みニューラルネットワーク(GCN)は、マルチラベル画像認識タスクを効果的に強化した。
マルチラベル分類のための事例対応グラフ畳み込みニューラルネットワーク(IA-GCN)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T12:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。