論文の概要: Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance
- arxiv url: http://arxiv.org/abs/2409.06002v2
- Date: Thu, 12 Sep 2024 10:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 13:20:50.095959
- Title: Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance
- Title(参考訳): より強力な誘導によるセマンティックセグメンテーションのための生成データ強化
- Authors: Quang-Huy Che, Duc-Tri Le, Vinh-Tiep Nguyen,
- Abstract要約: 制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張手法を提案する。
提案手法は,クラス・プロンプト・アペンディングとビジュアル・プリミティブ・コンバインドを用いた効率的なプロンプト生成を含む。
提案手法をPASCAL VOCデータセット上で評価した結果,セマンティックセグメンテーションにおける画像の合成に極めて有効であることが判明した。
- 参考スコア(独自算出の注目度): 1.2923961938782627
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data augmentation is a widely used technique for creating training data for tasks that require labeled data, such as semantic segmentation. This method benefits pixel-wise annotation tasks requiring much effort and intensive labor. Traditional data augmentation methods involve simple transformations like rotations and flips to create new images from existing ones. However, these new images may lack diversity along the main semantic axes in the data and not change high-level semantic properties. To address this issue, generative models have emerged as an effective solution for augmenting data by generating synthetic images. Controllable generative models offer a way to augment data for semantic segmentation tasks using a prompt and visual reference from the original image. However, using these models directly presents challenges, such as creating an effective prompt and visual reference to generate a synthetic image that accurately reflects the content and structure of the original. In this work, we introduce an effective data augmentation method for semantic segmentation using the Controllable Diffusion Model. Our proposed method includes efficient prompt generation using Class-Prompt Appending and Visual Prior Combination to enhance attention to labeled classes in real images. These techniques allow us to generate images that accurately depict segmented classes in the real image. In addition, we employ the class balancing algorithm to ensure efficiency when merging the synthetic and original images to generate balanced data for the training dataset. We evaluated our method on the PASCAL VOC datasets and found it highly effective for synthesizing images in semantic segmentation.
- Abstract(参考訳): データ拡張は、セマンティックセグメンテーションのようなラベル付きデータを必要とするタスクのためのトレーニングデータを作成するために広く使用されるテクニックである。
この方法は、多くの労力と集中的な労力を必要とする画素単位のアノテーションタスクに役立ちます。
従来のデータ拡張方法は、回転やフリップのような単純な変換を伴って、既存のものから新しいイメージを生成する。
しかし、これらの新しい画像はデータの主セマンティック軸に沿って多様性が欠如し、高レベルのセマンティック特性が変化しない可能性がある。
この問題に対処するために、生成モデルは、合成画像を生成してデータを増強するための有効なソリューションとして登場した。
制御可能な生成モデルは、元の画像からのプロンプトと視覚的参照を使用して、セマンティックセグメンテーションタスクのためのデータを増やす方法を提供する。
しかし、これらのモデルを使用することで、効果的なプロンプトと視覚的参照を作成し、オリジナルの内容と構造を正確に反映した合成画像を生成するといった課題を直接提示する。
本研究では,制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張手法を提案する。
提案手法は,実画像におけるラベル付きクラスへの注意を高めるために,クラス・プロンプト・アペンディングとビジュアル・プライオリデーションを用いた効率的なプロンプト生成を含む。
これらの手法により、実画像中のセグメント化されたクラスを正確に描写する画像を生成することができる。
さらに,学習データセットのバランスデータを生成するために,合成画像と原画像とをマージする際の効率を確保するために,クラスバランスアルゴリズムを用いる。
提案手法をPASCAL VOCデータセット上で評価した結果,セマンティックセグメンテーションにおける画像の合成に極めて有効であることが判明した。
関連論文リスト
- FuseNet: Self-Supervised Dual-Path Network for Medical Image
Segmentation [3.485615723221064]
FuseNetは、自己教師型セマンティックセグメンテーションのためのデュアルストリームフレームワークである。
クロスモーダル融合技術は、テキストデータを拡張画像に置き換えることで、CLIPの原理を拡張している。
皮膚病変と肺分画データセットの実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-22T00:03:16Z) - Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for
Pixel-Level Semantic Segmentation [6.82236459614491]
テキストから画像への生成モデルであるStable Diffusionを用いて,ピクセルレベルのセマンティックセマンティックセマンティクスラベルを生成する手法を提案する。
テキストプロンプト,クロスアテンション,SDの自己アテンションを活用することで,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。
これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。
論文 参考訳(メタデータ) (2023-09-25T17:19:26Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Few-shot Semantic Image Synthesis with Class Affinity Transfer [23.471210664024067]
そこで本研究では,大規模なデータセット上でトレーニングされたモデルを利用して,小規模なターゲットデータセット上での学習能力を向上させるトランスファー手法を提案する。
クラス親和性行列は、ターゲットラベルマップと互換性を持たせるために、ソースモデルの第一層として導入される。
セマンティック・セマンティック・シンセサイザー(セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アーキテクチャー)にアプローチを適用する。
論文 参考訳(メタデータ) (2023-04-05T09:24:45Z) - HandsOff: Labeled Dataset Generation With No Additional Human
Annotations [13.11411442720668]
本稿では,任意の数の合成画像と対応するラベルを生成する技術であるHandsOffフレームワークを紹介する。
本フレームワークは,GANインバージョンフィールドとデータセット生成を統一することにより,先行作業の現実的な欠点を回避する。
顔、車、フルボディの人間のポーズ、都市運転シーンなど、複数の挑戦的な領域において、リッチなピクセルワイズラベルを持つデータセットを生成します。
論文 参考訳(メタデータ) (2022-12-24T03:37:02Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Half-Real Half-Fake Distillation for Class-Incremental Semantic
Segmentation [84.1985497426083]
畳み込みニューラルネットワークは漸進的な学習に不適である。
新しいクラスは利用できるが、初期トレーニングデータは保持されない。
訓練されたセグメンテーションネットワークを「反転」して、ランダムノイズから始まる入力画像の合成を試みる。
論文 参考訳(メタデータ) (2021-04-02T03:47:16Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。